原帖分享了新的本地推理装置，引发了众多讨论。评论者有的请求进行更多测试并分享数据，有的对测试结果进行对比和分析，还有人提及服务器相关的经历和问题，包括噪音、过热等，也有人提出关于推理引擎的疑问，以及对本地推理装置存在意义的质疑，同时还有技术推荐等内容。

“😂 Congrats, Bro. Thanks for sharing the info, if you don’t mind ofc can you try with other models like 70B etc. and tell us what t/s you get.”
- 亮点：礼貌地向原帖作者提出进一步测试请求。
“🤔 When I ran the flappy bird example CPU only on my Epyc 7532 I got around the same, and the MI60s should be faster, so something seems off.”
- 亮点：通过对比自己设备运行结果发现差异。
“👀 I keep seeing local inference rigs here and there, find them insanely cool, but at the end of the day I can’t keep myself from asking why.”
- 亮点：提出对本地推理装置存在意义的疑问。
“😂 u/Jackalzaq you will get 2 - 3x speed up with VLLM tensor parallelism.”
- 亮点：积极推荐提升速度的技术。
“🤔 What I can tell you is this type of power draw gets into same same power demand as gpu crypto mining and that means needing dedicated 240v circuits for it all.”
- 亮点：指出本地推理装置在电源需求方面的特殊之处。

总体情感倾向是比较积极探索的。主要分歧点在于对本地推理装置的看法，部分人认为其很酷并积极探讨相关技术和性能，部分人则质疑其存在的必要性。可能的原因是大家从不同的角度出发，如从技术爱好者角度会更关注性能提升和技术应用，从成本效益角度则会考虑性价比等因素。

详细内容：

标题：关于本地推理设备的热门讨论

最近，Reddit 上一篇名为“My new local inference rig”的帖子引发了众多网友的热烈讨论。该帖子不仅分享了相关设备的信息，还获得了大量的关注，评论数众多。

帖子引发的主要讨论方向集中在设备的性能、功耗、使用体验以及与云服务的对比等方面。其中核心的争议点在于，搭建这样的本地设备是否具有实际意义和价值。

在讨论中，有人分享了详细的测试数据和个人经历。比如，有用户测试了 DeepSeek - R1 - Distill - Llama - 70B - Q4_K_M.gguf 模型，并给出了具体的采样时间、加载时间、评估时间等数据。还有用户表示拥有相同的服务器，并分享了自己的体验。

有人认为 40k 的本地上下文长度非常惊人，也有人好奇在不同上下文长度下的每秒处理令牌数（tps）。对于测试结果，有人认为速度似乎有些慢，并提出了一些优化建议，比如尝试不同的模型大小和量化方式，或者使用特定的指令进行测试。

有用户表示，在运行推理时，设备不会产生过多热量，而在训练小型模型时则会变得很热。还有用户分享了关于服务器机柜的经历，如声音、散热等问题。

对于搭建本地推理设备的意义，有人觉得纯属兴趣，喜欢运行自己的私人模型且不受审查限制，还能进行无限的令牌生成和模型训练。也有人从成本和使用习惯等角度进行了分析。

比如，有用户表示自己会根据不同情况选择使用云服务、私人云计算或者本地设备。还有用户认为虽然从纯成本节省的角度来看不一定合理，但拥有本地硬件在心理上有一定的好处。

详细内容：#