原帖提出本地推理是未来，评论者们从多个角度进行讨论。有的评论者针对容纳特定数据量所需资源、特定系统性能提出观点，有的认为本地推理效率低不适合严肃工作，还有的对相关硬件如显存容量、内存速度等性能表示期待或质疑，整体氛围争议较大。

“😂 Nope, you are going to need 4 of these to fit 685B”
- 亮点：[直接表达容纳685B数据需要4个某事物的观点]
“🤔 jeffwadsworth：Nope. I use local on a powerful system for fun, but I want fast inference for serious work and that DIGITS system is not going to cut in general.”
- 亮点：[明确指出本地推理用于娱乐而非严肃工作]
“👀 2x128GB of VRAM would be a very low bit quant of R1 (2 bit?). Unlikely to be very good.”
- 亮点：[对2x128GB的VRAM对R1量化效果做出判断]
“😉 Thing is, the train - time / test - time trade - off is gonna make inference dedicated hardware the way to go, as it can be massively more energy efficient than GPUs.”
- 亮点：[强调推理专用硬件在能效方面的优势]
“🙄 It should be, but it wont.”
- 亮点：[简洁表达本地推理虽应是未来趋势但不会成为趋势]

总体情感倾向为否定和质疑原帖“本地推理是未来”的观点。主要分歧点在于本地推理的实用性、效率以及成本等方面。可能的原因是评论者从不同的技术角度和商业角度考虑，如从硬件利用、公司盈利等方面发现本地推理存在诸多问题。

详细内容：

标题：关于未来本地推理的热门讨论

在 Reddit 上，一个题为“@emostaque : The future is local inference”的帖子引发了众多关注。此帖获得了大量的点赞和评论。

帖子主要围绕着本地推理相关的硬件和性能展开讨论。讨论的方向包括对不同硬件配置的性能评估、成本效益分析，以及对未来技术发展的猜测。

文章将要探讨的核心问题是：本地推理在未来的可行性和优势究竟如何？

在讨论中，有人认为需要多个特定配置才能满足需求，比如有人说“需要 4 个这样的设备才能达到 685B”。也有人表示特定配置在特定情况下应该足够，“只有 2 个 2.51bit Q2_K_XL 就应该足够了”。

有用户指出，在强大的系统上使用本地推理只是为了娱乐，对于严肃工作还是需要快速推理，并且相关设备价格昂贵，达到 3000 美元。有人称由于 R1 价格便宜，所以价值 3000 美元的设备在成本上不太合理，除非是为了数据隐私。

还有人认为训练和测试的权衡会使专用推理硬件成为未来的趋势，因为其在能源效率上可能优于 GPU。也有人提到未来可能会有新的技术和产品出现，比如光子芯片，但也有人对此持怀疑态度。

有人提出是否真的需要那么多内存的疑问，认为可以根据需要在中途加载所需的专家，但也有人指出这并非专家的工作方式。

总体来说，讨论中的共识在于大家都在关注本地推理的发展前景和实际应用中的问题。特别有见地的观点如认为专用推理硬件的能源效率优势可能会引领未来，丰富了讨论的深度。

未来本地推理究竟会如何发展，还需要我们持续关注和探讨。

详细内容：#