为了编码目的，我必须让本地的大型语言模型（LLM）达到近乎即时的速度。这有可能做到吗？如果我花16万美元购买4个tinygrad pro会怎样？这样我就能得到368GB的GPU内存。

讨论总结

原帖作者为了编码目的寻求能达到近即时速度（600 tok / s）的本地大型语言模型（LLM），提到若购买4个16万美元的tinygrad pros可得到368GB的GPU内存，想知道是否可行。评论者们主要围绕硬件相关话题展开讨论，包括硬件推荐、硬件性能对速度的影响以及成本考量等，从不同角度分析能否达到这样的速度。

主要观点

👍 在线租用h200集群比购买16万美元硬件更便宜。
- 支持理由：可以先租用测试，再决定是否购买昂贵硬件，避免不必要的花费。
- 反对声音：无。
🔥 若有300k美元预算，DGX H200（8xH200）是一种选择。
- 正方观点：它有1128GB高带宽内存，批次大小为1时用Q8量化可能达到600tk / s速度。
- 反方观点：对其提到的38.4TB / s内存带宽数据存在疑问。
💡 认为除特定硬件外难以达到近即时速度。
- 解释：SambaNova、Cerebras和Grok可能有能运行的硬件，SambaNova的Qwen 2.5 32b Coder能达到400 - 600 t/s速度。
🤔 质疑在368GB显存下671B模型能否达到600tok/s。
- 解释：Exolabs在512GB、270GB/s内存下运行模型的速度为5.37t/s，与原帖情况对比。
👀 4个Tinygrad Pro不符合预算和需求。
- 解释：应选择高内存量、连接方式优于PCI - E的GPU，Deepseek v3需要快速内存访问，Tinygrad在这方面表现差。

金句与有趣评论

“😂 go rent some h200 clusters online and find out, will be much cheaper than buying $160k of hardware”
- 亮点：直接给出了相比原帖购买硬件更经济的方案。
“🤔 如果您正在认真考虑花费160k美元，您可能需要查看一下DGX H200（8xH200）。”
- 亮点：为有预算的原帖作者提供了一种硬件选择方向。
“👀 SambaNova有Qwen 2.5 32b Coder在400 - 600 t/s。”
- 亮点：指出特定模型能达到接近原帖期望的速度。
“😉 600 t/s on a 671B model, with only 368GB?”
- 亮点：简洁地对原帖中的硬件性能与速度期望提出质疑。
“💥 4 tinygrads is a terrible choice with that sort of budget and requirements.”
- 亮点：明确反对原帖提到的硬件选择。

情感分析

总体情感倾向为中性，大家主要是在理性地讨论技术和硬件相关的问题。主要分歧点在于不同硬件能否达到原帖所期望的速度，可能的原因是不同的硬件在内存带宽、内存量、连接方式等方面存在差异，并且不同模型对硬件性能的要求也不尽相同。

趋势与预测

新兴话题：对一些不太知名硬件如Cerebras Inference的深入探讨可能会引发后续讨论。
潜在影响：对那些有类似编码需求，想要寻找高效本地LLM运行硬件的用户有参考价值，可能影响他们在硬件购买或租用方面的决策。

详细内容：

标题：关于 DeepSeek v3 能否达到 600 tok/s 的热烈讨论

在 Reddit 上，一篇题为“Is DeepSeek v3 at 600 tok / s possible?”的帖子引发了众多关注。该帖称出于编码目的，需要接近即时的速度来运行一个良好的本地 LLM，并探讨是否能实现 600 tok/s 的速度。比如，若购买价值 16 万美元的 4 个 Tinygrad Pro，其提供 368GB GPU RAM，是否可行。此帖获得了大量的点赞和评论，引发了一系列热烈的讨论。

讨论焦点主要集中在几个方面。有人认为，对于单批次而言，通常受限于内存带宽而非计算能力，运行在消费级 GPU 上帮助不大，特别是考虑到互联开销。还有人怀疑以当前硬件，600 tps 不太可能实现，但也有人觉得若有人愿意投入资金去尝试也很酷。

也有不少用户提出了建议。有人建议先去租用一些 h200 集群在线测试，这样会比直接购买 16 万美元的硬件便宜得多。

在个人思考方面，有人认为先租用是更好的选择，并探讨了通过增加更多 GPU 计算来提高 tok / s 对于单个请求是否可行，或者是否会在某个点达到极限。

有用户提到，如果认真考虑花费 16 万美元，可以考虑 DGX H200（8xH200），其具有 1128 GB 高带宽内存，在批量大小为 1 时，可能达到 600 tk/s。但也有人对相关的内存带宽数据提出疑问，经过一番讨论后，一些疑惑得到了解释。

关于硬件选择，有人认为 4 个 Tinygrad 不是一个好选择，而 SambaNova、Cerebras 和 Grok 等的硬件可能能够运行。还有用户提到 Groq 能实现每秒超过 1500 个令牌的处理速度。

总体而言，对于 DeepSeek v3 能否达到 600 tok/s 这一问题，大家观点各异，尚未达成一致。但这些讨论为探索这一技术难题提供了丰富的思路和见解。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#