原贴链接

我刚开始有在本地运行大型语言模型（LLM）的想法。目前我有一个网络应用，依靠LLM将描述解析为JSON对象。我发现Deepseek（R1以及稍逊但仍可用的扩展版本V3）表现最佳，但Deepseek的API不可靠，所以我正在考虑在本地运行它。10000美元的预算用于在本地运行这些模型是否合理？如果合理的话，我能得到什么样的每秒事务处理量（TPS）呢？还有一个新手的附带问题——TPS是否包括推理时间？我认为不包括，因为推理任务差异很大，但如果不包括推理时间，那么TPS通常应该很高吗？

讨论总结

原帖作者想要用10k美元预算在本地运行Deepseek用于推理，询问能得到的TPS，评论者从不同角度进行回应。一些人认为10k预算合理，给出相关硬件搭配和性能数据；也有人觉得新手不应花费这么多钱在硬件上，还有很多建议如租用硬件、等待新设备或使用其他API等，同时也涉及模型相关的讨论如模型蒸馏、不同版本的性能等，整体讨论氛围积极，大家各抒己见。

主要观点

👍 10,000美元预算在本地运行模型是合理的。
- 支持理由：以单插槽Epyc Genoa或Turin系统搭配单GPU为例能获取一定性能，还给出了使用ktransformers的性能数据。
- 反对声音：有观点认为新手不应花费10,000美元在硬件上。
🔥 新手不应花费10,000美元在硬件上。
- 正方观点：对于新手来说，在硬件上投入过多可能是一种浪费，可能负担不起或者有更好的选择。
- 反方观点：原帖作者来提问是个好的开始，并且每个人的初始投资不同，也可能是工具选错而不是负担不起。
💡 运行Deepseek 32b或70b花费会少很多。
- 解释：32b和70b是qwen/llama的蒸馏版本，可能在成本上有优势，但对于Deepseek是否有32b模型存在争议。
💡 建议租用硬件而非购买来运行Deepseek。
- 解释：租用更便宜，有前瞻性，若满意租用效果可再购买，10k预算购买设备无法达到相应性能。
💡 可以在相对低成本的设备上运行R1 14b。
- 解释：有评论者分享自己在花费约800美元的设备上运行R1 14b的经验，质疑原帖10k预算过高。

金句与有趣评论

“😂 Low - Opening25：if you are a noob, the absolute last thing you should be doing is spending $10k on hardware”
- 亮点：以一种比较绝对的方式表达对新手在硬件上高额投入的不赞同。
“🤔 mxforest：He came to the right place to ask questions so that’s a good start atleast.”
- 亮点：在大家对10k预算看法不一的情况下，肯定原帖作者提问是个好的开始。
“👀 NickNau：dual - cpu does not double ram bandwidth for llm inference.”
- 亮点：在关于构建本地运行系统涉及CPU的讨论中，指出双CPU在LLM推理中对内存带宽提升有限的关键事实。
“😎 power97992：Wait for the mac studio or the mac pro, you can get 256 gb of URAM on an m4 mac studio, get two of them for a 6 bit - q model.”
- 亮点：针对原帖问题给出等待特定设备运行特定量化模型的建议。
“💪 Papabear3339：The full deepseek won’t run on a 10k budget.”
- 亮点：直接表明10k预算无法运行完整Deepseek模型的观点。

情感分析

总体情感倾向为理性探讨。主要分歧点在于10k预算是否合理用于在本地运行Deepseek，原因是不同人基于自身经验、对原帖作者情况的推测以及对硬件和模型的了解程度不同，所以产生了不同的看法。

趋势与预测

新兴话题：随着时间等待新设备（如英伟达DIGITs、Mac Studio或Mac Pro等）的出现来运行模型。
潜在影响：对于想要在本地运行大型语言模型的用户在预算、硬件选择、模型选择等方面有更多参考，也可能影响相关硬件和模型的市场发展方向。

详细内容：

标题：花费 10000 美元在本地运行 DeepSeek 以进行推理，能达到怎样的每秒处理事务数（TPS）？

在 Reddit 上，有一个关于在本地运行 DeepSeek 模型的热门讨论。原帖作者表示自己有一个依赖语言模型（LLM）将描述解析为 JSON 对象的网络应用，发现 DeepSeek 表现较好但 API 不可靠，于是考虑在本地运行，想知道 10000 美元的预算是否合理以及能达到怎样的 TPS。该帖子获得了众多关注，引发了广泛讨论。

讨论焦点与观点分析：有人认为，像单插槽 Epyc Genoa 或 Turin 系统搭配单个 GPU 的硬件配置，可以运行相关模型，并给出了性能数据。但也有人直言，使用推理模型进行数据转换就像用半挂车送一份披萨，成本高且效率低，完全是浪费钱。有人提到，如果是新手，花 10000 美元购置硬件并非明智之举。也有人认为 OP 来这里提问是个好的开始。还有人表示 10000 美元在 OpenRouter 上是很大一笔信用额度。有人指出，可以等待 Nvidia DIGITs 或其他统一内存系统，或者选择租用硬件，先试用再决定是否购买。有人认为 10000 美元的预算无法运行完整的 DeepSeek，速度会很不理想，应考虑更小的版本或量化模型。也有人提到可以使用 DeepSeek 的蒸馏模型，成本更低。

总之，关于是否应花费 10000 美元在本地运行 DeepSeek 模型，大家观点各异，有人认为不划算，有人则抱有希望。而具体的 TPS 能达到多少，也取决于多种因素。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#