原贴链接

我刚开始有在本地运行大型语言模型(LLM)的想法。目前我有一个网络应用,依靠LLM将描述解析为JSON对象。我发现Deepseek(R1以及稍逊但仍可用的扩展版本V3)表现最佳,但Deepseek的API不可靠,所以我正在考虑在本地运行它。10000美元的预算用于在本地运行这些模型是否合理?如果合理的话,我能得到什么样的每秒事务处理量(TPS)呢?还有一个新手的附带问题——TPS是否包括推理时间?我认为不包括,因为推理任务差异很大,但如果不包括推理时间,那么TPS通常应该很高吗?

讨论总结

原帖作者想要用10k美元预算在本地运行Deepseek用于推理,询问能得到的TPS,评论者从不同角度进行回应。一些人认为10k预算合理,给出相关硬件搭配和性能数据;也有人觉得新手不应花费这么多钱在硬件上,还有很多建议如租用硬件、等待新设备或使用其他API等,同时也涉及模型相关的讨论如模型蒸馏、不同版本的性能等,整体讨论氛围积极,大家各抒己见。

主要观点

  1. 👍 10,000美元预算在本地运行模型是合理的。
    • 支持理由:以单插槽Epyc Genoa或Turin系统搭配单GPU为例能获取一定性能,还给出了使用ktransformers的性能数据。
    • 反对声音:有观点认为新手不应花费10,000美元在硬件上。
  2. 🔥 新手不应花费10,000美元在硬件上。
    • 正方观点:对于新手来说,在硬件上投入过多可能是一种浪费,可能负担不起或者有更好的选择。
    • 反方观点:原帖作者来提问是个好的开始,并且每个人的初始投资不同,也可能是工具选错而不是负担不起。
  3. 💡 运行Deepseek 32b或70b花费会少很多。
    • 解释:32b和70b是qwen/llama的蒸馏版本,可能在成本上有优势,但对于Deepseek是否有32b模型存在争议。
  4. 💡 建议租用硬件而非购买来运行Deepseek。
    • 解释:租用更便宜,有前瞻性,若满意租用效果可再购买,10k预算购买设备无法达到相应性能。
  5. 💡 可以在相对低成本的设备上运行R1 14b。
    • 解释:有评论者分享自己在花费约800美元的设备上运行R1 14b的经验,质疑原帖10k预算过高。

金句与有趣评论

  1. “😂 Low - Opening25:if you are a noob, the absolute last thing you should be doing is spending $10k on hardware”
    • 亮点:以一种比较绝对的方式表达对新手在硬件上高额投入的不赞同。
  2. “🤔 mxforest:He came to the right place to ask questions so that’s a good start atleast.”
    • 亮点:在大家对10k预算看法不一的情况下,肯定原帖作者提问是个好的开始。
  3. “👀 NickNau:dual - cpu does not double ram bandwidth for llm inference.”
    • 亮点:在关于构建本地运行系统涉及CPU的讨论中,指出双CPU在LLM推理中对内存带宽提升有限的关键事实。
  4. “😎 power97992:Wait for the mac studio or the mac pro, you can get 256 gb of URAM on an m4 mac studio, get two of them for a 6 bit - q model.”
    • 亮点:针对原帖问题给出等待特定设备运行特定量化模型的建议。
  5. “💪 Papabear3339:The full deepseek won’t run on a 10k budget.”
    • 亮点:直接表明10k预算无法运行完整Deepseek模型的观点。

情感分析

总体情感倾向为理性探讨。主要分歧点在于10k预算是否合理用于在本地运行Deepseek,原因是不同人基于自身经验、对原帖作者情况的推测以及对硬件和模型的了解程度不同,所以产生了不同的看法。

趋势与预测

  • 新兴话题:随着时间等待新设备(如英伟达DIGITs、Mac Studio或Mac Pro等)的出现来运行模型。
  • 潜在影响:对于想要在本地运行大型语言模型的用户在预算、硬件选择、模型选择等方面有更多参考,也可能影响相关硬件和模型的市场发展方向。

详细内容:

标题:花费 10000 美元在本地运行 DeepSeek 以进行推理,能达到怎样的每秒处理事务数(TPS)?

在 Reddit 上,有一个关于在本地运行 DeepSeek 模型的热门讨论。原帖作者表示自己有一个依赖语言模型(LLM)将描述解析为 JSON 对象的网络应用,发现 DeepSeek 表现较好但 API 不可靠,于是考虑在本地运行,想知道 10000 美元的预算是否合理以及能达到怎样的 TPS。该帖子获得了众多关注,引发了广泛讨论。

讨论焦点与观点分析: 有人认为,像单插槽 Epyc Genoa 或 Turin 系统搭配单个 GPU 的硬件配置,可以运行相关模型,并给出了性能数据。但也有人直言,使用推理模型进行数据转换就像用半挂车送一份披萨,成本高且效率低,完全是浪费钱。 有人提到,如果是新手,花 10000 美元购置硬件并非明智之举。也有人认为 OP 来这里提问是个好的开始。还有人表示 10000 美元在 OpenRouter 上是很大一笔信用额度。 有人指出,可以等待 Nvidia DIGITs 或其他统一内存系统,或者选择租用硬件,先试用再决定是否购买。 有人认为 10000 美元的预算无法运行完整的 DeepSeek,速度会很不理想,应考虑更小的版本或量化模型。也有人提到可以使用 DeepSeek 的蒸馏模型,成本更低。

总之,关于是否应花费 10000 美元在本地运行 DeepSeek 模型,大家观点各异,有人认为不划算,有人则抱有希望。而具体的 TPS 能达到多少,也取决于多种因素。