参考https://github.com/sanjay920/run_deepseek_r1。已达成的吞吐量:在4×H100设置上运行的DeepSeek R1达到了25个令牌/秒的生成率,一小时可达到90,000个输出令牌。Lambda Cloud的计算成本:在Lambda Cloud上运行4×H100 GPU每小时花费12.36美元,每小时生成90,000个令牌,估计每100万个令牌137美元(基于生成100万个令牌需要11.1小时)。与OpenAI O1定价的比较:OpenAI O1每100万个输出令牌收费60美元,按当前吞吐量计算,比这种自托管设置便宜约2 - 2.5倍。
讨论总结
这个讨论围绕在4×H100上运行DeepSeek R1展开,原帖给出了包括生成速率、计算成本以及与OpenAI O1定价比较等数据。评论者们从不同角度提出观点,如认为运行速度慢、原帖吞吐量数据错误、原帖数据与自己经验相比过低、官方定价与成本关系不可信、原帖作者运行操作存在错误等,还有评论者提及存在免费的web app相关内容,但整体讨论热度较低。
主要观点
- 👍 DeepSeek R1在4×H100硬件上运行速度慢。
- 支持理由:未明确提及,只是对比硬件觉得速度慢。
- 反对声音:无。
- 🔥 原帖中的吞吐量数据存在错误。
- 正方观点:直接判断,但未给出理由。
- 反方观点:无(原帖作者未回应)。
- 💡 原帖数据与自己在CPU上运行v3 at q4的情况相比显得过低。
- 支持理由:评论者根据自己的运行经验对比得出。
- 反对声音:原帖作者表示会调查,但未明确反对。
- 💡 官方定价与成本关系不可盲目相信。
- 支持理由:未明确详细理由,只是一种观点表达。
- 反对声音:无。
- 💡 原帖作者在运行模型时操作存在错误。
- 支持理由:评论者分析了原帖作者的操作及运行结果得出。
- 反对声音:无。
金句与有趣评论
- “😂 bitmoji: This seems really slow for the hardware it’s on”
- 亮点:简洁直接地表达出对DeepSeek R1在4×H100硬件上运行速度的看法。
- “🤔 Valuable - Run2129:Throughput is very wrong”
- 亮点:直接指出原帖吞吐量数据的问题,但缺乏解释。
- “👀 Recurrents: these numbers seem way too low compared to what I get on cpu for v3 at q4”
- 亮点:通过自身运行经验对比原帖数据,引出数据差异的讨论。
- “😎 Acrobatic_Age6937:I wouldnt blindly trust the official pricing to have a cost relation. It might just be a giant fuck you by the ccp towards the US AI market.”
- 亮点:提出对官方定价与成本关系的独特看法,同时还涉及到国际关系的一种猜测。
- “🤨 muchcharles:OP is doing something very wrong, he’s running at 1.5 to 2.5bit quantization on 37B active parameters with four H100s and getting slower speeds than we’d see with four 4090s running an unquantized 32B parameter model.”
- 亮点:详细指出原帖作者操作可能存在的错误以及进行数据对比。
情感分析
总体情感倾向为批判性,主要分歧点在于原帖数据(如吞吐量、运行速度相关数据)的准确性以及原帖作者的操作是否正确等方面。可能的原因是大家对在4×H100上运行DeepSeek R1的正确情况有不同的认知和经验,并且对相关数据比较敏感,因为这些数据涉及到运行成本和性能等重要方面。
趋势与预测
- 新兴话题:原帖作者在运行模型时操作是否真的存在错误,可能会引发后续进一步的调查和讨论。
- 潜在影响:如果原帖作者的操作确实存在错误,可能会影响到其他用户对在类似硬件上运行DeepSeek R1的认知和操作方式;同时关于官方定价与实际成本关系的讨论,可能会影响用户对不同模型性价比的判断。
详细内容:
标题:关于在 4×H100 上运行 DeepSeek R1 的热门讨论
近日,Reddit 上一篇关于如何在 4×H100 上运行 DeepSeek R1 的帖子引起了广泛关注。该帖子(https://github.com/sanjay920/run_deepseek_r1)详细介绍了相关情况,获得了众多点赞和大量评论。
帖子中提到,DeepSeek R1 在 4×H100 上的生成速率为 25 个令牌/秒,一小时可达 90,000 个输出令牌。在 Lambda Cloud 上运行 4×H100 GPU 每小时成本为 12.36 美元,生成 100 万个令牌的估计成本约为 137 美元。同时,还将其与 OpenAI O1 的定价进行了对比,后者每 100 万个输出令牌收费 60 美元,当前吞吐量下,OpenAI O1 约比这个自托管设置便宜 2 到 2.5 倍。
讨论焦点主要集中在对这些数据的质疑和分析。有人认为生成速率对于所使用的硬件来说非常慢,比如有人说:“这些数字与我在 cpu 上运行 v3 版本的结果相比太低了。”还有人表示吞吐量的计算可能有误。有人分享道:“我使用的是 v3,q4 版本,以及更大的版本。epyc 7473x 512GB 内存。”
也有用户提到 DeepSeek 官方 API 中,推理模型约为 2 美元/100 万个令牌,但不确定是大的 R1 模型还是较小的 70b 模型。甚至有人质疑官方定价与成本的关系,认为这可能是一种恶意行为。还有人指出 OP 可能存在操作错误,比如量化方式可能导致问题。
同时,也有人提到有免费的网络应用可用。
总的来说,这次讨论中大家对相关数据和操作提出了多种看法和疑问,对于深入了解在 4×H100 上运行 DeepSeek R1 的情况具有重要意义。
感谢您的耐心阅读!来选个表情,或者留个评论吧!