原贴链接

我听说他们的母公司是一家量化基金,可能是今天导致英伟达(NVDA)股价暴跌的推手之一。除此之外,我们如何估计这是可能的呢?或者说离可实现的程度不远呢?由于该模型不包含训练数据集,有没有办法让任何组织对其进行估算呢?亚历克斯·王(Alex Wang)称Deepseek至少有5万张H100,可能更多,并且英伟达去年将20%的H100卖给了新加坡,其中大部分显卡可能被中国公司使用。如果今天英伟达的股价只是他们的量化基金赚钱的一个复杂阴谋呢?

讨论总结

本次讨论围绕Deepseek R1训练成本是否约为600万美元展开。许多评论者对这一成本数字表示怀疑,提出了诸如硬件使用情况不明、可能存在低估GPU集群数量、未包含其他成本等因素。同时也有部分话题延伸到OpenAI的问题以及中国在相关领域的竞争力等方面。

主要观点

  1. 👍 DeepSeek V3单次训练计算成本为600万美元
    • 支持理由:通过Llama 3和DeepSeek V3的训练相关数据对比得出。
    • 反对声音:有评论者认为存在多种不确定因素,无法确定这一成本。
  2. 🔥 无法确定Deepseek R1的训练成本
    • 正方观点:如硬件使用情况不明确、存在制裁影响信息公布等因素。
    • 反方观点:有人认为已有报告表明训练成本合理且开源模型会很快被验证。
  3. 💡 认为OpenAI是资本主义糟粕
    • 解释:评论者未详细阐述原因,但有其他评论者从不同角度反驳,如提到OpenAI提供免费服务,也有人指出是其从开源走向闭源、审查、控制等问题才是关键。
  4. 👍 相信公司领导已处理好生产相关问题且产品性价比高
    • 支持理由:公司领导称已处理好生产产品时可能遇到的问题,且产品比现有领先产品更便宜、效果等同甚至更好。
    • 反对声音:无(未在评论中体现)
  5. 🔥 训练成本比大规模推理成本低
    • 正方观点:Ill_Distribution8517提出训练的成本比为百万人做推理要便宜得多。
    • 反方观点:scmlfty认为目前大部分投资集中在训练上。

金句与有趣评论

  1. “😂 We have known from Llama 3 paper that it takes 30M H100 hours to train Llama 3.1 405B on 15T tokens.”
    • 亮点:通过具体数据来分析模型训练成本。
  2. “🤔 我们无法确定。像Scale AI的CEO曾站出来指出某些情况但却因制裁不能公布使用H100的情况。”
    • 亮点:指出了影响确定训练成本的外部因素。
  3. “👀 Well, we have the word of the CEO/leader of the company producing the revolutionary product that they have handled every potential problem that could have interfered with them producing the product and the product is significantly cheaper and equal to or better than the products of the current leader’s product.”
    • 亮点:从公司领导言论角度看待产品相关情况。
  4. “😂 It doesn’t matter, openai is still dogshitcapitalism at its finest”
    • 亮点:表达对OpenAI强烈的反对态度。
  5. “🤔 Do you think they fake the cost and lose massive amount of money hosting in order to corrupt the US market?”
    • 亮点:对Deepseek R1训练成本提出了一种特别的质疑角度。

情感分析

总体情感倾向为理性探讨,存在分歧。主要分歧点在于Deepseek R1的训练成本是否为600万美元,以及对OpenAI的评价。产生分歧的原因是信息不完整、存在多种不确定因素(如硬件情况、外部制裁影响等)以及不同评论者的立场和关注点不同。

趋势与预测

  • 新兴话题:可能会有更多关于模型训练中推理与训练成本关系的讨论,以及中国在AI领域创新发展的话题延伸。
  • 潜在影响:如果对Deepseek R1训练成本的探讨深入,可能会影响到相关公司在AI模型训练投入上的决策;对中国竞争力的讨论可能影响人们对中国在AI领域发展的看法。

详细内容:

《关于 Deepseek R1 训练成本的热门讨论》

在 Reddit 上,一则关于“如何确定 Deepseek R1 的训练成本约为 600 万美元”的帖子引发了广泛而热烈的讨论。该帖子不仅提到了 Deepseek 所属母公司的背景,还对其训练成本的估算方式提出了疑问,并探讨了在缺乏训练数据集的情况下,如何进行成本评估。此帖获得了众多关注,点赞数和评论数众多。

讨论焦点主要集中在对 Deepseek R1 训练成本的各种观点分析上。

有人指出,通过一系列已知数据和计算,除非 Meta 和 DeepSeek 都低估了相关数字,否则 DeepSeek V3 的单次训练计算成本约为 600 万美元。但也有人对此结论表示怀疑,认为计算加速比例并非与激活参数成正比,还需考虑开销等因素。

还有观点认为,OpenAI 用于开发类似模型的投入可能高达 10 亿美元。同时,关于如何从 V3 发展到 R1 的训练成本也存在诸多猜测。

有用户认为 DeepSeek 可能预先训练了更强大的模型,然后以相对较低的成本进行“微调”,使其看起来像是全新训练的模型。

关于 DeepSeek 声称的自行编写的内核及相关技术,有人认为并非虚张声势,也有人表示怀疑,认为存在不合理之处。

一些用户对训练成本的真实性提出质疑,认为 DeepSeek 可能未将硬件采购等成本计算在内。

在讨论中,各方对于 DeepSeek R1 训练成本的看法存在较大分歧,尚未形成明确的共识。但这些观点的碰撞和交流,为深入理解模型训练成本这一复杂问题提供了丰富的视角和思考方向。

总的来说,Reddit 上关于 Deepseek R1 训练成本的讨论展现了其复杂性和多样性,也反映了人们对于这一前沿技术领域的关注和探索。