原贴链接

如果DeepSeek能得到20万个Blackwell GPU会怎样？或者如果xAI、OpenAI、谷歌或者Anthropic采用DeepSeek更高效的架构，并用20万个相当于Blackwell的GPU来训练模型，而不是用1万个受限的H800 GPU呢？或者我们是否认为进步将就此停止？我们是否认为因为DeepSeek，公司会为了500万美元不断重复训练GPT4o级别的模型？华尔街似乎是这么认为的。或者我们是否期望公司利用DeepSeek的效率提升，并使用其庞大的计算资源来加速进步？你怎么看？

讨论总结

该讨论主题是关于AI模型在不同条件下（如使用更多GPU或更高效架构）会如何发展。其中包括增加GPU数量对模型效率和开创性的影响、推理质量的提升因素、计算资源对模型训练的作用、数据的重要性以及模型发展过程中的干扰因素等内容。整体氛围较为理性和平静，各评论者从不同角度发表看法，但讨论热度较低。

主要观点

👍 增加GPU数量可能不会使AI模型更高效或具开创性
- 支持理由：DeepSeek提高效率是为应对较弱GPU节省成本和时间，可能并非为了提升模型开创性
- 反对声音：无
🔥 推理质量提升主要靠算法改进和训练数据而非计算能力
- 正方观点：计算能力在提升推理质量方面作用有限，算法和数据更关键
- 反方观点：无
💡 增加计算资源对AI模型的改进为对数级别且不清楚改进程度
- 解释：认为单纯增加计算资源（如GPU）带来的改进有限，且不知改进的陡峭程度
💡 跳出固有思维模式的改进可能更显著
- 解释：相比于增加计算资源，突破思维模式带来的改进可能更大且大家都知晓
💡 10000个GPU对研究机构和大学构建好模型已足够，超过收益递减
- 解释：指出对于特定机构构建模型，GPU数量存在一个收益平衡点

金句与有趣评论

“😂 Probably wouldn’t be as efficient or as groundbreaking, tbh.”
- 亮点：直接对增加GPU能否提升模型效率和开创性表示怀疑。
“🤔 The gains in inference quality are mostly due to algorithmic improvements and better training data, not so much training compute, but better compute resources could be leveraged in a few ways.”
- 亮点：清晰阐述了推理质量提升的主要因素以及计算资源的辅助作用。
“👀 Merely logarithmic improvements is my understanding.”
- 亮点：简洁概括了增加计算资源对模型改进的程度。
“😉 It’s an interesting question, but people who really are in the know like yann lecun seem to be kinda accepting that most of the compute isn’t for training now but for inference.”
- 亮点：引用业内人士观点，阐述计算资源在训练和推理中的分配情况。
“🙄 How much better would they be if they werent constantly lobotomized with woke shit?”
- 亮点：表达出对AI模型发展中干扰因素的不满。

情感分析

总体情感倾向较为理性和平淡，没有明显的正面或负面情绪。主要分歧点在于计算资源对AI模型改进的作用大小，有的认为增加计算资源作用不大，有的则提及可以在一定程度上提升模型训练效率等。可能的原因是不同评论者从不同专业角度（如算法、数据、模型结构等）看待AI模型发展，从而得出不同结论。

趋势与预测

新兴话题：目前评论未明确出现可能引发后续讨论的新观点，但跳出固有思维模式改进AI模型可能会在后续被深入探讨。
潜在影响：对AI模型研发方向有一定影响，如在资源分配上可能促使研发者更多考虑算法改进、数据优化等方面而非单纯增加计算资源；在社会层面可能影响大众对AI模型发展的预期，不再单纯认为计算资源越多模型越好。

详细内容：

标题：若 DeepSeek 获得 20 万 Blackwell GPUs，AI 模型会有多大提升？

在 Reddit 上，有这样一个热门话题：“若 DeepSeek 能获得 20 万 Blackwell GPUs，或者 xAI、OpenAI、Google、Anthropic 采用 DeepSeek 更高效的架构并用 20 万 Blackwell 等效的 GPUs 而非 1 万性能受限的 H800 GPUs 来训练模型，AI 模型将会有怎样的变化？是进步会就此停滞，还是公司会因 Deepseek 而不断训练 GPT4o 级别的模型？又或者公司会利用 DeepSeek 的效率提升以及其庞大的计算资源来加速发展？” 此帖获得了众多关注，引发了激烈的讨论，评论数众多。

讨论焦点与观点分析：有人认为可能不会像想象中那么高效和具有开创性，改进效率主要是为了在多次训练中节省成本和时间。也有人对变量精度训练及权重方法感到好奇，认为在真正理解哪些权重、哪些数据更重要方面若能取得进展，其意义将远超更大的模型。还有人指出，推理质量的提升主要源于算法改进和更好的训练数据，而非训练计算，但更好的计算资源可以通过生成或改进更好的合成训练数据、进行多轮 RLAIF 训练、提高 GPU 的 VRAM 以训练更强大的专家等方式加以利用。有人表示，一个月后就能体验基于 Deepseek 框架的新 LLM 模型。也有人认为提升可能只是对数级的，远不及打破常规思考所带来的巨大改进。有人觉得若能获取更好的数据并设计新的数据生成工作流程，对模型的改进更有帮助。甚至有人提出了一些偏离技术层面的观点。

这场讨论充分展现了大家对 AI 模型发展的关注和思考，各种观点的碰撞为我们理解这一复杂的技术问题提供了多元的视角。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#