原贴链接

这种优化程度非常惊人，肯定能让他们以更低的成本获得更高的性能。[https://www.tomshardware.com/tech - industry/artificial - intelligence/deepseeks - ai - breakthrough - bypasses - industry - standard - cuda - uses - assembly - like - ptx - programming - instead](https://www.tomshardware.com/tech - industry/artificial - intelligence/deepseeks - ai - breakthrough - bypasses - industry - standard - cuda - uses - assembly - like - ptx - programming - instead)。DeepSeek在AI行业引起了轰动，它使用2048个英伟达H800 GPU的集群在大约两个月的时间里训练了具有6710亿参数的混合专家（MoE）语言模型，其效率比Meta等AI行业领导者高出10倍。根据韩国未来资产证券（Mirae Asset Securities Korea）的分析（由u/Jukanlosreve引用），这一突破是通过大量细粒度的优化以及使用类汇编PTX（并行线程执行）编程而非英伟达的CUDA实现的。

讨论总结

这个帖子主要讨论了DeepSeek在AI领域的突破，其绕过英伟达的CUDA而使用类似汇编的PTX编程取得成果。评论涉及多个方面，包括技术相关的PTX与CUDA对比、AMD与英伟达的关系、不同模型效率对比，也有关于企业背后的政府支持、中美两国企业运营模式的差异等商业和政治相关话题，还有对DeepSeek成果真实性和夸大宣传的质疑，以及这一突破对英伟达地位的影响等，整体氛围热烈且充满争议。

主要观点

👍 DeepSeek使用PTX编程是一种突破
- 支持理由：绕过英伟达CUDA取得成果是技术上的创新。
- 反对声音：有人认为CUDA C编译结果就是PTX，这种突破没有看起来那么独特。
🔥 中国AI发展受限制反而促使其高效发展
- 正方观点：限制使中国聚焦重要事情，最大化利用资源。
- 反方观点：无（未在评论中发现明确反对声音）。
💡 PTX是英伟达专属，可能对AMD不可行
- 解释：PTX仅适用于英伟达GPU且调优耗时，英伟达在这方面占据优势。
🤔 对DeepSeek效率提升表示怀疑
- 解释：有人认为其效率最多为4倍而非宣称的10倍，对比对象不应仅为Meta。
😎 如果DeepSeek框架开源可能威胁英伟达地位
- 解释：PTX可降低成本，开源可能冲击英伟达的行业地位。

金句与有趣评论

“😂 So instead of high level nvidia proprietary framework they used a lower level nvidia propriety framework. Kinda common sense.”
- 亮点：简洁地指出DeepSeek在英伟达框架层面的选择。
“🤔 PTX是指令集，CUDA C/C++是一种语言。这就像说他们写了C语言，然后有人进来为X86指令集编写了FORTRAN。”
- 亮点：形象地类比PTX和CUDA C/C++的关系。
“👀 The trillions thrown at the AI industry in the US is careless and wasteful.”
- 亮点：表达了对美国在AI产业投入大量资金的独特看法。
“😏 If they open - source their framework they might actually kill nvidia…”
- 亮点：提出DeepSeek框架开源对英伟达的潜在巨大影响。
“💥 10x efficiency" doubt, maybe 4x at most and that’s mostly because of it being an MoE model compared to llama 3.1 405b which is dense”
- 亮点：对DeepSeek效率提升数据表示怀疑并给出理由。

情感分析

总体情感倾向较为复杂。部分人对DeepSeek的突破表示惊叹、肯定和期待，认为这是技术上的创新，可能打破英伟达的垄断，带来更多竞争和发展机会，如对能够削弱英伟达地位表示欢迎的评论者。然而，也存在怀疑、否定的态度，比如怀疑DeepSeek效率提升的真实性、质疑背后是否有宣传“托”等。主要分歧点在于对DeepSeek成果的评价、对其效率提升的认可程度以及对这一突破背后是否存在利益关系的猜测。可能的原因是大家的立场不同，有的站在技术角度，有的站在商业利益角度，还有的从国家竞争等宏观层面来看待这一事件。

趋势与预测

新兴话题：可能会进一步探讨其他公司是否能复制DeepSeek的成果，以及如果更多公司采用类似PTX编程的方式对整个AI行业生态（如芯片制造商、软件开发者等）的影响。
潜在影响：如果DeepSeek的突破被证实有效且可复制，可能会改变AI行业的竞争格局，促使英伟达重新审视CUDA的优势，也可能影响投资者对英伟达等相关企业的信心，进而影响股票市场；对中国的AI发展来说，可能提升其在国际上的地位，激励更多企业进行技术创新，探索摆脱对国外技术依赖的路径。

详细内容：

标题：DeepSeek 的 AI 突破引发 Reddit 热议

近期，Reddit 上一则关于 DeepSeek 在 AI 领域取得突破的帖子引发了广泛关注。该帖子指出，DeepSeek 通过使用类似汇编的 PTX 编程，绕过了 Nvidia 行业标准的 CUDA，实现了更高效且低成本的训练。https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead

这一话题迅速吸引了众多网友参与讨论，评论数众多。讨论主要围绕以下几个方面展开：

有人认为PTX只是Nvidia的一种特定的、较低层次的框架，与CUDA相比，各有优劣。还有人好奇这一突破是否会让AMD变得更具竞争力，有人指出PTX实际上是Nvidia的专属字节码，其实际的指令集是保密的。也有人提到PTX更像是汇编语言，并且可以进行修改和优化。

一些用户分享了个人的经历和案例，比如有人在AMD MI300s上运行模型。

在有趣或引发思考的观点方面，有人想象在类似汇编的语言中创建多线程程序，感到十分震惊。

对于DeepSeek的这一突破，有人认为如果他们开源框架，可能会对Nvidia造成冲击，也有人认为PTX仍然是Nvidia特定的东西，只是层次比CUDA低。有人质疑10倍效率的说法，认为可能最多只有4倍。还有人讨论了MOE模型在训练和推理中的效率问题。

在讨论中，存在一些共识，比如大家普遍认为这一突破展示了在特定情况下对硬件和编程的深度优化能够带来显著的性能提升。但同时也存在争议，比如对于PTX与CUDA的优劣比较，以及这一突破对行业格局的具体影响。

总的来说，Reddit 上关于 DeepSeek 的这一 AI 突破的讨论展现了丰富的观点和深入的思考，反映了行业内对于新技术和新突破的关注和探索。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#