原贴链接

DeepEP是一个为混合专家(MoE)和专家并行(EP)定制的通信库。它提供高吞吐量和低延迟的全对全GPU内核,也被称为MoE调度和组合。该库还支持低精度操作,包括FP8。请注意,该库目前仍只支持具有Hopper架构的GPU(如H100、H200、H800),目前不支持消费级显卡。仓库:https://github.com/deepseek-ai/DeepEP

image

讨论总结

整个讨论围绕DeepEP这个为混合专家模型(MoE)和专家并行(EP)定制的通信库展开。其中包含对库中使用未文档化指令的探讨、对其在不同类型GPU上的支持及实用与否的讨论,也有对Deepseek的评价,并且还穿插了一条看似与主题无关的关于中国原子弹和氢弹间隔时间最短的话题及其衍生讨论,整体氛围偏技术向,大家各抒己见。

主要观点

  1. 👍 代码仓库中使用未文档化指令很有趣
    • 支持理由:发现了文档未提及的指令且能保证正确性和提高性能。
    • 反对声音:无。
  2. 🔥 Deepseek之前运行慢可能与新库相关原因有关
    • 正方观点:从新库的情况推测Deepseek之前运行慢的原因。
    • 反方观点:无。
  3. 💡 对DeepEP相关技术表示认可
    • 解释:认为这是极客才会关注或开发的东西。
  4. 💡 希望DeepEP对消费级或准专业级GPU有提升
    • 解释:表达对该库能在更多类型GPU上发挥作用的期待。
  5. 💡 Deepseek有20世纪80 - 90年代的积极感觉
    • 解释:从硬件破解、车库创业活力等方面形容。

金句与有趣评论

  1. “😂 danielhanchen:The most interesting part in the repo: For extreme performance, we discover and use an out -of -doc PTX instruction: ld.global.nc.L1::no_allocate.L2::256B.”
    • 亮点:指出代码库中最有趣的部分是使用未文档化指令。
  2. “🤔 ortegaalfredo:Those guys are next level, using undocumented instructions.”
    • 亮点:对使用未文档化指令表示惊叹。
  3. “👀 ortegaalfredo:Likely they reverse engineer nvidia software or just try/error. Crazy but it works.”
    • 亮点:猜测发现未文档化指令的方式。
  4. “😉 arkai25:This instruction bypasses standard memory coherence protocols (non -coherent \".nc\" modifier) and skips caching data in the L1 cache (.L1::no_allocate), while prefetching 256 -byte blocks into the L2 cache for efficiency.”
    • 亮点:解释未文档化指令的技术含义。
  5. “🤨 Thick -Protection -458:Nah, it was quite common in programming. Like I recall much of stuff regards undocumented windows API.”
    • 亮点:将这种做法与过去编程中的类似情况作对比。

情感分析

总体情感倾向为中性偏积极。主要分歧点在于对Deepseek的形容以及对一些技术操作(如使用未文档化指令)的看法。可能的原因是大家的技术背景、对行业的理解以及关注重点不同。比如对于使用未文档化指令,技术人员可能觉得是创新探索,而部分非技术人员则可能觉得难以理解。对于Deepseek的形容,有些人从积极的方面看到其类似80 - 90年代的活力,而有些人则不理解这种形容与实际的关联。

趋势与预测

  • 新兴话题:关于如何让DeepEP库支持更多类型的GPU(如消费级显卡)可能会引发后续讨论。
  • 潜在影响:如果能让库支持更多类型的GPU,可能会对相关的模型运行和商业产品产生积极影响,降低成本或者提高实用性等。

详细内容:

标题:DeepSeek 发布 DeepEP 通信库,引发 Reddit 热议

在 Reddit 上,一个关于 DeepSeek 发布的专为 Mixture-of-Experts(MoE)和专家并行(EP)定制的通信库 DeepEP 的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

帖子主要介绍了 DeepEP 提供了高吞吐量和低延迟的全对全 GPU 内核,还支持低精度操作,包括 FP8。但目前该库仅支持 Hopper 架构的 GPU,如 H100、H200、H800,不支持消费级显卡,并提供了相关的 GitHub 链接。

讨论的焦点集中在对该库所使用的未文档化指令的看法上。有人指出,为了极致性能,使用了一个未文档化的 PTX 指令,这种指令绕过了标准内存一致性协议,虽然在 Hopper 架构上经过测试保证了正确性,但牺牲了可移植性。也有人认为这是一种高风险高回报的工程权衡。

有用户好奇如何发现这样的未文档化指令,有人猜测可能是逆向工程或不断尝试。还有用户提到该库在大多数推理引擎上运行缓慢,如果能实现更快的推理,或许本地 R1 将变得实用,但也有人指出该库无法在消费级 GPU 上运行。

同时,也有用户表示希望能为消费级或专业级 GPU 带来提升。有人对于中国在技术发展方面的速度发表了看法,还有人讨论了语言翻译和 AGI 相关的问题。

总的来说,关于 DeepEP 通信库的讨论丰富多样,既有对技术细节的深入探讨,也有对其实际应用和影响的各种猜测和期望。