原贴链接

嗨,我们是KTransformers团队(以前以[我们带有DeepSeek - V2的本地CPU/GPU混合推理开源项目]而闻名。我们听到了你们对支持DeepSeek - R1/V3的请求,并且很高兴终于能够提供支持!抱歉让大家久等了,但我们一直在做一些非常棒的事情。今天,我们很自豪地宣布,我们不仅支持DeepSeek - R1/V3(如在[https://github.com/kvcache - ai/ktransformers]的视频中所展示的那样),还在预览我们即将进行的优化,包括一个英特尔AMX加速内核和一个选择性专家激活方法,这将显著提高性能。通过v0.3 - preview版本,我们的预填充速度达到了286 tokens/s,比llama.cpp本地推理快28倍。二进制分发版本现已可用,源代码将尽快发布!查看详情请点击[https://github.com/kvcache - ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md]。以下是一些背后的原理:1. 为什么采用CPU/GPU混合推理?DeepSeek的MLA操作符计算量非常大。虽然在CPU上运行所有操作是可行的,但将繁重的计算转移到GPU会带来巨大的性能提升。2. 速度提升从何而来? - 专家卸载:与传统的基于层或KVCache卸载(如llama.cpp中的情况)不同,我们将专家计算卸载到CPU,将MLA/KVCache卸载到GPU,这与DeepSeek的架构完美匹配,以实现最佳效率。 - 英特尔AMX优化:我们的AMX加速内核经过精心调整,运行速度比现有的llama.cpp实现快数倍。我们计划在清理后将这个内核开源,并考虑向上游的llama.cpp做出贡献。3. 为什么选择英特尔CPU?英特尔是目前唯一支持类似AMX指令的CPU供应商,与仅支持AVX的替代方案相比,它能提供更好的性能。但是,我们也支持AMD CPU,并且由于专家卸载,它也会比当前的llama.cpp快。

讨论总结

KTransformers团队发布支持DeepSeek - R1/V3相关成果,大家展开讨论。主要话题包括性能比较(如与llama.cpp对比)、硬件相关(如特定硬件能否运行项目、硬件配置对性能影响)、技术疑问(如AMX加速器相关、是否支持rocm等)、技术优化(如模型优化方式、专家权重处理等)以及模型推理相关话题等。讨论者态度积极,很多人对团队成果表示认可,但也提出诸多疑问与建设性意见。

主要观点

  1. 👍 不支持更小尺寸(如1.58bit gguf)因为性能会下降
    • 支持理由:模型在低比特率下性能显著降低
    • 反对声音:无
  2. 🔥 该部署方式能削减成本
    • 正方观点:可削减部署680B V3/R1的成本,具有成本效益
    • 反方观点:无
  3. 💡 AMD被支持,但因缺乏AMX,预填充速度达不到280 + tokens/s
    • 解释:虽解码速度与llama.cpp相同,但AMX的缺失影响预填充速度
  4. 👍 项目有潜力进一步提高性能
    • 支持理由:团队有精力在开源和优化工作上,可继续提升性能
    • 反对声音:无
  5. 💡 在特定硬件(如Threadripper Pro)上运行框架需注意内存限制并进行相关设置
    • 解释:要因内存大小限制禁用双插槽优化等操作

金句与有趣评论

  1. “😂 Can this be used with Unsloth’s 1.58bit gguf?”
    • 亮点:直接提问项目对特定版本的支持性,开启相关讨论话题
  2. “🤔 Veeeery good way to slash cost to deploy 680B V3/R1.”
    • 亮点:肯定项目在削减成本方面的优势
  3. “👀 We can support q2k, q3k, q5k, but not smaller sizes, as the model’s performance significantly decreases at lower bit rates.”
    • 亮点:解释了不支持小尺寸的原因是性能下降问题
  4. “😂 我们在MLX或苹果芯片优化所需技能方面经验不足。”
    • 亮点:坦诚团队在特定方面的不足
  5. “🤔 I think 13 t/s decode will be a usable number for me.”
    • 亮点:从自身需求角度认可13 t/s的解码速度

情感分析

总体情感倾向积极,大多数评论者认可KTransformers团队的工作成果。主要分歧点在于部分技术实现的疑问(如选择性专家激活方法、NUMA实现方式等)以及一些硬件相关的争议(如在2025年有Epyc Turin存在时使用Xeon的合理性)。可能的原因是不同用户从自身的技术理解、应用场景和硬件条件出发看待这些问题。

趋势与预测

  • 新兴话题:如对苹果芯片优化可能性、英特尔GPU在项目中的适用性等话题可能会引发后续更多讨论。
  • 潜在影响:如果项目在更多硬件上得到优化(如苹果芯片、英特尔GPU等),可能会拓宽其应用范围,吸引更多不同硬件设备的用户使用,对相关的人工智能技术在不同设备上的部署和优化产生积极影响。

详细内容:

标题:KTransformers 团队推出对 DeepSeek-R1/V3 的支持及性能优化

在 Reddit 上,一个关于 KTransformers 团队对 671B DeepSeek-R1/V3 在单台机器(2× Xeon + 24GB GPU)上支持和优化的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

帖子主要介绍了 KTransformers 团队不仅支持了 DeepSeek-R1/V3,还展示了即将到来的优化,包括 Intel AMX 加速内核和选择性专家激活方法,声称实现了高达 286 个令牌/秒的预填充速度,比 llama.cpp 快 28 倍。同时,提供了相关的代码和教程链接。

讨论焦点集中在多个方面。有人询问能否与 Unsloth 的 1.58bit gguf 配合使用,也有人关心不同硬件配置下的性能表现,如 AMD 处理器的支持情况、Intel GPU 是否是更好的选择等。还有人对模型的量化精度、内存需求、成本以及能否在苹果设备上优化等问题进行了探讨。

比如,有用户分享道:“我在 Epyc 7402 系统上,用 512GB 3200MHz Ram 和 4x3090 GPU(仅 1 个用于 ktransformers)的配置,实现了 9t/s 的速度。”还有用户表示:“我在具有 256GB RAM 和约 200Gb VRAM 的系统上运行 R1 unsloth 2.56bit 版本,速度很低。”

关于 AMD 处理器的支持,有人指出 AMD 是被支持的,但由于缺乏 AMX,预填充速度无法达到 280+令牌/秒。对于多 GPU 的效果,有观点认为目前增加更多 GPU 对性能提升不显著,不过团队仍在努力优化。

在共识方面,大家都对 KTransformers 团队的工作表示了肯定,认为其在模型优化方面取得了显著的成果。

总的来说,这个讨论展示了大家对 KTransformers 团队新成果的关注和期待,同时也提出了很多有价值的问题和建议,推动团队进一步完善和优化相关技术。