原贴链接

嗨，我们是KTransformers团队（以前以[我们带有DeepSeek - V2的本地CPU/GPU混合推理开源项目]而闻名。我们听到了你们对支持DeepSeek - R1/V3的请求，并且很高兴终于能够提供支持！抱歉让大家久等了，但我们一直在做一些非常棒的事情。今天，我们很自豪地宣布，我们不仅支持DeepSeek - R1/V3（如在[https://github.com/kvcache - ai/ktransformers]的视频中所展示的那样），还在预览我们即将进行的优化，包括一个英特尔AMX加速内核和一个选择性专家激活方法，这将显著提高性能。通过v0.3 - preview版本，我们的预填充速度达到了286 tokens/s，比llama.cpp本地推理快28倍。二进制分发版本现已可用，源代码将尽快发布！查看详情请点击[https://github.com/kvcache - ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md]。以下是一些背后的原理：1. 为什么采用CPU/GPU混合推理？DeepSeek的MLA操作符计算量非常大。虽然在CPU上运行所有操作是可行的，但将繁重的计算转移到GPU会带来巨大的性能提升。2. 速度提升从何而来？ - 专家卸载：与传统的基于层或KVCache卸载（如llama.cpp中的情况）不同，我们将专家计算卸载到CPU，将MLA/KVCache卸载到GPU，这与DeepSeek的架构完美匹配，以实现最佳效率。 - 英特尔AMX优化：我们的AMX加速内核经过精心调整，运行速度比现有的llama.cpp实现快数倍。我们计划在清理后将这个内核开源，并考虑向上游的llama.cpp做出贡献。3. 为什么选择英特尔CPU？英特尔是目前唯一支持类似AMX指令的CPU供应商，与仅支持AVX的替代方案相比，它能提供更好的性能。但是，我们也支持AMD CPU，并且由于专家卸载，它也会比当前的llama.cpp快。

讨论总结

KTransformers团队发布支持DeepSeek - R1/V3相关成果，大家展开讨论。主要话题包括性能比较（如与llama.cpp对比）、硬件相关（如特定硬件能否运行项目、硬件配置对性能影响）、技术疑问（如AMX加速器相关、是否支持rocm等）、技术优化（如模型优化方式、专家权重处理等）以及模型推理相关话题等。讨论者态度积极，很多人对团队成果表示认可，但也提出诸多疑问与建设性意见。

主要观点

👍 不支持更小尺寸（如1.58bit gguf）因为性能会下降
- 支持理由：模型在低比特率下性能显著降低
- 反对声音：无
🔥 该部署方式能削减成本
- 正方观点：可削减部署680B V3/R1的成本，具有成本效益
- 反方观点：无
💡 AMD被支持，但因缺乏AMX，预填充速度达不到280 + tokens/s
- 解释：虽解码速度与llama.cpp相同，但AMX的缺失影响预填充速度
👍 项目有潜力进一步提高性能
- 支持理由：团队有精力在开源和优化工作上，可继续提升性能
- 反对声音：无
💡 在特定硬件（如Threadripper Pro）上运行框架需注意内存限制并进行相关设置
- 解释：要因内存大小限制禁用双插槽优化等操作

金句与有趣评论

“😂 Can this be used with Unsloth’s 1.58bit gguf?”
- 亮点：直接提问项目对特定版本的支持性，开启相关讨论话题
“🤔 Veeeery good way to slash cost to deploy 680B V3/R1.”
- 亮点：肯定项目在削减成本方面的优势
“👀 We can support q2k, q3k, q5k, but not smaller sizes, as the model’s performance significantly decreases at lower bit rates.”
- 亮点：解释了不支持小尺寸的原因是性能下降问题
“😂 我们在MLX或苹果芯片优化所需技能方面经验不足。”
- 亮点：坦诚团队在特定方面的不足
“🤔 I think 13 t/s decode will be a usable number for me.”
- 亮点：从自身需求角度认可13 t/s的解码速度

情感分析

总体情感倾向积极，大多数评论者认可KTransformers团队的工作成果。主要分歧点在于部分技术实现的疑问（如选择性专家激活方法、NUMA实现方式等）以及一些硬件相关的争议（如在2025年有Epyc Turin存在时使用Xeon的合理性）。可能的原因是不同用户从自身的技术理解、应用场景和硬件条件出发看待这些问题。

趋势与预测

新兴话题：如对苹果芯片优化可能性、英特尔GPU在项目中的适用性等话题可能会引发后续更多讨论。
潜在影响：如果项目在更多硬件上得到优化（如苹果芯片、英特尔GPU等），可能会拓宽其应用范围，吸引更多不同硬件设备的用户使用，对相关的人工智能技术在不同设备上的部署和优化产生积极影响。

详细内容：

标题：KTransformers 团队推出对 DeepSeek-R1/V3 的支持及性能优化

在 Reddit 上，一个关于 KTransformers 团队对 671B DeepSeek-R1/V3 在单台机器（2× Xeon + 24GB GPU）上支持和优化的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

帖子主要介绍了 KTransformers 团队不仅支持了 DeepSeek-R1/V3，还展示了即将到来的优化，包括 Intel AMX 加速内核和选择性专家激活方法，声称实现了高达 286 个令牌/秒的预填充速度，比 llama.cpp 快 28 倍。同时，提供了相关的代码和教程链接。

讨论焦点集中在多个方面。有人询问能否与 Unsloth 的 1.58bit gguf 配合使用，也有人关心不同硬件配置下的性能表现，如 AMD 处理器的支持情况、Intel GPU 是否是更好的选择等。还有人对模型的量化精度、内存需求、成本以及能否在苹果设备上优化等问题进行了探讨。

比如，有用户分享道：“我在 Epyc 7402 系统上，用 512GB 3200MHz Ram 和 4x3090 GPU（仅 1 个用于 ktransformers）的配置，实现了 9t/s 的速度。”还有用户表示：“我在具有 256GB RAM 和约 200Gb VRAM 的系统上运行 R1 unsloth 2.56bit 版本，速度很低。”

关于 AMD 处理器的支持，有人指出 AMD 是被支持的，但由于缺乏 AMX，预填充速度无法达到 280+令牌/秒。对于多 GPU 的效果，有观点认为目前增加更多 GPU 对性能提升不显著，不过团队仍在努力优化。

在共识方面，大家都对 KTransformers 团队的工作表示了肯定，认为其在模型优化方面取得了显著的成果。

总的来说，这个讨论展示了大家对 KTransformers 团队新成果的关注和期待，同时也提出了很多有价值的问题和建议，推动团队进一步完善和优化相关技术。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#