原贴链接

嗨！非常感谢localLLaMa社区给予的大力支持！看到[KTransformers（https://github.com/kvcache - ai/ktransformers）](https://github.com/kvcache - ai/ktransformers)在各种平台（Linux/Windows、Intel/AMD、40X0/30X0/20X0）广泛部署，并在短短几天内GitHub的星数从0.8K飙升到6.6K，真是太棒了。https://llminfo.image.fangd123.cn/images/actvpm5fm9je1.png!/format/webp我们正在努力让KTransformers更快、更易用。今天，我们很高兴发布v0.2.1版本！在这个版本中，我们将来自很棒的[sglang](https://github.com/sgl - project/sglang)项目的高效Triton MLA内核集成到了我们基于YAML的灵活注入框架中。这种优化扩展了最大上下文长度，同时也略微加快了预填充和解码速度。下面是详细的结果分析：硬件规格： * 模型：DeepseekV3 - q4km * CPU：Intel(R) Xeon(R) Gold 6454S，每个插槽32核，2个插槽，每个插槽有8×DDR5 - 4800 * GPU：4090 24G VRAM CPU https://preview.redd.it/i4m0gmiim9je1.png?width = 1065&format = png&auto = webp&s = 7504033da7c1bc5466fafa6fc6bf5ab7d1f5146c除了速度方面的改进，我们还大幅更新了文档以提高可用性，包括：⦁ 添加多GPU配置教程。⦁ 整合安装指南。⦁ 添加一个使用ExpertMarlin注册额外GPU内存的详细教程。接下来做什么？我们会推出更多功能，让KTransformers更快、更易用更快 * FlashInfer（[https://github.com/flashinfer - ai/flashinfer](https://github.com/flashinfer - ai/flashinfer)）项目正在发布一个更高效的融合MLA算子，有望进一步提高速度** * vLLM已经在DeepSeek - V3中探索多令牌预测，我们的路线图中也将支持以获得更好性能** * 我们正在与Intel合作，以增强AMX内核（v0.3）并针对Xeon6/MRDIMM进行优化更易用 * 官方Docker镜像以简化安装 * 修复服务器集成以实现Web API访问 * 支持更多量化类型，包括备受期待的来自unsloth的动态量化敬请期待更多更新！

讨论总结

这个讨论围绕KTransformers v0.2.1版本发布展开。多数评论者针对项目提出各种疑问，涵盖技术支持（如是否支持特定指令集、特定硬件等）、性能（如不同硬件配置下的性能表现、量化对性能和准确性的影响等）、硬件需求（如是否需要GPU等），也有对项目进展和维护的关注。整体氛围积极，大家对项目的发展充满期待，项目方也积极回复解答疑问。

主要观点

👍 项目很棒，感谢项目团队工作
- 支持理由：对项目成果表示认可，认为团队工作值得肯定。
- 反对声音：无。
🔥 KTransformers项目在不同硬件下的支持情况（如AVX2、RTX 5090等）
- 正方观点：有人希望项目支持更多硬件设备，以扩大应用范围。
- 反方观点：项目方目前可能因资源或技术限制，部分设备暂时无法支持。
💡 不使用AVX - 512对性能的影响
- 大家关心在特定CPU下，缺少特定指令集支持是否影响性能，因为这关系到项目在不同硬件环境下的实用性。
👍 期待项目支持Unsloth量化带来性能提升
- 支持理由：看到项目的潜力，期待性能提升。
- 反对声音：无。
🔥 KTransformers的API是否存在漏洞
- 正方观点：使用中遇到问题（如API连接问题），希望项目方确认并解决。
- 反方观点：无，项目方还未回应。

金句与有趣评论

“😂 Great project!”
- 亮点：简洁直白地表达对项目的认可。
“🤔 Will the performances be significantly affected if I don’t use AVX - 512?”
- 亮点：提出一个在特定硬件环境下有关性能的关键问题。
“👀 I can’t wait to see the performance gains when the Unsloth quants get supported!”
- 亮点：表达对项目未来发展的期待。
“😕 Will you also support AVX2 instead of AVX - 512? I have an EPYC 7713, which sadly doesn’t have AVX - 512.”
- 亮点：结合自己的硬件情况提出对项目支持硬件的需求。
“🙂 I find the size of the context highly limiting.”
- 亮点：对项目当前的上下文大小提出看法。

情感分析

总体情感倾向是积极的，多数评论者认可项目并对其发展充满期待。主要分歧点在于部分硬件的支持和性能方面的疑问，如特定硬件下性能是否受影响、项目是否支持某些硬件设备等。可能的原因是大家希望在自己的硬件设备上使用该项目，并且期望获得较好的性能表现。

趋势与预测

新兴话题：vLLM对不同NUMA域的CPU当作多GPU处理的方式可能会成为后续技术探讨的新方向。
潜在影响：如果项目能够按照计划不断优化性能、增加易用性并解决硬件支持等问题，可能会吸引更多用户使用，对自然语言处理相关领域产生积极推动作用。

详细内容：

标题：KTransformers v0.2.1 引发的热门讨论

KTransformers v0.2.1 版本发布后在 Reddit 上引起了热烈关注，该帖子获得了众多点赞和大量评论。帖子主要介绍了这一版本的优化改进，包括扩展最大上下文长度、提升速度以及更新文档增强可用性等。

讨论焦点主要集中在多个方面。有人关心是否支持 AVX2 而非 AVX-512，比如有人指出自己的 EPYC 7713 没有 AVX-512。而有人回应 AVX2 已经得到支持，因为复用了出色的 llamafile lib。

还有人对性能表现提出疑问，如拥有 i7-13700K 和 4090 的配置，如果不使用 AVX-512 性能是否会受到显著影响。

关于 API 是否存在已知漏洞的问题也被提及，有人尝试将其连接到 openwebui 时遇到错误，而有人表示相关问题正在修复。

对于新硬件的支持也是讨论热点，比如 RTX 5090 能否支持，有人表示目前没有支持，可能一两个月后会尝试。

有人询问是否需要 GPU ，还是只用性能较差的 CPU 可行，得到的回复是如果只用 CPU，llama.cpp 更合适。

有用户期待对某些功能的支持，比如 r1 fp8，得到会在后续支持的回复。

特别有用户分享了在特定硬件配置下的测试结果，如在双 Xeon 6248 上的测试，获得了 7+t/s 的速度。

讨论中的共识在于大家对 KTransformers 的发展充满期待，希望不断优化和支持更多功能。

总之，这次关于 KTransformers v0.2.1 的讨论展现了用户对其的高度关注以及对未来改进的殷切期望。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#