原贴链接

嗨!非常感谢localLLaMa社区给予的大力支持!看到[KTransformers(https://github.com/kvcache - ai/ktransformers)](https://github.com/kvcache - ai/ktransformers)在各种平台(Linux/Windows、Intel/AMD、40X0/30X0/20X0)广泛部署,并在短短几天内GitHub的星数从0.8K飙升到6.6K,真是太棒了。https://llminfo.image.fangd123.cn/images/actvpm5fm9je1.png!/format/webp我们正在努力让KTransformers更快、更易用。今天,我们很高兴发布v0.2.1版本!在这个版本中,我们将来自很棒的[sglang](https://github.com/sgl - project/sglang)项目的高效Triton MLA内核集成到了我们基于YAML的灵活注入框架中。这种优化扩展了最大上下文长度,同时也略微加快了预填充和解码速度。下面是详细的结果分析:硬件规格: * 模型:DeepseekV3 - q4km * CPU:Intel(R) Xeon(R) Gold 6454S,每个插槽32核,2个插槽,每个插槽有8×DDR5 - 4800 * GPU:4090 24G VRAM CPU https://preview.redd.it/i4m0gmiim9je1.png?width = 1065&format = png&auto = webp&s = 7504033da7c1bc5466fafa6fc6bf5ab7d1f5146c除了速度方面的改进,我们还大幅更新了文档以提高可用性,包括:⦁ 添加多GPU配置教程。⦁ 整合安装指南。⦁ 添加一个使用ExpertMarlin注册额外GPU内存的详细教程。接下来做什么?我们会推出更多功能,让KTransformers更快、更易用更快 * FlashInfer([https://github.com/flashinfer - ai/flashinfer](https://github.com/flashinfer - ai/flashinfer))项目正在发布一个更高效的融合MLA算子,有望进一步提高速度** * vLLM已经在DeepSeek - V3中探索多令牌预测,我们的路线图中也将支持以获得更好性能** * 我们正在与Intel合作,以增强AMX内核(v0.3)并针对Xeon6/MRDIMM进行优化更易用 * 官方Docker镜像以简化安装 * 修复服务器集成以实现Web API访问 * 支持更多量化类型,包括备受期待的来自unsloth的动态量化敬请期待更多更新!

讨论总结

这个讨论围绕KTransformers v0.2.1版本发布展开。多数评论者针对项目提出各种疑问,涵盖技术支持(如是否支持特定指令集、特定硬件等)、性能(如不同硬件配置下的性能表现、量化对性能和准确性的影响等)、硬件需求(如是否需要GPU等),也有对项目进展和维护的关注。整体氛围积极,大家对项目的发展充满期待,项目方也积极回复解答疑问。

主要观点

  1. 👍 项目很棒,感谢项目团队工作
    • 支持理由:对项目成果表示认可,认为团队工作值得肯定。
    • 反对声音:无。
  2. 🔥 KTransformers项目在不同硬件下的支持情况(如AVX2、RTX 5090等)
    • 正方观点:有人希望项目支持更多硬件设备,以扩大应用范围。
    • 反方观点:项目方目前可能因资源或技术限制,部分设备暂时无法支持。
  3. 💡 不使用AVX - 512对性能的影响
    • 大家关心在特定CPU下,缺少特定指令集支持是否影响性能,因为这关系到项目在不同硬件环境下的实用性。
  4. 👍 期待项目支持Unsloth量化带来性能提升
    • 支持理由:看到项目的潜力,期待性能提升。
    • 反对声音:无。
  5. 🔥 KTransformers的API是否存在漏洞
    • 正方观点:使用中遇到问题(如API连接问题),希望项目方确认并解决。
    • 反方观点:无,项目方还未回应。

金句与有趣评论

  1. “😂 Great project!”
    • 亮点:简洁直白地表达对项目的认可。
  2. “🤔 Will the performances be significantly affected if I don’t use AVX - 512?”
    • 亮点:提出一个在特定硬件环境下有关性能的关键问题。
  3. “👀 I can’t wait to see the performance gains when the Unsloth quants get supported!”
    • 亮点:表达对项目未来发展的期待。
  4. “😕 Will you also support AVX2 instead of AVX - 512? I have an EPYC 7713, which sadly doesn’t have AVX - 512.”
    • 亮点:结合自己的硬件情况提出对项目支持硬件的需求。
  5. “🙂 I find the size of the context highly limiting.”
    • 亮点:对项目当前的上下文大小提出看法。

情感分析

总体情感倾向是积极的,多数评论者认可项目并对其发展充满期待。主要分歧点在于部分硬件的支持和性能方面的疑问,如特定硬件下性能是否受影响、项目是否支持某些硬件设备等。可能的原因是大家希望在自己的硬件设备上使用该项目,并且期望获得较好的性能表现。

趋势与预测

  • 新兴话题:vLLM对不同NUMA域的CPU当作多GPU处理的方式可能会成为后续技术探讨的新方向。
  • 潜在影响:如果项目能够按照计划不断优化性能、增加易用性并解决硬件支持等问题,可能会吸引更多用户使用,对自然语言处理相关领域产生积极推动作用。

详细内容:

标题:KTransformers v0.2.1 引发的热门讨论

KTransformers v0.2.1 版本发布后在 Reddit 上引起了热烈关注,该帖子获得了众多点赞和大量评论。帖子主要介绍了这一版本的优化改进,包括扩展最大上下文长度、提升速度以及更新文档增强可用性等。

讨论焦点主要集中在多个方面。有人关心是否支持 AVX2 而非 AVX-512,比如有人指出自己的 EPYC 7713 没有 AVX-512。而有人回应 AVX2 已经得到支持,因为复用了出色的 llamafile lib。

还有人对性能表现提出疑问,如拥有 i7-13700K 和 4090 的配置,如果不使用 AVX-512 性能是否会受到显著影响。

关于 API 是否存在已知漏洞的问题也被提及,有人尝试将其连接到 openwebui 时遇到错误,而有人表示相关问题正在修复。

对于新硬件的支持也是讨论热点,比如 RTX 5090 能否支持,有人表示目前没有支持,可能一两个月后会尝试。

有人询问是否需要 GPU ,还是只用性能较差的 CPU 可行,得到的回复是如果只用 CPU,llama.cpp 更合适。

有用户期待对某些功能的支持,比如 r1 fp8,得到会在后续支持的回复。

特别有用户分享了在特定硬件配置下的测试结果,如在双 Xeon 6248 上的测试,获得了 7+t/s 的速度。

讨论中的共识在于大家对 KTransformers 的发展充满期待,希望不断优化和支持更多功能。

总之,这次关于 KTransformers v0.2.1 的讨论展现了用户对其的高度关注以及对未来改进的殷切期望。