原贴链接

Exllama自创立之初,就是为拥有1-2张商业显卡的用户设计的,缺乏批处理和并行计算能力。最近的更新改变了这一切,允许您同时使用多张GPU而不会影响速度。

结合批处理功能,现在为那些希望使用Exllama后端生成数据或提供大型语言模型的人开启了全新的可能性领域。这不仅是对本地推理的用户的一大进步,也是希望在云端运行模型的用户的一大进步。非常感谢turboderp发布了这个最新的更新。干杯。

(附:这里是Exllama的Discord服务器)

讨论总结

ExllamaV2的最新更新引入了Tensor Parallelism和批处理技术,使得多GPU并行计算成为可能,无需牺牲速度。这一改进对于需要生成数据或使用Exllama作为后端的大型语言模型服务来说是一个重大进步。用户对这一更新表示高度赞赏,特别是对于Q6 KV缓存和多GPU支持的改进。同时,也有用户提出了关于显卡兼容性和动态批处理的需求。总体上,讨论氛围积极,用户对ExllamaV2的未来发展充满期待。

主要观点

  1. 👍 ExllamaV2是目前最好的量化技术,提供高吞吐量。
    • 支持理由:Q6 KV缓存对许多用户来说是一个游戏规则改变者。
    • 反对声音:无
  2. 🔥 ExllamaV2现在支持多GPU并行计算和批处理。
    • 正方观点:这对于需要生成数据或使用Exllama作为后端的大型语言模型服务来说是一个重大进步。
    • 反方观点:无
  3. 💡 ExllamaV2的更新显著提升了多显卡配置下大型模型的运行速度。
    • 解释:这种速度提升对于处理100亿+参数的模型尤为重要。
  4. 👀 ExllamaV2的Tensor Parallelism实现需要flash attention。
    • 解释:这种依赖使得许多经济实惠的显卡无法使用。
  5. 🚀 张量并行性是否允许在无速度损失的情况下使用多个GPU进行推理?
    • 解释:用户对ExllamaV2的更新感到好奇,考虑再次切换回来。

金句与有趣评论

  1. “😂 Didi_Midi:Exllamav2 is currently the best quantization technique while also offering high throughput.”
    • 亮点:强调了ExllamaV2在量化技术方面的高性能。
  2. “🤔 kryptkpr:Has TabbyAPI picked this up? I need a completions endpoint for all of my stuff 🫤”
    • 亮点:表达了用户对TabbyAPI集成ExllamaV2新功能的迫切需求。
  3. “👀 a_beautiful_rhind:Really does wonders for those 100b+ 3 card models. Makes them fast like 70b.”
    • 亮点:展示了ExllamaV2在处理大型模型时的显著性能提升。

情感分析

讨论的总体情感倾向积极,用户对ExllamaV2的更新表示高度赞赏和感谢。主要分歧点在于显卡兼容性和动态批处理的需求,但这些分歧并未影响整体的积极氛围。用户对ExllamaV2的未来发展充满期待,特别是对于多GPU支持和性能提升的改进。

趋势与预测

  • 新兴话题:动态批处理和显卡兼容性可能会成为后续讨论的热点。
  • 潜在影响:ExllamaV2的更新将进一步推动大型语言模型服务的发展,特别是在多GPU并行计算和批处理技术方面。

详细内容:

标题:ExllamaV2 引入张量并行技术,引发热烈讨论

Exllama 自诞生以来,一直面向拥有 1 - 2 张商用显卡的用户,存在无法批量处理和并行计算的局限。但近期的更新带来了重大改变,现在能够同时使用多张 GPU 且不影响速度。此帖获得了众多关注,点赞数众多,评论区也十分热闹。主要的讨论方向包括对新技术的实际效果、适用场景、与其他技术的比较等。

讨论焦点与观点分析: 有人真诚感谢所有相关工作,表示在其看来(以及许多其他人的看法),ExllamaV2 目前是最好的量化技术,且吞吐量高,Q6 KV 缓存为很多人带来了变革。有人说自己拥有 4 张 A4000 安培显卡,会马上尝试。有人提到对于 TabbyAPI 用户有好消息,很快会发布相关内容。还有人称赞这是天才之作,感谢相关开发者。 有人指出该技术对 100b+ 3 卡模型效果显著,能让它们像 70b 一样快速。但也有人提出,当前的张量并行技术实现似乎需要闪存注意力,导致很多更实惠的显卡无法使用,已就此提交了一个错误报告,还不清楚这是否是故意设置的依赖。有人解释原因主要是在关注动态生成器的更高级功能,它确实是 ExLlama 最先进的部分,但也讨厌它需要闪存注意力才能真正发挥作用,因为闪存注意力不支持安培之前的 GPU。 有人询问张量并行技术是允许同时使用多个 GPU 进行推理而不影响速度,还是允许同时并行运行多个推理会话而不影响速度,因为仓库似乎暗示的是后者。有人回复是前者,但一切都有速度成本。有人从 exllamav2 切换到 llama.cpp,在考虑是否要再次切换回来。 有人说在大型 AI 模型上使用 4 张 RTX 3090,很期待看到是否能加快提示摄取速度。有人表示在 TP 模式下,提示摄取目前有点慢,因为 GPU 之间的同步过多。但也有人表示自己的多 GPU 设置运行相关代码效果很好,即便未完全实现,也十分感谢。有人询问 3090 和 3060 一起使用速度如何,有人提供链接并表示使用 4 张 3060 运行速度可达 18t/s。 有人称赞“turboderp”这个名字,也有人称赞更新工作。还有人表示这是最喜欢的推理引擎,自发布以来从未遇到问题,速度快且可靠。

总的来说,大家对 ExllamaV2 的这次更新既有期待和称赞,也有对一些问题和局限的探讨,共识是肯定了其带来的进步和可能性,同时也期待后续的改进和优化。