原贴链接

https://github.com/turboderp/exllamav2/blob/master/examples/inference_tp.py

讨论总结

Reddit上的讨论主要围绕Exllamav2的Tensor Parallel支持展开,用户们对此新功能表示赞赏,认为它提高了GPU资源的利用效率,尤其是在多GPU环境下。讨论中涉及了一些技术问题,如兼容性问题和性能瓶颈,用户们积极分享了他们的测试结果和遇到的困难。整体上,讨论氛围积极,用户对开发团队的工作表示敬意和支持。

主要观点

  1. 👍 Tensor Parallel支持提高了GPU资源利用效率
    • 支持理由:在多GPU环境下,Tensor Parallel能更有效地利用所有GPU资源。
    • 反对声音:存在性能开销,特别是对于小模型。
  2. 🔥 Tensor Parallel对大型模型更有益
    • 正方观点:Tensor Parallel在处理大型模型时能显著提升性能。
    • 反方观点:对于小型模型,Tensor Parallel的性能提升不明显。
  3. 💡 用户对Exllamav2的Tensor Parallel支持表示满意
    • 解释:用户赞赏开发团队的工作,认为新功能对他们的工作有很大帮助。

金句与有趣评论

  1. “😂 MR_Positive_SP:Appreciate the work that went into this, what great week for us Exllamav2 users!”
    • 亮点:用户对新功能的积极态度和对开发工作的认可。
  2. “🤔 ReturningTarzan:To be clear there’s substantial overhead from tensor parallelism, and loading a small model on multiple GPUs won’t overcome that overhead to improve performance.”
    • 亮点:对Tensor Parallel性能开销的客观分析。
  3. “👀 a_beautiful_rhind:No support for non flash attention cards though.. it’s ampere up or bust.”
    • 亮点:指出了硬件限制对新功能使用的影响。

情感分析

讨论的总体情感倾向积极,用户对Exllamav2的Tensor Parallel支持表示赞赏,尽管存在一些技术问题和兼容性挑战,但用户们表现出对开发团队的支持和理解。主要分歧点在于Tensor Parallel在不同模型大小下的性能表现,以及硬件限制对功能使用的影响。

趋势与预测

  • 新兴话题:可能会有更多关于Tensor Parallel在不同硬件配置下的性能测试和优化讨论。
  • 潜在影响:Tensor Parallel的优化和改进可能会进一步提升Exllamav2的用户体验和市场竞争力。

详细内容:

标题:Exllamav2 迎来 Tensor Parallel 支持,TabbyAPI 亦有新动态

近期,Reddit 上一则关于 Exllamav2 Tensor Parallel 支持及 TabbyAPI 的帖子引发了热烈讨论。该帖子https://github.com/turboderp/exllamav2/blob/master/examples/inference_tp.py吸引了众多用户的关注,收获了大量的点赞和评论。

讨论的焦点主要集中在 Exllamav2 的新功能表现以及与之前版本的差异。有人称赞了这一更新,表示这对 Exllamav2 用户来说是很棒的一周。但也有人提出疑问,比如 Exllamav2 原本就有多个 GPU 支持,那么新的张量并行模式比之前的多 GPU 模式好在哪里?

有用户分享道:“以前如果有 4 个 3090 显卡,加载 llama3.1 8B 模型,即使使用自动分割,也只会加载到第一个 GPU。而现在,如果不使用自动分割,它会加载到 4 个 GPU 中,而不只是第一个。”

然而,也有不同声音。有人指出,张量并行存在大量开销,对于小型模型,在多个 GPU 上运行可能无法克服开销以提高性能,但对于大型模型则可能有所不同,具体效果取决于设置、所拥有的 GPU 类型、它们的互联方式等。

还有用户提到,在 4 个 3090 系统中进行测试,自动分割时,nvtop 中的接收/发送速率约为 4 - 5KiB/s,而张量并行模式下则为 150 - 250KiB/s。并且,张量并行模式下的速度更快,自动分割时平均速度为 14.84t/s,张量并行时为 16.82t/s。

但也有用户反映在使用最新版本 0.1.9 时遇到了问题,比如某些模型输出乱码,不得不降级到 0.1.8 版本。同时,还有用户表示在 4 个 3090 上运行张量并行时出现系统崩溃和重启的情况,且事件查看器未记录相关信息。

讨论中的共识在于大家都对 Exllamav2 的持续发展表示期待,同时也希望开发者能够不断优化性能,解决当前出现的各种问题。

总的来说,Exllamav2 的 Tensor Parallel 支持及 TabbyAPI 的更新带来了新的可能性,但也面临着一些挑战和需要改进的地方,未来的发展值得我们持续关注。