原贴链接

讨论总结

本次讨论主要围绕用户在使用双 RTX 4080 GPU 和 Mac Studio 进行分布式推理时遇到的吞吐量瓶颈问题展开。尽管使用了 40GB/s 的 Thunderbolt 连接，但吞吐量仅维持在每秒 10-12 个 token。讨论中涉及了多个技术细节，包括硬件瓶颈、模型量化、张量并行等。社区成员积极提供解决方案和建议，如使用支持张量并行的框架、增加 VRAM 或更多 GPU 等。整体讨论氛围较为技术导向，社区成员之间互相帮助，共同探讨如何优化性能。

主要观点

👍 10 t/s 的吞吐量对于 70B gguf 来说并不算差
- 支持理由：有用户分享了类似配置下的吞吐量数据，认为这个速度在当前配置下是合理的。
- 反对声音：部分用户认为仍有优化空间，可以通过增加 GPU 或改进连接方式提升性能。
🔥 Thunderbolt 连接的吞吐量问题
- 正方观点：Thunderbolt 的带宽单位是 gigabits，实际可用带宽仅为 5GB/s，远低于 VRAM 速度，导致系统瓶颈。
- 反方观点：有用户认为 Thunderbolt 连接本身不是主要瓶颈，问题可能出在 RPC 代码或其他系统设计上。
💡 使用支持张量并行的框架可以突破层并行的限制
- 解释：张量并行在单节点多卡情况下应是更好的选择，尽管数据交换量更大，但可以有效减少模型瓶颈。
👀 模型量化对性能的影响
- 解释：有用户提到使用 q4_k_m 量化模型，但仍寻求进一步的优化建议。
🚀 社区互助与技术讨论
- 解释：社区成员积极提供解决方案和建议，如建议尝试其他项目进行基准测试，或提供理论计算方法帮助估算性能。

金句与有趣评论

“😂 10 t/s doesn’t sound bad for a 70B gguf over the network.”
- 亮点：表达了在当前配置下，这个速度是可以接受的，但仍有优化空间。
“🤔 Your interconnect is a magnitude of order slower than your VRAM speed.”
- 亮点：指出了 Thunderbolt 连接速度远低于 VRAM 速度，导致系统瓶颈。
“👀 Use a framework that supports tensor parallel to exceed the limits of layer parallel.”
- 亮点：提出了使用支持张量并行的框架来突破层并行的限制，为性能优化提供了新思路。
“😂 Looks can be deceiving! :D”
- 亮点：幽默地回应了关于 PSU 外观的疑问，增加了讨论的趣味性。
“🚀 Vllm and slang are much more optimized for production inference.”
- 亮点：提供了优化建议，强调了在生产推理中使用更优化的框架的重要性。

情感分析

讨论的总体情感倾向较为积极，社区成员之间互相帮助，共同探讨技术问题。主要分歧点在于对 Thunderbolt 连接是否为主要瓶颈的看法，部分用户认为连接本身不是问题，而另一些用户则认为连接速度远低于 VRAM 速度，导致系统瓶颈。可能的原因是不同用户对硬件配置和系统设计的理解不同，导致对瓶颈的判断有所差异。

趋势与预测

新兴话题：张量并行和模型量化在分布式推理中的应用可能会引发更多讨论。
潜在影响：随着技术的发展，未来可能会有更多优化的框架和工具出现，进一步提升分布式推理的性能。

详细内容：

标题：Reddit 热门讨论：Mac Studio 与双 RTX 4080 GPU 分布式推理的瓶颈与优化探索

在 Reddit 上，一则关于使用双 RTX 4080 GPU 和 Mac Studio 进行基于 llama.cpp 的分布式推理的帖子引起了广泛关注。该帖子[https://www.reddit.com/gallery/1fqigie]指出，尽管通过 40GB/s 的 Thunderbolt 链接相连，但吞吐量仅保持在每秒 10 - 12 个令牌左右，并寻求瓶颈所在及改进建议。此帖获得了众多用户的热烈讨论，评论数众多。

讨论焦点与观点分析：有人认为 10 个令牌每秒的速度对于通过网络的 70B gguf 来说不算差。也有人表示自己的 M2 Ultra 运行 llama 3.1 70b 时速度仅略超 9 个令牌每秒。有人提到所用的量化方式，还有人指出 Mac 的总线可能是瓶颈。有人认为在这种系统中存在很多因素影响，不能简单计算得出结论，需要向专业的硬件调试人员咨询。也有人指出分布式模型在不同卡之间的开销很小。有用户分享了自己拥有 7 个 24GB GPU 的经历，表明存在明显的开销，而使用张量并行则显著减少了开销。有专业人士尝试帮助计算理论最大值，并提供了更多信息的需求。有人表示羡慕原帖作者能在 Mac Studio 上运行这样的模型，有人则认为 llama.cpp 项目本身值得尊重。还有人指出 Thunderbolt 实际可用带宽只有 5GB/s，并提到 CPU、PCIe 等因素也可能影响性能。

总之，这场讨论呈现了多种观点和丰富的经验分享，大家都在努力探寻如何提升系统的性能。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#