原贴链接

https://ahmadosman.com/blog/do - not - use - llama - cpp - or - ollama - on - multi - gpus - setups - use - vllm - or - exllamav2/

讨论总结

原帖主张在多GPU设置下使用vLLM或ExLlamaV2而非llama.cpp进行张量并行处理。评论者们从自身的使用体验、硬件设备、性能比较、技术困难等多方面展开讨论。部分人分享了不同技术间转换后的性能变化，如速度提升情况；也有人提到在特定硬件（如AMD卡）上某些技术运行慢等问题。既有对原帖观点的支持，也有提出质疑或反驳的，整体氛围是理性地进行技术交流探讨。

主要观点

👍 从Llama 3.3 70B Q4 GGUF转换到4.5bpw exl2性能有提升但有限
- 支持理由：TurpentineEnjoyer分享了自己的体验，推理速度从16t/s提升到20t/s，在两块3090显卡规模下提升不值得离开GGUF生态系统。
- 反对声音：无。
🔥 llama.cpp在多GPU设置中有其优势，并非一定使用vLLM或ExLlamaV2更好
- 正方观点：有评论者指出llama.cpp支持P40（vllm/tabby不支持）、可静态编译、启动快等优势。
- 反方观点：原帖及部分人认为在多GPU设置下vLLM或ExLlamaV2更好。
💡 对于单GPU，llama.cpp有速度、依赖和易用性优势
- 解释：henk717提出对于单GPU来说llama.cpp速度一样快、依赖少且易用易安装。
💡 不理解llama.cpp相比Exllamav2更受青睐的原因
- 解释：Lemgon - Ultimate表示自己使用TabbyAPI能满足需求，不理解为何llama.cpp更受偏爱。
💡 不同量化等级可能影响性能提升幅度
- 解释：在关于从Llama 3.3 70B Q4 GGUF转换到4.5bpw exl2的讨论中，有人提出量化等级对性能提升有影响。

金句与有趣评论

“😂 llama.cpp has been pretty good in these ways over vllm/tabby: - supports my P40s (obviously) - one binary, i static compile it on linux/osx - starts up really quickly - has DRY and XTC samplers, I mostly use DRY - fine grain control over VRAM usage - comes with a built in UI - has a FIM (fill in middle) endpoint for code suggestions - very active dev community”
- 亮点：详细阐述了llama.cpp相对于其他技术的多种优势。
“🤔 I never really understood why people are prefering llama.cpp over Exllamav2. I’m using TabbyAPI, it’s really fast and reliable for everything I need.”
- 亮点：表达了对llama.cpp受青睐的疑惑，且介绍了自己使用TabbyAPI的良好体验。
“👀 Honestly, at a 2x3090 scale I just don’t see that performance boost to be worth leaving the GGUF ecosystem.”
- 亮点：从自身硬件规模出发，认为性能提升不足以离开原有生态系统。
“😎 For single GPU its as fast, way less dependencies, easier to use / install. Exllama doesn’t make sense for single user / single GPU for most people.”
- 亮点：对比了单GPU情况下llama.cpp和Exllama的情况。
“🤨 Aren’t there output quality differences between EXL2 and GGUF with GGUF being slightly better?”
- 亮点：提出了EXL2和GGUF之间输出质量是否存在差异的疑问。

情感分析

总体情感倾向是中性的，主要分歧点在于不同技术在多GPU设置下的优劣比较。支持原帖观点的人认为vLLM或ExLlamaV2在多GPU设置下更好；而反对者指出llama.cpp在某些方面（如支持特定设备、启动速度、易用性等）有优势。可能的原因是评论者们基于自身不同的硬件设备、使用需求以及对不同技术的熟悉程度而产生不同看法。

趋势与预测

新兴话题：像如何在vLLM中实现多模型服务、是否能将GPU并行性纳入llama.cpp等问题可能引发后续讨论。
潜在影响：如果某些技术在性能、易用性等方面得到优化改进，可能会影响相关技术在多GPU场景下的使用选择，对人工智能技术在本地设备上的部署和应用产生影响。

详细内容：

《Reddit 热门讨论：多 GPU 配置下的模型优化选择》

近日，Reddit 上一篇关于在多 GPU 配置下如何优化模型性能的帖子引起了广泛关注。该帖提供了一个链接：https://ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/ ，截至目前已获得了众多点赞和大量的评论。

帖子引发了关于不同模型优化方案的热烈讨论，主要包括 llama.cpp、vLLM、ExLlamaV2 等在多 GPU 环境中的性能表现、适用场景以及存在的问题。

在讨论焦点与观点分析方面：

有人表示从 Llama 3.3 70B Q4 GGUF 转到 4.5bpw exl2 后，推理速度从 16 t/s 提升到 20 t/s，但在 2x3090 规模下，觉得性能提升不值得离开 GGUF 生态系统。

有人称 vllm 相比 llama.cpp 速度快了两倍，而且并行请求运行良好，但也有人指出 vllm 在长上下文处理时速度仍较慢。

有人分享了自己的多 GPU 配置，包括 7900xtx、2xA770s、3060、2070 和 Mac，还提到了不同硬件在不同操作系统下的性能差异。

有人认为对于单 GPU 来说，llama.cpp 更简单易用，而 ExLlamaV2 对于多数单用户单 GPU 情况意义不大。

也有人提到不同量化技术在性能和质量上的差异，以及不同模型在不同环境下的支持情况。

讨论中的共识在于不同方案各有优劣，需要根据具体需求和硬件条件选择。

特别有见地的观点如有人指出在特定配置下，某些方案的速度提升效果明显，但也有人强调稳定性和易用性同样重要。

总之，这次讨论充分展现了多 GPU 配置下模型优化选择的多样性和复杂性，为相关用户提供了丰富的参考和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#