https://ahmadosman.com/blog/do - not - use - llama - cpp - or - ollama - on - multi - gpus - setups - use - vllm - or - exllamav2/
讨论总结
原帖主张在多GPU设置下使用vLLM或ExLlamaV2而非llama.cpp进行张量并行处理。评论者们从自身的使用体验、硬件设备、性能比较、技术困难等多方面展开讨论。部分人分享了不同技术间转换后的性能变化,如速度提升情况;也有人提到在特定硬件(如AMD卡)上某些技术运行慢等问题。既有对原帖观点的支持,也有提出质疑或反驳的,整体氛围是理性地进行技术交流探讨。
主要观点
- 👍 从Llama 3.3 70B Q4 GGUF转换到4.5bpw exl2性能有提升但有限
- 支持理由:TurpentineEnjoyer分享了自己的体验,推理速度从16t/s提升到20t/s,在两块3090显卡规模下提升不值得离开GGUF生态系统。
- 反对声音:无。
- 🔥 llama.cpp在多GPU设置中有其优势,并非一定使用vLLM或ExLlamaV2更好
- 正方观点:有评论者指出llama.cpp支持P40(vllm/tabby不支持)、可静态编译、启动快等优势。
- 反方观点:原帖及部分人认为在多GPU设置下vLLM或ExLlamaV2更好。
- 💡 对于单GPU,llama.cpp有速度、依赖和易用性优势
- 解释:henk717提出对于单GPU来说llama.cpp速度一样快、依赖少且易用易安装。
- 💡 不理解llama.cpp相比Exllamav2更受青睐的原因
- 解释:Lemgon - Ultimate表示自己使用TabbyAPI能满足需求,不理解为何llama.cpp更受偏爱。
- 💡 不同量化等级可能影响性能提升幅度
- 解释:在关于从Llama 3.3 70B Q4 GGUF转换到4.5bpw exl2的讨论中,有人提出量化等级对性能提升有影响。
金句与有趣评论
- “😂 llama.cpp has been pretty good in these ways over vllm/tabby: - supports my P40s (obviously) - one binary, i static compile it on linux/osx - starts up really quickly - has DRY and XTC samplers, I mostly use DRY - fine grain control over VRAM usage - comes with a built in UI - has a FIM (fill in middle) endpoint for code suggestions - very active dev community”
- 亮点:详细阐述了llama.cpp相对于其他技术的多种优势。
- “🤔 I never really understood why people are prefering llama.cpp over Exllamav2. I’m using TabbyAPI, it’s really fast and reliable for everything I need.”
- 亮点:表达了对llama.cpp受青睐的疑惑,且介绍了自己使用TabbyAPI的良好体验。
- “👀 Honestly, at a 2x3090 scale I just don’t see that performance boost to be worth leaving the GGUF ecosystem.”
- 亮点:从自身硬件规模出发,认为性能提升不足以离开原有生态系统。
- “😎 For single GPU its as fast, way less dependencies, easier to use / install. Exllama doesn’t make sense for single user / single GPU for most people.”
- 亮点:对比了单GPU情况下llama.cpp和Exllama的情况。
- “🤨 Aren’t there output quality differences between EXL2 and GGUF with GGUF being slightly better?”
- 亮点:提出了EXL2和GGUF之间输出质量是否存在差异的疑问。
情感分析
总体情感倾向是中性的,主要分歧点在于不同技术在多GPU设置下的优劣比较。支持原帖观点的人认为vLLM或ExLlamaV2在多GPU设置下更好;而反对者指出llama.cpp在某些方面(如支持特定设备、启动速度、易用性等)有优势。可能的原因是评论者们基于自身不同的硬件设备、使用需求以及对不同技术的熟悉程度而产生不同看法。
趋势与预测
- 新兴话题:像如何在vLLM中实现多模型服务、是否能将GPU并行性纳入llama.cpp等问题可能引发后续讨论。
- 潜在影响:如果某些技术在性能、易用性等方面得到优化改进,可能会影响相关技术在多GPU场景下的使用选择,对人工智能技术在本地设备上的部署和应用产生影响。
详细内容:
《Reddit 热门讨论:多 GPU 配置下的模型优化选择》
近日,Reddit 上一篇关于在多 GPU 配置下如何优化模型性能的帖子引起了广泛关注。该帖提供了一个链接:https://ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/ ,截至目前已获得了众多点赞和大量的评论。
帖子引发了关于不同模型优化方案的热烈讨论,主要包括 llama.cpp、vLLM、ExLlamaV2 等在多 GPU 环境中的性能表现、适用场景以及存在的问题。
在讨论焦点与观点分析方面:
有人表示从 Llama 3.3 70B Q4 GGUF 转到 4.5bpw exl2 后,推理速度从 16 t/s 提升到 20 t/s,但在 2x3090 规模下,觉得性能提升不值得离开 GGUF 生态系统。
有人称 vllm 相比 llama.cpp 速度快了两倍,而且并行请求运行良好,但也有人指出 vllm 在长上下文处理时速度仍较慢。
有人分享了自己的多 GPU 配置,包括 7900xtx、2xA770s、3060、2070 和 Mac,还提到了不同硬件在不同操作系统下的性能差异。
有人认为对于单 GPU 来说,llama.cpp 更简单易用,而 ExLlamaV2 对于多数单用户单 GPU 情况意义不大。
也有人提到不同量化技术在性能和质量上的差异,以及不同模型在不同环境下的支持情况。
讨论中的共识在于不同方案各有优劣,需要根据具体需求和硬件条件选择。
特别有见地的观点如有人指出在特定配置下,某些方案的速度提升效果明显,但也有人强调稳定性和易用性同样重要。
总之,这次讨论充分展现了多 GPU 配置下模型优化选择的多样性和复杂性,为相关用户提供了丰富的参考和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!