使用了以下等效的Llama 3.1 8B 8bpw模型。gguf针对fp32优化,exl2针对fp16优化:
- bartowski/Meta-Llama-3.1-8B-Instruct-GGUF:Meta-Llama-3.1-8B-Instruct-Q8_0.gguf
- turboderp/Llama-3.1-8B-Instruct-exl2:8.0bpw
注意:我使用的是tgi控制台中显示的总时间。模型加载器为llama.cpp和exllamav2
使用的提示:“您是食品和食品准备方面的专家。果酱、果冻、蜜饯和橘子酱之间有什么区别?” 灵感来源:杂货店中关于果冻、果酱等的区别
GPU | Tok/s | 格式 | 成本 | 加载时间 | 上下文(最大) | 上下文发送 | VRAM | 推理功率 | 空闲功率(已加载) | 空闲功率(0B VRAM) | 备注 |
---|---|---|---|---|---|---|---|---|---|---|---|
P102-100 | 22.62 令牌/秒 | GGUF | $40 | 11.4秒 | 8192 | 109 令牌 | 9320MB | 140-220W | 9W | 9W | |
M40 | n/a | $40 | 15W | CUDA错误:CUDA设备繁忙或不可用 | |||||||
P100 | 21.48 令牌/秒 | GGUF | $150 | 23.51秒 | 8192 | 109 令牌 | 9448MB | 80-140W | 33W | 26W | |
P100 | 36.96 令牌/秒 | EXL2 | $150 | 6.95秒 | 8192 | 109 令牌 | 9458MB | 110-150W | 33W | 26W | no_flash_attn=true |
CMP 100-210 | 25.07 令牌/秒 | GGUF | $170 | 39.98秒 | 8192 | 109 令牌 | 9461MB | 80-130W | 28W | 24W | rope_freq_base=0,或核心转储 |
CMP 100-210 | 40.66 令牌/秒 | EXL2 | $170 | 41.43秒 | 8192 | 109 令牌 | 9489MB | 120-170W | 28W | 24W | no_flash_attn=true |
Titan V | n/a | GGUF | $300 | 3.97 秒 | 8192 | 109 令牌 | 9502MB | 25W | 25W | CUDA内核mul_mat_q没有兼容CUDA arch 700的设备代码 | |
Titan V | 41.70 令牌/秒 | EXL2 | $300 | 8.45秒 | 8192 | 109 令牌 | 9422MB | 110-130W | 25W | 23W | no_flash_attn=true |
讨论总结
本次讨论主要聚焦于不同GPU型号在运行Llama 3.1 8B GGUF和EXL2模型时的性能比较。参与者们详细讨论了各种GPU的性价比、功耗、物理尺寸、散热设计等因素,并分享了个人使用经验和技术问题。此外,讨论中还涉及了新手如何入门使用这些模型和GPU的建议,以及对未来技术发展的预测。整体氛围偏向技术性和实用性,参与者们积极分享数据和经验,共同探讨最佳实践方案。
主要观点
👍 性价比高的GPU选择
- 支持理由:P102-100和EXL2等低价GPU在特定应用中表现良好,是成本效益高的选择。
- 反对声音:某些新型GPU如Titan X Pascal和RTX 3060在性能上更优,但价格也更高。
🔥 功耗和散热问题
- 正方观点:P102-100在闲置时具有很高的成本效益,但在推理时功耗较高。
- 反方观点:需要考虑GPU的物理尺寸和散热设计,以确保在服务器中的稳定运行。
💡 新手入门指导
- 解释:对于几乎完全的新手,建议从单个GPU开始,逐步学习和实验,同时寻找可信赖的信息来源。
👍 软件支持和性能优化
- 支持理由:使用xformers和exl2可能会提高某些GPU卡的性能,特别是对于旧卡的兼容性。
- 反对声音:使用SDPA可能不会带来明显的性能提升。
🔥 多GPU设置的可行性
- 正方观点:多GPU设置可以提高处理能力,但需要考虑PCIe通道和分线器的需求。
- 反方观点:多GPU设置可能会遇到技术问题和安装困难。
金句与有趣评论
“😂 Nice! Although I’m not sure of the value of these cards tbh. A GTX Titan X Pascal 12GB is about $100 and a RTX 3060 12GB is about $200. Both of which are much better options except for the ultra cheap P102. I think that’s a good card for $40 for sure.”
- 亮点:对不同GPU性价比的直观比较,突出了P102-100的低价优势。
“🤔 I can’t imagine a reason why EXL2 would load 3x faster in some cases and a little slower in others.”
- 亮点:对EXL2加载时间差异的疑惑,引发了对技术细节的深入探讨。
“👀 M40 is an amazing deal for a high VRAM card.”
- 亮点:对M40 GPU高VRAM性能的认可,强调其在高需求应用中的价值。
情感分析
讨论的总体情感倾向偏向积极和实用,大多数参与者对GPU性能和性价比表示关注,并积极分享个人经验和数据。争议点主要集中在不同GPU型号的性能比较和性价比上,但整体氛围友好,参与者们乐于提供帮助和建议。
趋势与预测
- 新兴话题:对AMD MI50 Instinct显卡的性能比较可能成为未来讨论的热点,尤其是在Linux环境下的应用。
- 潜在影响:随着技术的进步和更多数据的分享,用户将能更准确地选择适合自己需求的GPU,从而提高工作效率和成本效益。
详细内容:
标题:Reddit 热门讨论——不同 GPU 型号在特定软件运行中的性能大比拼
在 Reddit 上,一则关于不同 GPU 型号性能比较的帖子引发了热烈讨论。该帖子由https://www.reddit.com/r/LocalLLaMA/comments/1f57bfj/poormans\_vram\_or\_how\_to\_run\_llama\_31\_8b\_q8\_at\_35/所启发,对多种 GPU 型号如 P102-100、M40、P100、CMP 100-210、Titan V 等在运行 Llama 3.1 8B 8bpw 模型时的性能进行了详细测试和分析,并以表格形式呈现了相关数据。此帖获得了众多用户的关注,评论数众多。
帖子引发的主要讨论方向包括不同 GPU 型号的性价比、性能差异、适用场景等。文章将要探讨的核心问题是如何在众多 GPU 型号中选择适合自己需求的产品。
在讨论中,用户们提出了各种各样的观点。有人认为可以使用 xformers 与某些型号的 GPU 和 exl2 配合,以提升性能。有人指出 exllama 新增了 torch sdpa 支持,可能适用于旧卡。还有人分享了自己对不同 GPU 型号的测试结果和使用体验。
例如,有用户表示,P102-100 性价比高,但在服务器中的适配存在问题,且在推理时功耗较大。还有用户提到 CMP 100-210 在某些方面的表现以及 Titan V 的优势和不足。对于 M40 的性能,不同用户也给出了各自的看法。
在争议点方面,关于某些 GPU 型号的实际性能和适用场景存在不同意见。比如,对于 CMP 100-210 是否具有特定的 BIOS 以及不同 BIOS 的影响,用户们存在讨论。同时,对于某些价格较低的 GPU 型号,如 P102-100,其是否值得大量购买并投入使用也存在争议。
在讨论中的共识是,不同 GPU 型号各有特点,选择应根据具体需求和预算来决定。特别有见地的观点如一位用户详细分析了 P102-100 在不同场景下的表现和存在的问题,为其他用户提供了丰富的参考。
总的来说,这次关于 GPU 性能的讨论为需要选择 GPU 的用户提供了丰富的信息和思考方向。
感谢您的耐心阅读!来选个表情,或者留个评论吧!