这篇文章的灵感来源于https://www.reddit.com/r/LocalLLaMA/comments/1f57bfj/poormans_vram_or_how_to_run_llama_31_8b_q8_at_35/

使用了以下等效的Llama 3.1 8B 8bpw模型。gguf针对fp32优化，exl2针对fp16优化：

注意：我使用的是tgi控制台中显示的总时间。模型加载器为llama.cpp和exllamav2

使用的提示：“您是食品和食品准备方面的专家。果酱、果冻、蜜饯和橘子酱之间有什么区别？” 灵感来源：杂货店中关于果冻、果酱等的区别

GPU	Tok/s	格式	成本	加载时间	上下文（最大）	上下文发送	VRAM	推理功率	空闲功率（已加载）	空闲功率（0B VRAM）	备注
P102-100	22.62 令牌/秒	GGUF	$40	11.4秒	8192	109 令牌	9320MB	140-220W	9W	9W
M40	n/a		$40							15W	CUDA错误：CUDA设备繁忙或不可用
P100	21.48 令牌/秒	GGUF	$150	23.51秒	8192	109 令牌	9448MB	80-140W	33W	26W
P100	36.96 令牌/秒	EXL2	$150	6.95秒	8192	109 令牌	9458MB	110-150W	33W	26W	no_flash_attn=true
CMP 100-210	25.07 令牌/秒	GGUF	$170	39.98秒	8192	109 令牌	9461MB	80-130W	28W	24W	rope_freq_base=0，或核心转储
CMP 100-210	40.66 令牌/秒	EXL2	$170	41.43秒	8192	109 令牌	9489MB	120-170W	28W	24W	no_flash_attn=true
Titan V	n/a	GGUF	$300	3.97 秒	8192	109 令牌	9502MB		25W	25W	CUDA内核mul_mat_q没有兼容CUDA arch 700的设备代码
Titan V	41.70 令牌/秒	EXL2	$300	8.45秒	8192	109 令牌	9422MB	110-130W	25W	23W	no_flash_attn=true

讨论总结

本次讨论主要聚焦于不同GPU型号在运行Llama 3.1 8B GGUF和EXL2模型时的性能比较。参与者们详细讨论了各种GPU的性价比、功耗、物理尺寸、散热设计等因素，并分享了个人使用经验和技术问题。此外，讨论中还涉及了新手如何入门使用这些模型和GPU的建议，以及对未来技术发展的预测。整体氛围偏向技术性和实用性，参与者们积极分享数据和经验，共同探讨最佳实践方案。

主要观点

👍 性价比高的GPU选择
- 支持理由：P102-100和EXL2等低价GPU在特定应用中表现良好，是成本效益高的选择。
- 反对声音：某些新型GPU如Titan X Pascal和RTX 3060在性能上更优，但价格也更高。
🔥 功耗和散热问题
- 正方观点：P102-100在闲置时具有很高的成本效益，但在推理时功耗较高。
- 反方观点：需要考虑GPU的物理尺寸和散热设计，以确保在服务器中的稳定运行。
💡 新手入门指导
- 解释：对于几乎完全的新手，建议从单个GPU开始，逐步学习和实验，同时寻找可信赖的信息来源。
👍 软件支持和性能优化
- 支持理由：使用xformers和exl2可能会提高某些GPU卡的性能，特别是对于旧卡的兼容性。
- 反对声音：使用SDPA可能不会带来明显的性能提升。
🔥 多GPU设置的可行性
- 正方观点：多GPU设置可以提高处理能力，但需要考虑PCIe通道和分线器的需求。
- 反方观点：多GPU设置可能会遇到技术问题和安装困难。

金句与有趣评论

“😂 Nice! Although I’m not sure of the value of these cards tbh. A GTX Titan X Pascal 12GB is about $100 and a RTX 3060 12GB is about $200. Both of which are much better options except for the ultra cheap P102. I think that’s a good card for $40 for sure.”
- 亮点：对不同GPU性价比的直观比较，突出了P102-100的低价优势。
“🤔 I can’t imagine a reason why EXL2 would load 3x faster in some cases and a little slower in others.”
- 亮点：对EXL2加载时间差异的疑惑，引发了对技术细节的深入探讨。
“👀 M40 is an amazing deal for a high VRAM card.”
- 亮点：对M40 GPU高VRAM性能的认可，强调其在高需求应用中的价值。

情感分析

讨论的总体情感倾向偏向积极和实用，大多数参与者对GPU性能和性价比表示关注，并积极分享个人经验和数据。争议点主要集中在不同GPU型号的性能比较和性价比上，但整体氛围友好，参与者们乐于提供帮助和建议。

趋势与预测

新兴话题：对AMD MI50 Instinct显卡的性能比较可能成为未来讨论的热点，尤其是在Linux环境下的应用。
潜在影响：随着技术的进步和更多数据的分享，用户将能更准确地选择适合自己需求的GPU，从而提高工作效率和成本效益。

详细内容：

标题：Reddit 热门讨论——不同 GPU 型号在特定软件运行中的性能大比拼

在 Reddit 上，一则关于不同 GPU 型号性能比较的帖子引发了热烈讨论。该帖子由https://www.reddit.com/r/LocalLLaMA/comments/1f57bfj/poormans\_vram\_or\_how\_to\_run\_llama\_31\_8b\_q8\_at\_35/所启发，对多种 GPU 型号如 P102-100、M40、P100、CMP 100-210、Titan V 等在运行 Llama 3.1 8B 8bpw 模型时的性能进行了详细测试和分析，并以表格形式呈现了相关数据。此帖获得了众多用户的关注，评论数众多。

帖子引发的主要讨论方向包括不同 GPU 型号的性价比、性能差异、适用场景等。文章将要探讨的核心问题是如何在众多 GPU 型号中选择适合自己需求的产品。

在讨论中，用户们提出了各种各样的观点。有人认为可以使用 xformers 与某些型号的 GPU 和 exl2 配合，以提升性能。有人指出 exllama 新增了 torch sdpa 支持，可能适用于旧卡。还有人分享了自己对不同 GPU 型号的测试结果和使用体验。

例如，有用户表示，P102-100 性价比高，但在服务器中的适配存在问题，且在推理时功耗较大。还有用户提到 CMP 100-210 在某些方面的表现以及 Titan V 的优势和不足。对于 M40 的性能，不同用户也给出了各自的看法。

在争议点方面，关于某些 GPU 型号的实际性能和适用场景存在不同意见。比如，对于 CMP 100-210 是否具有特定的 BIOS 以及不同 BIOS 的影响，用户们存在讨论。同时，对于某些价格较低的 GPU 型号，如 P102-100，其是否值得大量购买并投入使用也存在争议。

在讨论中的共识是，不同 GPU 型号各有特点，选择应根据具体需求和预算来决定。特别有见地的观点如一位用户详细分析了 P102-100 在不同场景下的表现和存在的问题，为其他用户提供了丰富的参考。

总的来说，这次关于 GPU 性能的讨论为需要选择 GPU 的用户提供了丰富的信息和思考方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#