原贴链接

这篇文章的灵感来源于https://www.reddit.com/r/LocalLLaMA/comments/1f57bfj/poormans_vram_or_how_to_run_llama_31_8b_q8_at_35/

使用了以下等效的Llama 3.1 8B 8bpw模型。gguf针对fp32优化,exl2针对fp16优化:

注意:我使用的是tgi控制台中显示的总时间。模型加载器为llama.cpp和exllamav2

使用的提示:“您是食品和食品准备方面的专家。果酱、果冻、蜜饯和橘子酱之间有什么区别?” 灵感来源:杂货店中关于果冻、果酱等的区别

GPUTok/s格式成本加载时间上下文(最大)上下文发送VRAM推理功率空闲功率(已加载)空闲功率(0B VRAM)备注
P102-10022.62 令牌/秒GGUF$4011.4秒8192109 令牌9320MB140-220W9W9W
M40n/a$4015WCUDA错误:CUDA设备繁忙或不可用
P10021.48 令牌/秒GGUF$15023.51秒8192109 令牌9448MB80-140W33W26W
P10036.96 令牌/秒EXL2$1506.95秒8192109 令牌9458MB110-150W33W26Wno_flash_attn=true
CMP 100-21025.07 令牌/秒GGUF$17039.98秒8192109 令牌9461MB80-130W28W24Wrope_freq_base=0,或核心转储
CMP 100-21040.66 令牌/秒EXL2$17041.43秒8192109 令牌9489MB120-170W28W24Wno_flash_attn=true
Titan Vn/aGGUF$3003.97 秒8192109 令牌9502MB25W25WCUDA内核mul_mat_q没有兼容CUDA arch 700的设备代码
Titan V41.70 令牌/秒EXL2$3008.45秒8192109 令牌9422MB110-130W25W23Wno_flash_attn=true

image

讨论总结

本次讨论主要聚焦于不同GPU型号在运行Llama 3.1 8B GGUF和EXL2模型时的性能比较。参与者们详细讨论了各种GPU的性价比、功耗、物理尺寸、散热设计等因素,并分享了个人使用经验和技术问题。此外,讨论中还涉及了新手如何入门使用这些模型和GPU的建议,以及对未来技术发展的预测。整体氛围偏向技术性和实用性,参与者们积极分享数据和经验,共同探讨最佳实践方案。

主要观点

  1. 👍 性价比高的GPU选择

    • 支持理由:P102-100和EXL2等低价GPU在特定应用中表现良好,是成本效益高的选择。
    • 反对声音:某些新型GPU如Titan X Pascal和RTX 3060在性能上更优,但价格也更高。
  2. 🔥 功耗和散热问题

    • 正方观点:P102-100在闲置时具有很高的成本效益,但在推理时功耗较高。
    • 反方观点:需要考虑GPU的物理尺寸和散热设计,以确保在服务器中的稳定运行。
  3. 💡 新手入门指导

    • 解释:对于几乎完全的新手,建议从单个GPU开始,逐步学习和实验,同时寻找可信赖的信息来源。
  4. 👍 软件支持和性能优化

    • 支持理由:使用xformers和exl2可能会提高某些GPU卡的性能,特别是对于旧卡的兼容性。
    • 反对声音:使用SDPA可能不会带来明显的性能提升。
  5. 🔥 多GPU设置的可行性

    • 正方观点:多GPU设置可以提高处理能力,但需要考虑PCIe通道和分线器的需求。
    • 反方观点:多GPU设置可能会遇到技术问题和安装困难。

金句与有趣评论

  1. “😂 Nice! Although I’m not sure of the value of these cards tbh. A GTX Titan X Pascal 12GB is about $100 and a RTX 3060 12GB is about $200. Both of which are much better options except for the ultra cheap P102. I think that’s a good card for $40 for sure.”

    • 亮点:对不同GPU性价比的直观比较,突出了P102-100的低价优势。
  2. “🤔 I can’t imagine a reason why EXL2 would load 3x faster in some cases and a little slower in others.”

    • 亮点:对EXL2加载时间差异的疑惑,引发了对技术细节的深入探讨。
  3. “👀 M40 is an amazing deal for a high VRAM card.”

    • 亮点:对M40 GPU高VRAM性能的认可,强调其在高需求应用中的价值。

情感分析

讨论的总体情感倾向偏向积极和实用,大多数参与者对GPU性能和性价比表示关注,并积极分享个人经验和数据。争议点主要集中在不同GPU型号的性能比较和性价比上,但整体氛围友好,参与者们乐于提供帮助和建议。

趋势与预测

  • 新兴话题:对AMD MI50 Instinct显卡的性能比较可能成为未来讨论的热点,尤其是在Linux环境下的应用。
  • 潜在影响:随着技术的进步和更多数据的分享,用户将能更准确地选择适合自己需求的GPU,从而提高工作效率和成本效益。

详细内容:

标题:Reddit 热门讨论——不同 GPU 型号在特定软件运行中的性能大比拼

在 Reddit 上,一则关于不同 GPU 型号性能比较的帖子引发了热烈讨论。该帖子由https://www.reddit.com/r/LocalLLaMA/comments/1f57bfj/poormans\_vram\_or\_how\_to\_run\_llama\_31\_8b\_q8\_at\_35/所启发,对多种 GPU 型号如 P102-100、M40、P100、CMP 100-210、Titan V 等在运行 Llama 3.1 8B 8bpw 模型时的性能进行了详细测试和分析,并以表格形式呈现了相关数据。此帖获得了众多用户的关注,评论数众多。

帖子引发的主要讨论方向包括不同 GPU 型号的性价比、性能差异、适用场景等。文章将要探讨的核心问题是如何在众多 GPU 型号中选择适合自己需求的产品。

在讨论中,用户们提出了各种各样的观点。有人认为可以使用 xformers 与某些型号的 GPU 和 exl2 配合,以提升性能。有人指出 exllama 新增了 torch sdpa 支持,可能适用于旧卡。还有人分享了自己对不同 GPU 型号的测试结果和使用体验。

例如,有用户表示,P102-100 性价比高,但在服务器中的适配存在问题,且在推理时功耗较大。还有用户提到 CMP 100-210 在某些方面的表现以及 Titan V 的优势和不足。对于 M40 的性能,不同用户也给出了各自的看法。

在争议点方面,关于某些 GPU 型号的实际性能和适用场景存在不同意见。比如,对于 CMP 100-210 是否具有特定的 BIOS 以及不同 BIOS 的影响,用户们存在讨论。同时,对于某些价格较低的 GPU 型号,如 P102-100,其是否值得大量购买并投入使用也存在争议。

在讨论中的共识是,不同 GPU 型号各有特点,选择应根据具体需求和预算来决定。特别有见地的观点如一位用户详细分析了 P102-100 在不同场景下的表现和存在的问题,为其他用户提供了丰富的参考。

总的来说,这次关于 GPU 性能的讨论为需要选择 GPU 的用户提供了丰富的信息和思考方向。