原贴链接

我最近参与了很多关于RTX 3090功率限制及其相对性能差异/最佳点的讨论。距离我上次进行测试已经有一段时间了,所以我想,何不再做一次呢。测试是使用llama.cpp相对较新的HEAD版本(build: ba1cb19c (4327))和[Llama 3.1 8B Q4_K_M](https://huggingface.co/bartowski/Meta - Llama - 3.1 - 8B - Instruct - GGUF)在微星3090(Arch Linux 6.11.6,Nvidia 565.57.01,CUDA 12.7)上进行的,该显卡默认功率限制为420W,最高功率为450W。我使用了默认的llama - bench,这里有原始pp512(预填充)和tg128(令牌生成)数据的图表。还有显示相对于默认420W、100%时性能百分比下降的图表。虽然有些人报告在250W时性能良好,但至少对于我的3090来说,从300W左右开始性能下降得更厉害,所以我创建了一个差值图表以便更轻松地看到随着功率限制持续降低时的性能下降情况。这表明在310W以下,每降低10W,性能下降幅度从小于2%一直到6%以上。当然,每个人的显卡会略有不同(芯片差异和其他因素),所以这里是我用来生成数据的脚本。对于那些想要生成自己的数据表/图表的人,我分享了我的ChatGPT会话,可以查看其中的“Analysis”代码块,里面有解析/加载到数据框、计算数据和输出图表的函数。还有我的原始数据。

讨论总结

原帖作者对RTX 3090在调整功率限制下的相对性能进行测试并给出数据、图表。评论者们的讨论涉及多个方面,包括对测试所用显卡型号的疑问、功率限制与VBIOS的关系、不同品牌3090功率差异、电源接口与功率关系等;还有性能提升的相关操作及英伟达驱动电源管理问题;性能对运行模型的高度依赖性;RTX 3090与M3 Max的性能对比;以及对原测试从能耗比角度补充展示的建议等。

主要观点

  1. 👍 原测试用的3090显卡型号存疑
    • 支持理由:原帖未明确提及是否为3090ti,有评论者的3090最大功率只能到350W。
    • 反对声音:原评论者确认是MSI 3090 Ventus 3X OC。
  2. 🔥 最大功率限制取决于VBIOS
    • 正方观点:原评论者确认自己显卡型号后提及最大功率限制取决于个体的VBIOS。
    • 反方观点:无。
  3. 💡 性能高度依赖运行的模型
    • 解释:不同模型规模(1B、8B、27B等)在RTX 3090上运行的测试结果会不同,有评论者对LLM、Stable Diffusion和Whisper做过类似测试。
  4. 🤔 RTX 3090在200W功率下令牌生成速度胜过M3 Max
    • 解释:通过对比两者在显存带宽、FP16 TFLOPS、INT8 Tensor TFLOPS等方面的差距,得出此结论。
  5. 👀 原测试缺乏token/焦耳相关的能耗比展示
    • 解释:有评论者建议添加token/焦耳的图表,可从能耗角度更好展示性能。

金句与有趣评论

  1. “😂我的3090s都只能到350w。”
    • 亮点:直接表明自己显卡的功率情况,引发对原测试显卡型号的疑问。
  2. “🤔我再次确认了,确切的型号是MSI 3090 Ventus 3X OC。最大功率限制仅仅取决于个体的VBIOS。”
    • 亮点:解答了对测试显卡型号的疑问,并给出最大功率限制的相关因素。
  3. “👀You should be able to obtain better performance per watt during inference (probably not prompt processing) if you limit GPU core speed around 1400 MHz with nvidia - smi - lgc 0,1400.”
    • 亮点:提出一种提升每瓦性能的操作。
  4. “💡fwiw it is highly dependent on what model is being run as well. you will get different results running 1B vs 8B vs 27B”
    • 亮点:强调性能对运行模型的依赖性。
  5. “😎Even at 200W, 3090 beats my binned M3 Max for token generation (~50 t/s). Cuda power!”
    • 亮点:直观体现RTX 3090与M3 Max的性能对比。

情感分析

总体情感倾向较为中性。主要分歧点在于对原帖测试的一些疑问和补充建议,如对测试显卡型号的疑问、原测试缺乏能耗比展示等。可能的原因是原帖的测试内容较为专业和具体,评论者从不同专业角度和自身使用经验出发进行讨论。

趋势与预测

  • 新兴话题:从能耗比角度完善RTX 3090性能测试展示可能会引发后续讨论。
  • 潜在影响:对那些关注RTX 3090显卡性能优化、不同模型运行效率以及能耗管理的用户有一定的参考价值,可能影响他们在显卡使用、模型选择等方面的决策。

详细内容:

标题:关于 RTX 3090 调整功率限制的热门讨论

在 Reddit 上,一篇有关在 llama.cpp 中调整 RTX 3090 功率限制及相对性能变化的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。原帖作者进行了一系列测试,并分享了详细的数据和脚本。

讨论焦点主要集中在不同用户对于功率限制与性能表现关系的看法。有人认为这可能是 3090ti,也有人指出功率上限取决于个体的 VBIOS。还有用户提到,在推理过程中通过限制 GPU 核心速度可能获得更好的性能瓦特比。

有用户分享道:“我已经做过类似的针对不同 LLM 大小以及稳定扩散和 whisper 的测试。”还有人称赞道:“哇!这么多的数据!看起来我已经看过您 7 月份关于您网站的帖子,但完全忘记了,感谢您再次评论。”

对于性能表现的差异,有人表示:“即使在 200W,3090 在令牌生成方面也胜过我的 binned M3 Max。这就是 Cuda 的威力!”

争议点在于不同用户的 3090 功率上限不同,以及不同条件下性能表现的差异原因。讨论中的共识是模型大小、架构以及推理引擎的变化都会对性能产生影响。特别有见地的观点是关于如何通过调整参数来优化性能。

核心问题在于如何找到最适合不同用户和使用场景的功率限制,以达到最佳性能。

希望这篇文章能让您对该热门讨论有更全面的了解!