原贴链接

在尝试优化6x3090大型语言模型(LLM)推理构建的功耗时,我尝试改变最大核心速度而非功率限制。我认为保持高功率限制但限制核心速度会带来不同类型的控制,即所有需要的功率都供给内存,而核心可以维持在仅需的水平。有趣的是,在约1100兆赫兹之后每秒令牌数(t/s)有明显的平稳期,而在1300兆赫兹之后功耗显著飙升。我想知道为什么会这样?功率应该有去向,但不是用于每秒令牌数。无论如何,限制最大核心时钟似乎是为大型语言模型推理调整GPU的较好方法。我想听听大家对此的看法,以及是否有人已经专门测试过时钟速度的影响。测试方法:6个3090显卡,功率限制300W(只是为了安全,似乎完全不影响结果);每个显卡的PCIE配置(均为4.0):x8(CPU)、x4(CPU)、x4(CPU)、x4(CPU)、x4(CPU)、x4(芯片组);Llama 3.1 70B Q8 exl2量化;启用张量并行的tabbyAPI;Ubuntu 22.04;英伟达驱动版本560;每次测量都完全重启tabbyAPI;以32k上下文启动,但提示只是“写15个关于夏天的句子”;为所有GPU设置最大核心速度(例如1305兆赫兹)的命令是nvidia - smi - lgc 0,1305。附言:功耗测量使用壁式功率计完成,减去空闲系统功率,然后相除得到单个显卡的值。

讨论总结

原帖作者分享了关于6x3090在LLM推理构建中GPU速度与每秒处理标记数以及功耗关系的测试结果,并对测试中出现的现象提出疑问,还表示希望听到大家的想法。评论者们从不同角度进行了回应,如推测出现现象的原因、提出新的测试建议、分享自己的相关经验等,整体氛围积极,大家都在探索GPU性能优化相关的问题。

主要观点

  1. 👍 推测GPU在特定频率范围后t/s不再增长而功耗上升是由于达到内存带宽限制。
    • 支持理由:原帖中GPU在特定频率下出现每秒处理标记数平台期而功耗上升的现象,内存带宽限制是一种合理推测。
    • 反对声音:无。
  2. 🔥 建议改变功耗测量的来源。
    • 正方观点:原帖的功耗测量方式可能不够细致,改变测量来源也许能得到更多关于GPU功耗相关的信息。
    • 反方观点:无。
  3. 💡 原帖中调整GPU核心速度优化功耗的内容很有趣。
    • 解释:这种调整方式可能为GPU功耗优化提供新的思路。
  4. 💡 一年前的测试可能对当前话题有帮助。
    • 解释:之前的测试结果可以提供参考,对当前的GPU性能和功耗调整有一定价值。
  5. 💡 限制提升频率能带来更好的功耗稳定性。
    • 解释:对于避免多GPU满载计算任务时系统崩溃以及减少功率尖峰有帮助。

金句与有趣评论

  1. “😂 我想知道在进入650 + Mhz范围,特别是1250 Mhz之后,是否由于内存带宽而达到极限。”
    • 亮点:对原帖中GPU性能测试的异常现象提出了合理推测方向。
  2. “🤔 Can you measure the power draw from your UPS rather than from nvtop?”
    • 亮点:为原帖中的功耗测量提供了新的思路。
  3. “👀 kryptkpr: I wonder how a model like command - r - plus would fare with the lower clocks, it seems the command models in general are compute - heavier compared to llama/qwen/Mistral architectures”
    • 亮点:引出关于不同模型在低时钟频率下表现的讨论。
  4. “😂 yamosin:I did a little test about 1 year ago, maybe it will help a little bit”
    • 亮点:分享自己的经验测试,为话题提供参考。
  5. “🤔 Unrelated to speed, limiting the boost frequency also gives you better stability in power consumption.”
    • 亮点:提出限制提升频率对功耗稳定性的影响这一有价值的观点。

情感分析

总体情感倾向为积极。主要分歧点较少,大部分评论者都在积极地探讨原帖中的GPU性能和功耗相关问题。可能的原因是原帖的主题具有专业性和探索性,吸引了对此感兴趣的用户参与讨论,大家更多是在分享自己的观点和经验,互相交流学习。

趋势与预测

  • 新兴话题:对不同模型(如command - r - plus)在低时钟频率下的性能测试可能会成为后续讨论的新焦点。
  • 潜在影响:如果能确定不同模型在低时钟频率下的性能表现,可能会对GPU在LLM推理中的功耗优化策略产生影响,也可能为相关硬件和模型的研发提供参考。

详细内容:

《Reddit 上关于 GPU 速度、每秒处理标记数与功耗关系的热门讨论》

在 Reddit 上,一则有关“GPU Speed vs Tokens per Second & Power Draw [test results]”的帖子引起了广泛关注。该帖子展示了一张呈现 GPU 速度与每秒处理的标记数以及功耗之间关系的图表,获得了众多用户的热烈讨论,评论数众多。

讨论的焦点主要集中在 GPU 速度提升后,功耗显著上升但每秒处理标记数出现平台期的现象及原因。有人认为可能是在达到一定频率后触及了内存带宽的限制,尤其是在 650+ MHz 及 1250 MHz 之后,还好奇对内存进行超频和降频的效果。也有人提出,如果核心没有进行有用的工作,就不会消耗功率,然而测试中频率提高、功耗增加但每秒处理标记数不变。还有用户表示对功率使用的逻辑不太理解,比如为何在特定频率下功耗增加但性能未提升,以及如何在降压或升压时保持稳定。

例如,有用户分享道:“作为一名长期关注硬件性能的爱好者,我曾经在类似的测试中也遇到过类似的情况。在尝试调整 GPU 频率时,发现超过一定数值后,性能提升变得极为有限,但功耗却持续上升。”

对于这一现象,不同用户提出了各自的见解。有人认为可能是达到了 VRAM(PCIe)带宽的限制,导致功耗增加但每秒处理标记数不再上升,这可能是架构的特殊之处。也有人提到,限制提升频率能实现节能但不损失每秒处理标记数,目标是找到通过限制频率而非常见的功率限制来实现优化的最佳点,约在 1300 MHz 左右。还有用户建议尝试不同的后端和模型进行测试,以观察性能差异。

总之,这次讨论为理解 GPU 性能特性和能耗模式提供了丰富的视角和思路。