原贴链接

在尝试优化6x3090大型语言模型（LLM）推理构建的功耗时，我尝试改变最大核心速度而非功率限制。我认为保持高功率限制但限制核心速度会带来不同类型的控制，即所有需要的功率都供给内存，而核心可以维持在仅需的水平。有趣的是，在约1100兆赫兹之后每秒令牌数（t/s）有明显的平稳期，而在1300兆赫兹之后功耗显著飙升。我想知道为什么会这样？功率应该有去向，但不是用于每秒令牌数。无论如何，限制最大核心时钟似乎是为大型语言模型推理调整GPU的较好方法。我想听听大家对此的看法，以及是否有人已经专门测试过时钟速度的影响。测试方法：6个3090显卡，功率限制300W（只是为了安全，似乎完全不影响结果）；每个显卡的PCIE配置（均为4.0）：x8（CPU）、x4（CPU）、x4（CPU）、x4（CPU）、x4（CPU）、x4（芯片组）；Llama 3.1 70B Q8 exl2量化；启用张量并行的tabbyAPI；Ubuntu 22.04；英伟达驱动版本560；每次测量都完全重启tabbyAPI；以32k上下文启动，但提示只是“写15个关于夏天的句子”；为所有GPU设置最大核心速度（例如1305兆赫兹）的命令是nvidia - smi - lgc 0,1305。附言：功耗测量使用壁式功率计完成，减去空闲系统功率，然后相除得到单个显卡的值。

讨论总结

原帖作者分享了关于6x3090在LLM推理构建中GPU速度与每秒处理标记数以及功耗关系的测试结果，并对测试中出现的现象提出疑问，还表示希望听到大家的想法。评论者们从不同角度进行了回应，如推测出现现象的原因、提出新的测试建议、分享自己的相关经验等，整体氛围积极，大家都在探索GPU性能优化相关的问题。

主要观点

👍 推测GPU在特定频率范围后t/s不再增长而功耗上升是由于达到内存带宽限制。
- 支持理由：原帖中GPU在特定频率下出现每秒处理标记数平台期而功耗上升的现象，内存带宽限制是一种合理推测。
- 反对声音：无。
🔥 建议改变功耗测量的来源。
- 正方观点：原帖的功耗测量方式可能不够细致，改变测量来源也许能得到更多关于GPU功耗相关的信息。
- 反方观点：无。
💡 原帖中调整GPU核心速度优化功耗的内容很有趣。
- 解释：这种调整方式可能为GPU功耗优化提供新的思路。
💡 一年前的测试可能对当前话题有帮助。
- 解释：之前的测试结果可以提供参考，对当前的GPU性能和功耗调整有一定价值。
💡 限制提升频率能带来更好的功耗稳定性。
- 解释：对于避免多GPU满载计算任务时系统崩溃以及减少功率尖峰有帮助。

金句与有趣评论

“😂 我想知道在进入650 + Mhz范围，特别是1250 Mhz之后，是否由于内存带宽而达到极限。”
- 亮点：对原帖中GPU性能测试的异常现象提出了合理推测方向。
“🤔 Can you measure the power draw from your UPS rather than from nvtop?”
- 亮点：为原帖中的功耗测量提供了新的思路。
“👀 kryptkpr: I wonder how a model like command - r - plus would fare with the lower clocks, it seems the command models in general are compute - heavier compared to llama/qwen/Mistral architectures”
- 亮点：引出关于不同模型在低时钟频率下表现的讨论。
“😂 yamosin：I did a little test about 1 year ago, maybe it will help a little bit”
- 亮点：分享自己的经验测试，为话题提供参考。
“🤔 Unrelated to speed, limiting the boost frequency also gives you better stability in power consumption.”
- 亮点：提出限制提升频率对功耗稳定性的影响这一有价值的观点。

情感分析

总体情感倾向为积极。主要分歧点较少，大部分评论者都在积极地探讨原帖中的GPU性能和功耗相关问题。可能的原因是原帖的主题具有专业性和探索性，吸引了对此感兴趣的用户参与讨论，大家更多是在分享自己的观点和经验，互相交流学习。

趋势与预测

新兴话题：对不同模型（如command - r - plus）在低时钟频率下的性能测试可能会成为后续讨论的新焦点。
潜在影响：如果能确定不同模型在低时钟频率下的性能表现，可能会对GPU在LLM推理中的功耗优化策略产生影响，也可能为相关硬件和模型的研发提供参考。

详细内容：

《Reddit 上关于 GPU 速度、每秒处理标记数与功耗关系的热门讨论》

在 Reddit 上，一则有关“GPU Speed vs Tokens per Second & Power Draw [test results]”的帖子引起了广泛关注。该帖子展示了一张呈现 GPU 速度与每秒处理的标记数以及功耗之间关系的图表，获得了众多用户的热烈讨论，评论数众多。

讨论的焦点主要集中在 GPU 速度提升后，功耗显著上升但每秒处理标记数出现平台期的现象及原因。有人认为可能是在达到一定频率后触及了内存带宽的限制，尤其是在 650+ MHz 及 1250 MHz 之后，还好奇对内存进行超频和降频的效果。也有人提出，如果核心没有进行有用的工作，就不会消耗功率，然而测试中频率提高、功耗增加但每秒处理标记数不变。还有用户表示对功率使用的逻辑不太理解，比如为何在特定频率下功耗增加但性能未提升，以及如何在降压或升压时保持稳定。

例如，有用户分享道：“作为一名长期关注硬件性能的爱好者，我曾经在类似的测试中也遇到过类似的情况。在尝试调整 GPU 频率时，发现超过一定数值后，性能提升变得极为有限，但功耗却持续上升。”

对于这一现象，不同用户提出了各自的见解。有人认为可能是达到了 VRAM（PCIe）带宽的限制，导致功耗增加但每秒处理标记数不再上升，这可能是架构的特殊之处。也有人提到，限制提升频率能实现节能但不损失每秒处理标记数，目标是找到通过限制频率而非常见的功率限制来实现优化的最佳点，约在 1300 MHz 左右。还有用户建议尝试不同的后端和模型进行测试，以观察性能差异。

总之，这次讨论为理解 GPU 性能特性和能耗模式提供了丰富的视角和思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#