原贴链接

目标: 提高令牌速度,减少消耗,降低噪音。

配置: RTX 4070-12Gb/Ryzen 5600x/G.Skill 2 x 32GB

我采取的步骤:

  1. GPU降压: 使用MSI Afterburner根据RTX 40xx系列的降压指南编辑我的RTX 4070曲线。这减少了约25%的功耗。
  2. VRAM超频: 将GPU内存推至+2000 Mhz。对于4070来说,这是一个安全稳定的超频,令牌生成速度提高了约10-15%。
  3. RAM超频: 在BIOS中,我将G.Skill RAM推至AM4的甜点——3800 Mhz,并收紧了时序。这为我带来了约5%的性能提升,适用于无法适应VRAM的模型。
  4. CPU降压: 我启用了所有PBO功能,调整了Ryzen 5600x的曲线,但在电压上应用了-0.1V的偏移,以控制温度(负载下最高60°C)。

结果: 系统运行推理过程更快且几乎无声。

虽然这些调整可能看起来很明显,但我希望这对其他从事类似优化的人有所帮助。

讨论总结

讨论主要集中在通过降压(undervolting)和超频来优化硬件性能,特别是针对GPU和CPU的调整。主要观点包括降压可以显著降低功耗和噪音,同时提高硬件性能,但也可能增加VRM的电流,从而增加硬件损坏的风险。此外,讨论还涉及通过设置功率限制和优化风扇曲线来实现静音效果,以及在夏季使用时减少噪音和热量的方法。虽然大多数评论者支持这些优化方法,但也有一些质疑降压是否有实际好处,特别是在Linux系统中无法进行降压操作。

主要观点

  1. 👍 降压可以显著降低功耗和噪音,同时提高硬件性能。

    • 支持理由:通过降压和超频,系统可以在几乎无声的情况下运行,同时提高推理速度。
    • 反对声音:降压可能会增加VRM的电流,从而增加硬件损坏的风险。
  2. 🔥 通过设置功率限制可以替代降压,尤其是在较新的显卡上。

    • 正方观点:设置功率限制可以优化系统,减少噪音和热量。
    • 反方观点:质疑降压是否有实际好处,特别是在Linux系统中无法进行降压操作。
  3. 💡 优化风扇曲线以实现静音效果。

    • 解释:通过调整风扇曲线,可以在保持性能的同时实现完全静音的GPU运行。
  4. 👀 降频CPU可以显著减少噪音,尽管这会略微影响提示处理速度。

    • 解释:通过降频CPU,可以在不影响性能的情况下显著减少噪音。
  5. 🌡️ 在夏季使用时,降低GPU的功耗限制可以减少噪音和热量。

    • 解释:在高温环境下,通过降低功耗限制,可以在保持性能的同时减少噪音和热量。

金句与有趣评论

  1. “😂 Does your GPU also make crying noises when generating tokens by default?

    • 亮点:形象地描述了GPU在高负载下产生的噪音,引起共鸣。
  2. “🤔 I set power limits in nvidia-smi, no need to undervolt. Not sure that undervolting has any benefit over it.

    • 亮点:提出了通过设置功率限制来替代降压的观点,引发了对降压实际好处的质疑。
  3. “👀 为了完全静音的 GPU,牺牲一些推理速度是值得的。

    • 亮点:强调了在追求静音效果时,可以接受一定的性能牺牲。
  4. “🌡️ For gpu I reduce 480w power limit of 3090 ti to 320/350 and i generally maintain about 92-95% of performance. Useful in summer.

    • 亮点:分享了在夏季通过降低功耗限制来减少噪音和热量的实际经验。
  5. “🔧 Can’t undervolt in Linux anyway. Oh well.

    • 亮点:指出了在Linux系统中无法进行降压操作的限制,增加了讨论的技术深度。

情感分析

讨论的总体情感倾向是积极的,大多数评论者支持通过降压和超频来优化硬件性能,尽管存在一些对潜在风险的担忧。主要分歧点在于降压是否有实际好处,特别是在Linux系统中无法进行降压操作。这些分歧主要源于对硬件安全和性能优化的不同考量。

趋势与预测

  • 新兴话题:功率限制和风扇曲线优化可能会成为未来讨论的热点,特别是在追求静音效果和性能平衡的背景下。
  • 潜在影响:这些优化方法可能会影响硬件设计和用户选择,特别是在高性能计算和机器学习领域。

详细内容:

标题:关于降低电压以实现静音和快速推理的热门讨论

最近,Reddit 上有一个关于通过降低电压来提高推理速度、减少消耗和降低噪音的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

原帖主要介绍了作者在配置为 RTX 4070-12Gb/Ryzen 5600x/G.Skill 2 x 32GB 的系统上所采取的一系列降低电压操作,包括对 GPU、VRAM、RAM 和 CPU 的相关处理,并表示最终系统运行推理过程更快且更安静,希望能对其他人的类似优化有所帮助。

帖子引发的讨论方向主要集中在降低电压操作的利弊以及不同的优化策略。

核心问题或争议点在于降低电压是否真的有益,以及是否存在潜在的风险。

在讨论中,有人提到近来读到降低电压有弊端,称这会增加通过 VRMs 的电流,通常这是 GPU 最先出问题的地方,不确定是否愿意长期这样运行。但也有人表示,如果伴随 TDP 降低,对 VRMs 应该更容易,因为在其他条件相同的情况下,较低的电压会降低电流。还有人建议限制时钟或 TDP。

有人说自己的 3090 FE 显卡像小宝宝一样呜呜叫,有人回应这是正常的,叫线圈啸叫,通过限制 GPU 功率或降低电压会有帮助。

有人分享对于批量推理和 unsloth lora 微调,将 11400f 从 4.4ghz 降至 2.2ghz 能大幅降低噪音,对性能影响不大,但会对 Aphrodite - engine 的提示处理速度有一定影响。对于 GPU,将 3090 ti 的 480w 功率限制降至 320/350,能保持约 92 - 95%的性能,在夏天很有用。

有人提到对于新卡,应更少关注降低电压,更多关注功率限制,设置功率限制能迫使系统针对该限制进行优化,还应优化风扇曲线。

有人在 nvidia-smi 中设置功率限制,不确定降低电压相较之下有何益处,还有人说在 Linux 中无法降低电压。

总之,这场讨论展示了大家对于降低电压优化系统的不同观点和经验,也让我们看到了在追求性能和安静之间的权衡与探索。