原贴链接

你好,LocalLLaMA!上周我发现我的3090显卡运行温度过高,我甚至都没有意识到。这种情况已经持续了将近6个月,因为适用于Linux的Nvidia驱动程序不显示显存(VRAM)或连接点(junctions)温度,所以我无法正确监控我的GPU。顺便说一下,这些组件的节流限制是105°C,这个温度太高了,对硬件健康不利。在网上查询时,在Nvidia论坛上有一个三年前的帖子(https://forums.developer.nvidia.com/t/request-gpu-memory-junction-temperature-via-nvidia-smi-or-nvml-api/168346/1)提到这个问题,已经积累了超过350条评论和8.5万次浏览。不幸的是,没有得到很好的解决。作为回应,有人创建了

image
。这是一个读取所有温度的小型命令行程序。所以现在你知道你的显卡是否过热了!有趣的是,我的显卡确实过热了,温度在105 - 110°C左右……我的显卡显然有问题,我改天得把它拆开看看,但这样才发现问题真的很愚蠢。—如果你发现你的GPU也过热,这里有一个快速设置功率限制的教程:#获取哪个GPU ID对应哪个GPU:nvtop #列出支持的时钟频率:nvidia - smi - i “$gpu_id” - q - d SUPPORTED_CLOCKS #配置功率限制:sudo nvidia - smi - i “$gpu_id” – power - limit “$power_limit” #配置GPU时钟限制:sudo nvidia - smi - i “$gpu_id” – lock - gpu - clocks “0,$graphics_clock” – mode = 1 #配置内存时钟限制:sudo nvidia - smi - i “$gpu_id” – lock - memory - clocks “0,$mem_clock"如果要指定所有GPU,可以删除 - i “$gpu_id”。请注意,所有这些修改在重启后都会重置。—我希望这个小故事和工具能对你们中的一些人有所帮助。保持冷静!

讨论总结

原帖提到在Linux下RTX GPU可能过热而不报错的情况,由于Nvidia驱动问题无法正常监测温度,分享了自己发现3090过热及解决温度监测和功率限制的经历。评论围绕GPU过热的现象、原因、解决措施展开,涉及对英伟达在Linux系统下GPU驱动的不满,不同系统下GPU运行情况对比,也包含对原帖分享工具和经验的认可,同时存在一些争议点如Linux系统是否导致GPU过热等。

主要观点

  1. 👍 原帖分享的内容很有价值
    • 支持理由:很多评论者表示原帖分享的工具或经验对自己有用,如识别显卡过热情况等。
    • 反对声音:无。
  2. 🔥 英伟达在Linux系统下GPU驱动存在问题
    • 正方观点:认为英伟达未提供完整温度监测是疏忽甚至恶意,在Linux系统下GPU驱动不上心。
    • 反方观点:无。
  3. 💡 3090显卡存在过热相关问题
    • 解释:许多评论者分享自己3090显卡过热的情况,如功耗瞬时峰值、正常功率电源不够用等。
  4. 💥 不同操作系统对GPU运行有影响
    • 正方观点:有人认为Linux系统导致GPU过热,在Windows下运行显卡有优势。
    • 反方观点:有人指出Windows也存在同样问题,且AI在Linux上更有优势。
  5. 🤔 GPU过热有多种解决办法
    • 解释:包括功率限制、更换散热垫和GPU散热膏、调整风扇转速、将显卡置于机箱外等。

金句与有趣评论

  1. “😂 任何人在发现这个事实之前PCB就已经变得很好(棕色)了吗?: )”
    • 亮点:以幽默的方式调侃GPU过热可能带来的影响。
  2. “🤔 我以为在NV开放的Linux API /文档中如果寻找的话会有更全面的监控解决方案,并且认为显卡固件/驱动也会处理散热管理以保证安全并在合理范围内控制。”
    • 亮点:反映出原本对英伟达在散热管理方面的期待。
  3. “👀 这是一种近乎恶意的疏忽,英伟达,并且在这里被记下了。”
    • 亮点:直接表达对英伟达的不满。
  4. “😎 我喜欢我的显卡热着,在冬天它们是很好的加热器,让房间温暖又舒适。”
    • 亮点:幽默地看待显卡发热的现象。
  5. “💥 我将3090功率限制在290 - 260W,根据使用情况,风扇转速在超过62°C时提升到90%,宁愿换风扇也不想换显卡。”
    • 亮点:体现出对3090显卡功率和风扇转速的控制策略。

情感分析

总体情感倾向是对原帖分享内容较为认可,在探讨GPU过热相关话题时比较积极。主要分歧点在于Linux系统是否导致GPU过热,以及英伟达是否应该对Linux系统下GPU驱动的问题负责。可能的原因是不同用户的使用经验和对不同操作系统、硬件厂商的看法不同。

趋势与预测

  • 新兴话题:AMD与AI项目的兼容性以及与英伟达在这方面的对比可能会引发后续讨论。
  • 潜在影响:如果更多人关注到GPU在不同系统下的运行差异,可能会影响用户在选择操作系统和GPU时的决策,也可能促使英伟达改进Linux系统下的GPU驱动。

详细内容:

标题:关于 RTX GPU 在 Linux 系统下过热却未报告的热门讨论

在 Reddit 上,一则题为“AI Linux entousiasts running RTX GPUs, your cards can overheat without reporting it”的帖子引发了广泛关注。该帖子讲述了作者发现自己的 3090 显卡运行温度过高,而 Nvidia 驱动在 Linux 系统中无法暴露 VRAM 或连接点温度,导致难以有效监控显卡。此帖在 Nvidia 论坛上有一个 3 年前的相关帖子,积累了超过 350 条评论和 85000 次浏览,但问题仍未得到有效解决。有人创建了相关工具来获取 VRAM 温度,但仍存在复杂和不稳定等问题。

讨论焦点主要集中在以下几个方面: 有人认为英伟达此举可能是为了阻止矿工在 2019 年的操作,如今不提供温度数据,是不想让 24GB 显卡成为企业的 AI 价值卡,但这只是猜测。 有用户分享自己限制 3090 显卡功率的经验,比如将其限制在 200W 运行 2 年多状况良好,还有测试表明单张 RTX 3090 在 200 多瓦的功率范围内效率最佳。 一些用户提出了各种应对显卡过热的方法,如设置最低温度、使用外部风扇、更换散热垫等。

有人表示感谢作者提供的开源工具,认为英伟达在驱动中不提供全面温度监测是不负责任的。还有用户指出,AMD 显卡在温度监测方面做得更好,且英伟达在 Windows 系统中也存在类似问题。

这场讨论中的共识在于大家都认识到显卡过热问题的严重性,以及对英伟达在温度监测方面的不满。特别有见地的观点如有人认为矿工对显卡的使用反而能让其保持较好状态。

总之,这次关于 RTX GPU 在 Linux 系统下过热问题的讨论,充分反映了用户在面对这一问题时的困惑和积极探索。希望未来英伟达能够重视并改进相关驱动,为用户提供更好的使用体验。