原贴链接

无有效内容可翻译

讨论总结

原帖讲述多GPU设备在使用3块或更多显卡时,Nvidia - SMI显示ERR!的问题。评论者们从多个方面进行讨论,包括可能是旧驱动、硬件故障(如主板、转接卡、PCI - e插槽等)、电源问题等原因造成的,同时给出了如更新驱动、更换硬件、检查BIOS设置等多种排查建议和解决方案,整体氛围比较积极地在解决问题。

主要观点

  1. 👍 问题可能是旧驱动导致,应先更新驱动。
    • 支持理由:原帖中提到的错误可能是由于安装了旧的驱动程序。
    • 反对声音:无。
  2. 🔥 多GPU设备显示ERR!可能是PCIE错误导致。
    • 正方观点:如果有PCIE错误通常就会发生这种情况。
    • 反方观点:无。
  3. 💡 可能是NVME驱动器阻塞PCI - e导致多GPU显示错误。
    • 解释:驱动器可能对PCI - e产生阻塞从而引发GPU显示错误。
  4. 💡 认为在BIOS中启用“Above 4G Decoding”可能解决多显卡显示ERR!的问题。
    • 解释:评论者表示自己在Threadripper构建添加更多显卡时这个方法有效。
  5. 💡 建议检查PCIE代际降级是否有助于解决问题。
    • 解释:针对设备从总线上脱落的情况提出此建议。

金句与有趣评论

  1. “😂 Thats some OLD drivers you got installed there, update them first.”
    • 亮点:直接指出可能是旧驱动导致问题,简洁明了。
  2. “🤔 Usually this happens if you have PCIE errors.”
    • 亮点:明确提出PCIE错误与显示ERR!的关联。
  3. “👀 If jumpers aren’t set correctly, you lose PCIe slot 6 I believe.”
    • 亮点:提到跳线设置不正确对PCIe插槽的影响这一可能原因。
  4. “😎 I have servers with 1, 2, 4, 6, 12 GPUs in them. Never an error unless something is wrong with the GPU.”
    • 亮点:通过自身正常情况对比,暗示原帖中的GPU可能存在问题。
  5. “🤓 For 3+ GPU I would reccomend server platform, suited for EPYC processors.”
    • 亮点:针对3个以上GPU给出特定的服务器平台推荐。

情感分析

总体情感倾向为积极解决问题。主要分歧点在于具体的故障原因,可能是因为硬件设备复杂多样,存在多种可能导致问题的因素。例如对于显示错误是由于驱动、硬件(如转接卡、主板等)还是电源等方面存在不同观点。

趋势与预测

  • 新兴话题:可能会继续深入探讨如何从硬件和软件设置方面更好地优化多GPU设备的运行。
  • 潜在影响:对于有类似多GPU设备故障的用户有很大的帮助,可能促使更多人关注多GPU设备的硬件兼容性和BIOS设置等方面的问题。

详细内容:

标题:多 GPU 设备出现 Nvidia-SMI 报错引发的热门讨论

在 Reddit 上,一则关于多 GPU rig 显示 ERR! 的帖子引起了广泛关注。该帖子在展示相关图片时出现了链接错误,但主要内容是当安装 3 张或更多显卡时,Nvidia-SMI 出现报错。此贴获得了众多的评论和点赞。

讨论的焦点主要集中在可能导致报错的多种原因及解决方案。有人指出可能是驱动程序过旧,需要更新;有人分享了自己对 RTX 3090 尝试多个版本驱动的经历。还有人认为可能是电源供应单元(PSU)的 PCIe 电缆问题,或者是 NVME 驱动器阻塞了 PCI - e,也有人提到要检查卡的 BIOS(固件)版本。

有人说自己在多 GPU 服务器方面有丰富经验,从未遇到错误,除非 GPU 本身有问题。也有人分享在使用便宜的 riser 时遇到了报错,而更换 riser 品牌后问题解决。还有用户提到要在 BIOS 中启用“Above 4G Decoding”,以及检查是否降级 PCIe 版本有帮助。

有用户分享道:“我有 ASRock ROMED8 - 2T/BCM,配备双 3090 和一个 2080Ti。我没有遇到这个问题,但我也有较新的驱动程序。目前正在运行 Proxmox,通过 LXC 运行 Ubuntu Server 24.04 并传递设备。”

文章探讨的核心问题是如何准确找出导致多 GPU rig 出现 Nvidia-SMI 报错的原因,并找到有效的解决办法。

在这场讨论中,大家各抒己见,有人认为是硬件问题,有人觉得是软件设置不当。但也有一些共识,比如需要仔细检查 BIOS 设置、驱动程序等常见因素。一些独特的观点如 NVME 驱动器可能的影响,丰富了讨论的内容。但目前仍没有一个确定的、能普遍解决该问题的方案。