刚刚用这两个好物完成了我的线程撕裂者(threadripper)构建:https://llminfo.image.fangd123.cn/images/krsisrlxl91e1.jpg!/format/webp。我正在这台机器上运行Proxmox,CPU是3960x,安装了256GB内存,但由于订购内存条时不够注意,只有128GB可用。我现在遇到的问题是,我似乎无法在Proxmox中让Nvidia grid工作,这意味着暂时没有虚拟GPU。我已经着手设置一个能访问两个A5000(显卡)的LXC(Linux容器),同时允许其他LXC也能这样做(同时访问)。对于那些运行这种设置的人来说,这样做是否能满足需求,还是我应该坚持使用Nvidia grid途径?我本打算在将来将这个设置扩展到更多节点,这样随着规模扩大我就能将其添加到grid vGPU中。目前这两个(显卡)都在Debian LXC中用于我的AI相关工作,我正在整理WebUI并加载/运行一些模型,但我也打算用这台机器在网络上提供其他一些功能(包括一个游戏虚拟机)。我需要了解其他人是如何解决这个问题的,因为我现在非常缺乏经验。这是我首次涉足大语言模型/机器学习活动,而且是用eBay上淘来的部件拼凑而成的。我还没有决定NVlink对这两个(显卡)是否值得,它们都运行PCIe gen 4 x16并且似乎能够通过我设置的LXC分担工作负载。
讨论总结
原帖作者完成了一个包含两块RTX A5000显卡的Threadripper构建,在Proxmox系统下遇到Nvidia grid无法工作导致没有虚拟GPU的问题。评论者们根据自己的经验给出了不同的看法和建议,包括采用PCIe直通到VM、遵循A5000官方手册使用vGPU、使用Docker及Nvidia工具让GPU被容器访问等,还有人表示愿意通过私信帮助原帖作者。整体氛围比较积极,大家都在努力提供有用的信息。
主要观点
- 👍 采用PCIe直通到VM而非在Proxmox内安装Nvidia驱动
- 支持理由:能在单个VM里处理驱动而不搞乱整个系统,还能在不同VM里运行不同驱动
- 反对声音:无
- 🔥 A5000原生支持vGPU,不应遵循GPU解锁教程,要遵循官方手册
- 正方观点:这是正确使用A5000 vGPU的方式
- 反方观点:无
- 💡 使用Docker及Nvidia工具实现GPU对容器的访问
- 解释:每个容器都能看到整套GPU并正常访问,目前运行良好
- 💡 原帖作者可尝试PCIe直通在VM上设置Nvidia grid
- 解释:评论者根据自己类似情况给出的可能解决方案
- 💡 在3090显卡上,NVLink相比vLLM中的PCIe 4.0 x16能使张量并行标记生成速度提升约10%,而成本不到两块卡的10%
- 解释:分享NVLink在特定显卡和应用中的性能提升和成本情况
金句与有趣评论
- “😂 我不确定能否很好回答你的问题,但由于2小时无人回应且我在做类似事情,所以我分享一下。”
- 亮点:在无人回应时分享自己经验的热心态度
- “🤔 我正在做的是将PCIe直通到必要的VM并让其控制,这样能在单个VM里处理驱动而不搞乱整个系统。”
- 亮点:提供一种解决驱动安装和管理的思路
- “👀 A5000原生支持vGPU,所以不要遵循任何GPU解锁教程。你要严格遵循官方手册。”
- 亮点:明确A5000使用vGPU的正确操作
- “😎 I run a farm of these cards in proxmax DM me and I’ll help you.”
- 亮点:主动提供帮助的积极态度
- “👍 NVidia的docker环境在这方面真的很好;每个容器都能看到整套GPU,并且可以很好地访问它们。”
- 亮点:强调Nvidia Docker环境在GPU访问方面的优势
情感分析
总体情感倾向是积极的。主要分歧点较少,大家都在围绕原帖的问题分享经验或提供帮助。可能的原因是在这种技术话题的讨论中,大家更关注于解决问题,而且有相似经历的人愿意分享自己的成果来帮助他人。
趋势与预测
- 新兴话题:不同硬件设置在各种应用场景下的优化(如不同显卡在机器学习、游戏等场景下)。
- 潜在影响:可能会影响更多人对Proxmox系统下GPU设置的选择,也会为其他遇到类似硬件问题的人提供参考,推动相关硬件技术在不同领域的应用。
详细内容:
标题:新构建完成,GPU 共享难题求解
在 Reddit 上,一位网友分享了自己刚完成的 Threadripper 构建,其中包括两张 RTX A5000 显卡。然而,他在 Proxmox 上遇到了无法让 Nvidia grid 正常工作,从而导致目前没有虚拟 GPU 的问题。此帖获得了众多关注,引发了热烈讨论。
讨论焦点与观点分析: 有人表示自己正在用 Proxmox 搭建多块 3090 的设备,选择不安装 Proxmox 内的 Nvidia 驱动,而是进行 pcie 直通到必要的虚拟机,这样可以在单个虚拟机中调整驱动,还能在不同虚拟机中运行不同驱动。有人提到在 3090 上,NVLinks 能让张量并行令牌生成速度提升约 10%。
有人称在 Proxmox 中安装 Nvidia 驱动并在“客户”系统中运行效果良好,采用 PCIe 直通到 LXC 而非虚拟机,因为虚拟机可能会完全占用硬件设备。
有人分享了自己在 Proxmox 中使用 A5000 和 vGPU 的经历,指出要严格按照正规手册操作,还提供了相关链接。有人获取 vGPU 驱动时遇到困难,在他人帮助下打算重新尝试。
有人认为 PCI 直通更容易,vGPU 更适用于运行多个需要 GPU 的小型虚拟机的情况。也有人在服务器上使用 Docker 和 Nvidia 工具让 GPU 能被 Docker 容器访问。
讨论中的共识在于解决 GPU 共享问题需要根据具体需求和情况选择合适的方法。特别有见地的观点是不同方案在不同场景下的优劣分析,丰富了大家对这一问题的理解。
总之,关于如何解决在 Proxmox 上的 GPU 共享问题,大家各抒己见,提供了多种思路和经验。
感谢您的耐心阅读!来选个表情,或者留个评论吧!