从一个旧的以太坊挖矿设备中得到了800个RX 580,想看看能否让它们用于并行计算工作负载,而不是让它们吃灰。我知道Polaris(北极星架构)不太适合,它的FP64性能低、内存带宽有限,没有官方的ROCm支持,但所有这些显卡加起来有6.4TB的VRAM,我觉得它们肯定能做点什么。如果不行的话,也许OpenCL可以?不过不确定分布式计算在800个这样的显卡上的扩展性如何。有人试过为旧GPU破解ROCm或者在Polaris(北极星架构)集群上运行重要的计算工作负载吗?想知道它们是否能处理任何类型的AI工作负载。欢迎提供想法,希望之前做过相关尝试的人能分享经验。
讨论总结
帖子作者拥有800个从以太坊挖矿闲置下来的RX 580 GPU,想将其用于并行计算工作负载,虽然知道这些GPU存在一些性能和支持方面的问题,但因显存总量达6.4TB,觉得应该能发挥作用,不确定是否能用于AI工作负载,于是向有经验者寻求建议。评论者们从不同角度给出了回应,包括分享自己类似经历、提供技术建议、给出售卖建议等,整体讨论氛围积极且充满技术探讨性。
主要观点
- 👍 存在旧版Rocm支持旧版TensorFlow,但不支持pytorch
- 支持理由:MachineZer0有相关探索经历
- 反对声音:无
- 🔥 可以卖掉RX 580 GPU以获取资金构建专门的AI设备且更省电
- 正方观点:能获得可观收入,设备更省电
- 反方观点:无
- 💡 可尝试特定的ROCm docker镜像(https://github.com/robertrosenbusch/gfx803_rocm)
- 支持理由:评论者上周用此方法让RX 560的ROCm可以工作
- 反对声音:无
- 💡 可以利用PyTorch进行分布式AI训练
- 支持理由:无
- 反对声音:无
- 💡 存在一个关于多GPU支持的llama.cpp PR,但已搁置6个多月等待审核
- 支持理由:Good news: there’s a [llama.cpp PR](https://github.com/ggml - org/llama.cpp/pull/9328) for multi - GPU support in kompute
- 反对声音:无
金句与有趣评论
- “😂 MachineZer0:Got a bunch of RX 470s and went down same rabbit hole.”
- 亮点:以自身相似经历引起共鸣
- “🤔 也许就卖掉它们吧?即使每张卡30美元,那对于一个专用的AI设备来说就是2.4万美元,而且相比800个Rx 580会更省电。”
- 亮点:提出了一种不同的利用GPU的方式
- “👀 800? Could you send me one? /s”
- 亮点:以一种半开玩笑的方式对大量GPU表示惊讶并索要
- “🤔 我一年前让旧的pytorch和破解的rocm运行起来了,但现在那些都超级过时了。”
- 亮点:反映技术更新快
- “👀 Good news: there’s a [llama.cpp PR](https://github.com/ggml - org/llama.cpp/pull/9328) for multi - GPU support in kompute, a cross - vendor Vulkan compute framework for GPGPU.”
- 亮点:提供了一个可能有用的技术资源
情感分析
[总体情感倾向积极,主要分歧点在于是否值得对RX 580进行利用改造,可能的原因是对硬件性能、改造难度和收益有不同的预期]
趋势与预测
- 新兴话题:[Vulkan在旧硬件运行方面的应用以及相关PR的审核结果]
- 潜在影响:[如果成功利用这些RX 580进行AI相关工作负载,可能会影响到旧硬件在新计算场景下的价值评估]
详细内容:
标题:旧款 RX 580 GPU 再利用的探索与热议
在 Reddit 上,有一则备受关注的帖子,题为“Repurposing Old RX 580 GPUs – Need Advice”,获得了众多点赞和大量评论。帖子的主人拥有 800 张来自旧以太坊挖矿设置的 RX 580 显卡,想知道能否将它们用于并行计算工作负载,而不是闲置。尽管知道 Polaris 在这方面存在低 FP64 性能、内存带宽限制且无官方 ROCm 支持等问题,但鉴于总计 6.4 TB 的 VRAM,觉得它们应该能有所作为。如果此路不通,或许 OpenCL 可行?但不确定在 800 张显卡上分布式计算的扩展性如何,也想知道是否有人为旧款 GPU 破解 ROCm 或在 Polaris 显卡群上运行过重要的计算工作负载,能否处理任何类型的 AI 工作负载。
讨论的焦点与观点多样。有人分享自己有一批 RX 470 显卡,曾尝试类似操作,有较旧的 Rocm 支持旧版 TensorFlow,但该版本的 rocm 不支持 pytorch,成功让 Vulkan 在 BC-250 上用于推理 llama.cpp。还有人建议直接出售这些显卡,即使每张 30 美元,也能获得 24000 美元来购置更节能的专用 AI 设备。有人表示自己一年前让旧 pytorch 和破解的 rocm 运行起来,但相关内容已过时。有人指出 Vulkan 与 llama.cpp 在自己的 RX580 上运行良好。有人提到有关于 llama.cpp 多 GPU 支持的 PR,但已搁置 6 个月以上等待审查。也有人认为手写的 Vulkan 后端对于 llama.cpp 的多 GPU 支持已达一年,无需使用 Kompute 后端,还提到可以使用 RPC 实现多 GPU。有人尝试了 ROCm docker 镜像并获得成功,认为对于超过 20 亿参数的模型,在 ollama 中速度较慢,可尝试 VLLM 中的张量并行。有人认为可以进行分布式 AI 训练,也可以出售,还提供了相关链接。有人尝试后放弃,并期待帖主成功后分享经验。
这场讨论的共识在于大家都在积极探讨这些旧显卡的潜在用途和可能性。特别有见地的观点如对于多 GPU 支持的不同技术方案的分析,丰富了讨论内容。
总体而言,关于这些旧 RX 580 显卡的再利用,大家各抒己见,充满了探索和尝试的热情。但最终能否找到切实可行且高效的利用方式,还有待进一步的实践和验证。
感谢您的耐心阅读!来选个表情,或者留个评论吧!