原贴链接

它们的INT8 TOPS声明值低于RTX 3090,但有更多的显存。

RTX 3090: 284 INT8 TOPS https://hothardware.com/reviews/nvidia-geforce-rtx-3090-bfgpu-review

MI100: 92 INT8 TOPS https://www.amd.com/en/products/accelerators/instinct/mi100.html

RTX 8000: 66 INT8 TOPS https://www.leadtek.com/eng/products/workstation_graphics(2)/NVIDIA_Quadro_RTX8000(20830)/detail

稀疏TOPS对于NVidia和AMD显卡可以是2倍。

讨论总结

本次讨论主要围绕RTX 8000和MI100显卡在大型语言模型(LLM)推理中的表现展开。参与者们分享了各自的使用经验,讨论了这些显卡的性能、性价比、功耗和适用性。主要观点包括RTX 8000在VRAM方面的优势,但INT8 TOPS性能不如RTX 3090;MI100在模型超出VRAM限制时表现更优,但性价比和实际应用中的表现受到质疑。讨论中还涉及了Flash Attention技术、ROCm支持、功耗优化和价格比较等话题。总体而言,讨论氛围较为技术性,参与者们提供了丰富的实际应用经验和见解。

主要观点

  1. 👍 RTX 8000 提供足够的 VRAM 空间来运行中等大小的模型
    • 支持理由:48GB VRAM 提供了足够的空间来运行中等大小的模型,功耗较低,不需要额外冷却设备。
    • 反对声音:INT8 TOPS 性能不如 RTX 3090,缺乏 Flash Attention 支持。
  2. 🔥 MI100 在模型超出 VRAM 限制时表现更优
    • 正方观点:当模型超出 RTX 3090 的 VRAM 限制时,MI100 表现更优。
    • 反方观点:性价比不高,实际应用中表现不佳,配置复杂。
  3. 💡 RTX 3090 是性价比最高的选择
    • 支持理由:新近性和广泛支持,具备 Flash Attention 功能,几乎在全球范围内得到支持。
  4. 💡 Flash Attention 技术的重要性
    • 解释:Flash Attention 技术在实际应用中对性能提升有显著影响,缺乏该技术会影响显卡的实际表现。
  5. 💡 功耗和价格的影响
    • 解释:功耗和价格是选择显卡时需要考虑的重要因素,RTX 8000 和 MI100 在功耗和价格方面各有优劣。

金句与有趣评论

  1. “😂 RTX 3090 是性价比最高的选择,因其新近性和广泛支持。”
    • 亮点:强调了RTX 3090在性价比方面的优势,反映了市场对新技术的偏好。
  2. “🤔 I miss the 2 gigs, but I miss flash attention more.”
    • 亮点:表达了作者对Flash Attention技术的重视,突出了技术细节对用户体验的影响。
  3. “👀 RTX 8000 拥有更多 VRAM,但缺乏 Flash Attention 支持,且支持度有限。”
    • 亮点:指出了RTX 8000在VRAM方面的优势,同时也揭示了其在技术支持上的不足。

情感分析

讨论的总体情感倾向较为中立,参与者们主要围绕技术细节和实际应用经验进行讨论。主要分歧点在于不同显卡的性价比和实际表现,部分参与者对RTX 8000和MI100的性能和价格表示不满,而另一些则认为这些显卡在特定场景下有其优势。可能的原因包括不同用户的需求差异、技术细节的理解程度以及市场价格波动。

趋势与预测

  • 新兴话题:Flash Attention 技术在显卡选择中的重要性可能会引发更多讨论。
  • 潜在影响:随着大语言模型(LLM)推理需求的增加,显卡性能、功耗和价格将成为用户选择的重要考量因素,可能会推动显卡厂商在技术研发和市场策略上的调整。

详细内容:

标题:关于 RTX 8000、MI100 与 RTX 3090 用于 LLM 推理的热门讨论

在 Reddit 上,有一篇关于“Anyone using RTX 8000 (48GB) or MI100 (32GB) cards for LLM inference?”的帖子引起了广泛关注,获得了众多点赞和大量评论。该帖主要对比了 RTX 8000、MI100 与 RTX 3090 这几款显卡在 LLM 推理方面的性能表现,并提供了相关链接以详细说明各显卡的参数。

这一话题引发了激烈的讨论,核心问题在于不同显卡在性能、价格、功耗、兼容性等方面的优劣权衡。

有人表示自己拥有 RTX 8000 Quadro(48GB),称其能提供运行中型模型所需的空间,但速度不如 RTX 3090。好处是它更轻薄、功耗更低,只需单独的轴流风扇即可散热。若愿意花约 2500 美元购买 48GB VRAM 的单卡,也未尝不可。

有用户拥有一对 MI100 显卡在一台服务器中,另一台服务器中有一对 RTX 3090 显卡。当模型能适配 RTX 3090 的 VRAM 时,两者性能接近,但当超出 3090 的 VRAM 限制时,MI100 更具优势。而且 MI100 一年前性能较慢,近期有很大提升,也更易于安装在服务器中。

有人认为通常使用的是 BF16 或 FP16 计算而非 INT8。但也有人指出对于量化模型,会用到 INT8 或 INT4。

还有人提出权重以较低位存储,但计算在 16 位进行,所以 TOPS 不重要,内存带宽和 FLOPs 才重要。并且认为 RTX 3090 性价比最高,因为它足够新能获得闪存关注且全球支持度高;RTX 8000 虽 VRAM 不错但缺乏闪存关注且支持有限;MI100 价格便宜但在很多方面表现不佳,容易被英伟达的多数显卡超越。

也有人表示自己有 2080ti 22g 显卡,认为 RTX 8000 处境尴尬,虽然技术上 2 个 RTX 3090 更快,但 RTX 8000 功耗更低且适用场景更多,只是价格和上述因素使其优势不明显。

有人觉得 MI100 的性价比不高,若自己选择会用 2 个 7900XT。还有人拥有两个 RTX 8000 在戴尔服务器中运行 oobabooga 模型,认为其作为 A6000 的廉价替代方案,虽然速度较慢,但在价格、功耗等方面能接受。若有空间安装 4 个 RTX 3090,它们会更便宜且速度更快,但满载时功耗更高。

讨论中存在一些共识,比如都在权衡各显卡的不同特性以找到最适合自己需求的选择。一些独特的观点如认为不同显卡在特定场景下的优势和劣势,丰富了讨论的深度。但关于各显卡的优劣仍存在争议,不同用户根据自己的实际情况和需求持有不同看法。