它们的INT8 TOPS声明值低于RTX 3090，但有更多的显存。

RTX 3090: 284 INT8 TOPS https://hothardware.com/reviews/nvidia-geforce-rtx-3090-bfgpu-review

MI100: 92 INT8 TOPS https://www.amd.com/en/products/accelerators/instinct/mi100.html

RTX 8000: 66 INT8 TOPS https://www.leadtek.com/eng/products/workstation_graphics(2)/NVIDIA_Quadro_RTX8000(20830)/detail

稀疏TOPS对于NVidia和AMD显卡可以是2倍。

讨论总结

本次讨论主要围绕RTX 8000和MI100显卡在大型语言模型（LLM）推理中的表现展开。参与者们分享了各自的使用经验，讨论了这些显卡的性能、性价比、功耗和适用性。主要观点包括RTX 8000在VRAM方面的优势，但INT8 TOPS性能不如RTX 3090；MI100在模型超出VRAM限制时表现更优，但性价比和实际应用中的表现受到质疑。讨论中还涉及了Flash Attention技术、ROCm支持、功耗优化和价格比较等话题。总体而言，讨论氛围较为技术性，参与者们提供了丰富的实际应用经验和见解。

主要观点

👍 RTX 8000 提供足够的 VRAM 空间来运行中等大小的模型
- 支持理由：48GB VRAM 提供了足够的空间来运行中等大小的模型，功耗较低，不需要额外冷却设备。
- 反对声音：INT8 TOPS 性能不如 RTX 3090，缺乏 Flash Attention 支持。
🔥 MI100 在模型超出 VRAM 限制时表现更优
- 正方观点：当模型超出 RTX 3090 的 VRAM 限制时，MI100 表现更优。
- 反方观点：性价比不高，实际应用中表现不佳，配置复杂。
💡 RTX 3090 是性价比最高的选择
- 支持理由：新近性和广泛支持，具备 Flash Attention 功能，几乎在全球范围内得到支持。
💡 Flash Attention 技术的重要性
- 解释：Flash Attention 技术在实际应用中对性能提升有显著影响，缺乏该技术会影响显卡的实际表现。
💡 功耗和价格的影响
- 解释：功耗和价格是选择显卡时需要考虑的重要因素，RTX 8000 和 MI100 在功耗和价格方面各有优劣。

金句与有趣评论

“😂 RTX 3090 是性价比最高的选择，因其新近性和广泛支持。”
- 亮点：强调了RTX 3090在性价比方面的优势，反映了市场对新技术的偏好。
“🤔 I miss the 2 gigs, but I miss flash attention more.”
- 亮点：表达了作者对Flash Attention技术的重视，突出了技术细节对用户体验的影响。
“👀 RTX 8000 拥有更多 VRAM，但缺乏 Flash Attention 支持，且支持度有限。”
- 亮点：指出了RTX 8000在VRAM方面的优势，同时也揭示了其在技术支持上的不足。

情感分析

讨论的总体情感倾向较为中立，参与者们主要围绕技术细节和实际应用经验进行讨论。主要分歧点在于不同显卡的性价比和实际表现，部分参与者对RTX 8000和MI100的性能和价格表示不满，而另一些则认为这些显卡在特定场景下有其优势。可能的原因包括不同用户的需求差异、技术细节的理解程度以及市场价格波动。

趋势与预测

新兴话题：Flash Attention 技术在显卡选择中的重要性可能会引发更多讨论。
潜在影响：随着大语言模型（LLM）推理需求的增加，显卡性能、功耗和价格将成为用户选择的重要考量因素，可能会推动显卡厂商在技术研发和市场策略上的调整。

详细内容：

标题：关于 RTX 8000、MI100 与 RTX 3090 用于 LLM 推理的热门讨论

在 Reddit 上，有一篇关于“Anyone using RTX 8000 (48GB) or MI100 (32GB) cards for LLM inference?”的帖子引起了广泛关注，获得了众多点赞和大量评论。该帖主要对比了 RTX 8000、MI100 与 RTX 3090 这几款显卡在 LLM 推理方面的性能表现，并提供了相关链接以详细说明各显卡的参数。

这一话题引发了激烈的讨论，核心问题在于不同显卡在性能、价格、功耗、兼容性等方面的优劣权衡。

有人表示自己拥有 RTX 8000 Quadro（48GB），称其能提供运行中型模型所需的空间，但速度不如 RTX 3090。好处是它更轻薄、功耗更低，只需单独的轴流风扇即可散热。若愿意花约 2500 美元购买 48GB VRAM 的单卡，也未尝不可。

有用户拥有一对 MI100 显卡在一台服务器中，另一台服务器中有一对 RTX 3090 显卡。当模型能适配 RTX 3090 的 VRAM 时，两者性能接近，但当超出 3090 的 VRAM 限制时，MI100 更具优势。而且 MI100 一年前性能较慢，近期有很大提升，也更易于安装在服务器中。

有人认为通常使用的是 BF16 或 FP16 计算而非 INT8。但也有人指出对于量化模型，会用到 INT8 或 INT4。

还有人提出权重以较低位存储，但计算在 16 位进行，所以 TOPS 不重要，内存带宽和 FLOPs 才重要。并且认为 RTX 3090 性价比最高，因为它足够新能获得闪存关注且全球支持度高；RTX 8000 虽 VRAM 不错但缺乏闪存关注且支持有限；MI100 价格便宜但在很多方面表现不佳，容易被英伟达的多数显卡超越。

也有人表示自己有 2080ti 22g 显卡，认为 RTX 8000 处境尴尬，虽然技术上 2 个 RTX 3090 更快，但 RTX 8000 功耗更低且适用场景更多，只是价格和上述因素使其优势不明显。

有人觉得 MI100 的性价比不高，若自己选择会用 2 个 7900XT。还有人拥有两个 RTX 8000 在戴尔服务器中运行 oobabooga 模型，认为其作为 A6000 的廉价替代方案，虽然速度较慢，但在价格、功耗等方面能接受。若有空间安装 4 个 RTX 3090，它们会更便宜且速度更快，但满载时功耗更高。

讨论中存在一些共识，比如都在权衡各显卡的不同特性以找到最适合自己需求的选择。一些独特的观点如认为不同显卡在特定场景下的优势和劣势，丰富了讨论的深度。但关于各显卡的优劣仍存在争议，不同用户根据自己的实际情况和需求持有不同看法。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#