原贴链接

大家好。两个月前我发布了2张AMD MI60卡的推理速度(链接)。llama.cpp对于70B来说不够快(大约达到9 t/s)。现在,多亏了lamikr的出色工作(github),我能够在我的系统中构建triton和vllm。我让Llama3.3 70B达到了大约20 t/s。我通过做出lamikr所做的更改来分叉了[triton](https://github.com/Said - Akbar/triton - gcn5)和[vllm](https://github.com/Said - Akbar/vllm - rocm)仓库。我添加了关于如何在Ubuntu 22.04上安装它们的说明。简而言之,你需要ROCm 6.2.2和最新的pytorch 2.6.0来达到这样的速度。而且,vllm在AMD GPU上支持GGUF、GPTQ、FP16!

讨论总结

原帖作者分享了2x AMD MI60卡在特定条件下的推理速度成果。评论者们的讨论主要围绕AMD显卡展开,包括对AMD 32GB卡工作成果的赞赏,对其平衡英伟达主导地位的认可,还有关于AMD显卡在不同场景下(如运行vLLM带Flash Attention功能等)的技术探讨、技术故障的反馈,以及在硬件购买方面的交流,如比较AMD MI60和3090的优劣,整体氛围积极且富有技术深度。

主要观点

  1. 👍 对AMD 32GB卡表示赞赏
    • 支持理由:这是很重要的工作,有助于平衡英伟达主导地位
    • 反对声音:无
  2. 🤔 AMD MI60相关工作对平衡英伟达主导地位有重要意义
    • 正方观点:有助于改变英伟达主导局面
    • 反方观点:无
  3. 💡 需要更多低价且显存为32GB的显卡
    • 理由:满足更多用户需求
  4. 👀 对原帖作者在编译不支持配置方面知识的认可
    • 解释:原帖作者看起来在这方面比较有知识储备
    • 反对声音:无
  5. 🤔 询问在7900xtx上运行vLLM带Flash Attention功能的方法
    • 解释:因为不确定是否可行且希望实现该功能

金句与有趣评论

  1. “👍 32gb card. Very nice, 👍!”
    • 亮点:简洁地表达对32GB卡的赞赏态度
  2. “🤔 Triton/vLLM forks for everyone! Sounds exactly like what P100 owners have to deal with, but at least with MI60 you get 32GB 🤔”
    • 亮点:类比Triton/vLLM分叉情况,强调MI60的32GB显存优势
  3. “😎 This is some of the most important work out there to balance out the NVIDIA domination a bit.”
    • 亮点:指出AMD相关工作对平衡英伟达主导地位的重要性
  4. “🤔 I was initially hopeless about their software stack. But not anymore.”
    • 亮点:表达对MI60软件栈态度的转变
  5. “💡 I’ll start with that 3090 setup for now :)”
    • 亮点:体现出在硬件选择上的最终决策

情感分析

总体情感倾向为积极正面。主要分歧点较少,其中在硬件选择(AMD MI60和3090)上存在不同观点,但也只是基于各自需求和情况的客观讨论。可能的原因是原帖成果带来积极影响,以及大家都在积极探讨AMD显卡相关技术和应用场景。

趋势与预测

  • 新兴话题:可能会进一步探讨AMD显卡在更多模型或软件中的应用及优化。
  • 潜在影响:如果AMD显卡在类似应用中的性能不断提升且性价比凸显,可能会影响市场格局,促使更多用户选择AMD显卡,也可能促使相关软件对AMD显卡的支持更好。

详细内容:

标题:AMD MI60 与 vLLM 结合实现高效推理速度

在 Reddit 上,一则关于“2x AMD MI60 working with vLLM! Llama3.3 70B reaches 20 tokens/s”的帖子引发了众多关注。该帖子获得了大量点赞和众多评论。

原帖主要内容为作者分享了两个月前关于 2x AMD MI60 卡推理速度的情况,称当时 llama.cpp 对 70B 模型的处理速度不够快,而现在通过 lamikr 的出色工作,能够在自己的系统中构建 triton 和 vllm,使 Llama3.3 70B 达到约 20 t/s 的速度。作者还提供了相关的代码库链接和安装指导。

帖子引发的主要讨论方向包括对 AMD 显卡性能的探讨、在不同配置下的运行情况以及获取相关硬件的建议等。文章将要探讨的核心问题是 AMD 显卡在与 vLLM 结合使用中的性能表现和潜在问题。

讨论焦点与观点分析: 有人称赞这一成果非常不错,认为这是平衡 NVIDIA 主导地位的重要工作。有用户提出需要价格在 500 美元以下、拥有 32GB 显存的显卡。有人询问如何在 7900xtx 上运行 vLLM 并使用 flash attention,有人给出了相关文档的链接并提供了可能的解决方法。还有人表示 Triton/vLLM 的情况类似于 P100 所有者所面临的,同时分享了自己使用 AMD 显卡的经历。有人反映在尝试启用某些功能或使用并行处理时遇到错误,其他人给出了相应的解决建议。有人对这一成果表示看好并询问相关信息,包括模型量化、寻找二手 MI60 的技巧等。

比如,有用户分享道:“我最初对这些显卡的软件栈感到绝望,但现在不再这样了。我能够使用 vllm 和 triton 来挖掘这些 GPU 的更高潜力。”

讨论中的共识在于大家都对 AMD 显卡与 vLLM 结合的成果表现出了兴趣,同时也希望能够有更完善的支持和更便捷的使用方式。特别有见地的观点如有人认为如果不想处理诸多调试和软件支持问题,选择 3090 会更合适;而如果只是想用 llama.cpp 或 vllm,AMD MI60 也是不错的选择,丰富了对于不同需求下硬件选择的讨论。