原贴链接

刚在Ubuntu 24.04系统的锐龙AM5主板上安装了2个7900 XTX。以下是一些测试结果。首先尝试的模型是qwen2.5:72b,它96%在GPU运行,4%在CPU运行,有瓶颈但可用于测试。现在运行qwen2.5 - coder:32b - instruct - q8_0,它完全在显存(VRAM)中运行。两块GPU的显存使用率约为70%。当使用Ollama并设置环境变量“OLLAMA_NUM_PARALLEL = 3”时,内存使用量略有增加。同时运行多个提示时,系统总功耗约为550W。主板支持到CPU的2个8x PCIe 4.0插槽。我有一个1000W的电源,目前看来能承受负载。是否有软件能同时使用这两块显卡以提高推理速度?我觉得现在是每个GPU逐个被使用。以下是一些Ollama的基准测试:qwen2.5 - coder:32b - instruct - q8_0大小为39GB(3个并行),提示:给我写一个与Jitsi集成的Drupal10自定义模块;功耗:GPU总共约400W;一个GPU图形管道使用率为90%(83摄氏度),另一个为50%(60摄氏度);总时长:2分13.671637912秒;加载时长:15.677831毫秒;提示评估计数:1602个token;提示评估时长:2.612秒;提示评估速率:613.32个token/秒;评估计数:1841个token;评估时长:2分11.005秒;评估速率:14.05个token/秒。哪种软件作为端点提供商会最适合多GPU?我猜Ollama不是服务器的最佳选择,或者是吗?

讨论总结

原帖作者在Ubuntu 24.04系统下的ryzen am5主板上安装了双RX 7900 XTX显卡,阐述了显卡在不同模型下的运行情况,包括显存占用、功率使用等,并寻求能同时使用两块显卡提升推理速度的软件。评论者们纷纷给出建议,如推荐llama.cpp服务器及其相关操作、查看vLLM ROCm文档等,还有人对原帖中的硬件相关情况如电源功率、主板型号等进行提问或讨论。整体氛围是积极探讨技术问题,互相交流经验。

主要观点

  1. 👍 建议原帖作者尝试使用草稿模型和llama.cpp服务器提高GPU使用效率
    • 支持理由:部分评论者自己使用有较好效果,可以提高GPU使用效率。
    • 反对声音:无。
  2. 🔥 推荐查看vLLM ROCm文档,认为vLLM是原帖作者显卡上最快的引擎
    • 正方观点:可能有相关经验或者了解文档中的引擎性能优势。
    • 反方观点:无。
  3. 💡 推荐llama.cpp服务器解决原帖需求,指出ollama不支持行拆分,而llama.cpp可使速度翻倍
    • 支持理由:评论者自身经验表明llama.cpp在速度提升方面有优势。
    • 反对声音:无。
  4. 🤔 认为1000W电源带两块7900XTX显卡存在危险
    • 支持理由:从电源功率和显卡功耗考虑,1000W可能不足。
    • 反对声音:有人认为更可能是电源因欠压关机而非火灾隐患。
  5. 😎 切换到Q6_K或Q4_K_M量化可提升速度
    • 支持理由:有相关测试或者帖子表明量化可提升速度。
    • 反对声音:无。

金句与有趣评论

  1. “😂 Try using a draft model and llama.cpp server directly.”
    • 亮点:直接给出了原帖作者可能解决问题的方法。
  2. “🤔 Check out the [vLLM ROCm docs](https://docs.vllm.ai/en/v0.6.2/getting_started/amd - installation.html) this will definitely be the fastest engine on your cards.”
    • 亮点:简洁地提供了可能的解决方案。
  3. “👀 Try llama.cpp server, ollama doesn’t support row split, and that doubles my speed with llama.cpp”
    • 亮点:对比两种软件,突出llama.cpp优势。
  4. “😎 Try using llama.cpp instead, compiled with make GGML_HIP=1.”
    • 亮点:给出了llama.cpp的编译方式。
  5. “🤯 I’m quite surprised you’re only getting 14 tokens per second with two discrete GPUs.”
    • 亮点:对原帖中的运行结果表示惊讶,引发后续关于性能差异的讨论。

情感分析

总体情感倾向是积极的,大家都在积极为原帖作者提供建议和解决方案。主要分歧点在于1000W电源是否足以带动两块7900XTX显卡,一方认为存在火灾隐患,另一方则认为更可能是电源欠压关机。产生分歧的原因是对硬件功耗和电源工作原理等方面的理解不同。

趋势与预测

  • 新兴话题:可能会有更多关于llama.cpp不同量化技术以及参数设置对双RX 7900 XTX显卡性能提升的讨论。
  • 潜在影响:如果找到更优的软件和设置提升双RX 7900 XTX显卡的推理速度,可能会影响到相关用户对这种硬件组合的使用方式,以及对不同软件在多GPU情况下的评价。

详细内容:

标题:探索双 RX 7900 XTX 在 Ubuntu 24.04 中的性能表现与软件优化

在 Reddit 上,一则关于在 Ubuntu 24.04 系统中安装双 RX 7900 XTX 的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。

原帖作者分享了自己的安装和测试结果,包括不同模型在 GPU 和 CPU 上的资源分配情况、VRAM 的使用比例、系统总功率消耗等。作者还提出了核心问题:是否存在能同时利用两张显卡来提高推理速度的软件。

讨论焦点与观点分析:

有人建议尝试使用草稿模型和 llama.cpp 服务器直接连接,称自己用 3090 和 P40 协同工作时能达到每秒 83 个令牌。还有人提到了 vLLM ROCm 文档,认为这将是在这些显卡上运行最快的引擎。

有人分享自己尝试各种方法但未通过 Llama.cpp 的推测解码获得速度提升的经历,而有人则表示使用 Ubuntu 24.04 时成功了,并猜测其在 Mac 上的金属实现也是合理的。

有用户指出,使用 llama.cpp 服务器时,Ollama 不支持行拆分,而这能使速度翻倍。还有人建议添加一个草稿模型来加速,并提供了相关命令。

对于电源供应问题,有人认为 1000W 电源不够,存在火灾隐患,但也有人认为最可能的结果只是电源因欠压而关闭,且一次只有一张 7900xtx 运行。还有人建议对 GPU 进行降压和降频来降低功耗。

有人分享自己的 Taichi 7900xtx 有静音 BIOS 开关,最大功率限制在约 250 瓦。

有趣的是,有人想知道能否将旧的 6700 XT 与 7900 XTX 一起使用,还有人探讨是否有软件能让两张显卡同时运行,以及并行请求时的处理情况。

讨论中的共识在于大家都在积极探索如何优化双 RX 7900 XTX 的性能。特别有见地的观点是关于不同模型和设置对性能的影响,以及各种优化方法的分享,丰富了整个讨论。

综上所述,关于双 RX 7900 XTX 在 Ubuntu 24.04 中的性能优化和软件适配,Reddit 上的讨论提供了丰富的思路和经验,但仍有待更多的实践和探索。