原贴链接

我刚刚在用LM studio玩,用一块8GB的GPU时我得到了60t/s。当我添加第二块相同的GPU时,它在两块GPU之间分割模型,但运行速度仅为7t/s。CPU是R5 5600G,GPU是RX6600(两块),模型是llama3.2。我还尝试了llama2 13b模型,因为它无法在一块GPU上运行,速度为7t/s。是GPU之间的连接成为瓶颈了吗?换一个CPU/主板组合能解决问题吗?还是说在模型大到一块GPU装不下之前,一直用一块GPU更好呢?

讨论总结

原帖作者分享了使用两块相同GPU运行模型时性能反而下降的情况,并询问是GPU连接问题还是硬件组合问题。评论者们提出了诸多观点,包括质疑LM studio是否默认启用第二块GPU、推荐尝试Ollama、探讨Ollama能否在RX6600上运行、提出不同软件栈和场景下使用单或双GPU的优劣等,整个讨论较为专业和理性。

主要观点

  1. 👍 质疑LM studio是否默认启用第二块GPU
    • 支持理由:原帖中使用双GPU性能下降,可能存在未默认启用的情况
    • 反对声音:无
  2. 🔥 Ollama不能在RX6600上运行
    • 正方观点:有人安装后只能使用CPU且官方支持GPU列表无RX6600
    • 反方观点:Ollama使用llama.cpp应该能运行,有类似原理软件在RX6600上无问题且有设置环境变量使其运行的链接
  3. 💡 单GPU显存不足支撑模型大小时2个GPU更好
    • 支持理由:可处理大显存需求
    • 反对声音:很多软件对单个大显存GPU利用更优
  4. 💡 在未达到计算受限之前,一块GPU性能更佳
    • 支持理由:原帖主双GPU运行速度下降的实例
    • 反对声音:无
  5. 💡 有TP时应一直使用所有显卡,没有TP时应尽量少用显卡
    • 支持理由:特定的连接方式可拆分模型同时使用所有显卡
    • 反对声音:无

金句与有趣评论

  1. “😂 Does LM studio enable the second GPU by default?”
    • 亮点:直接针对原帖中双GPU性能低的关键疑问点
  2. “🤔 Ollama uses llama.cpp so it should run on 6600”
    • 亮点:从技术原理角度反驳Ollama不能在RX6600上运行的观点
  3. “👀 One GPU is always better until you get compute bound.”
    • 亮点:简洁地总结了一种单双GPU使用的判断标准

情感分析

总体情感倾向为中性,主要分歧点在于Ollama能否在RX6600上运行以及单双GPU的使用效果。产生分歧的可能原因是不同用户的使用经验和对相关技术原理理解的差异。

趋势与预测

  • 新兴话题:对不同软件栈中多GPU支持情况的进一步探讨。
  • 潜在影响:对有GPU使用需求的用户在选择硬件和软件时提供更全面的参考。

详细内容:

标题:关于何时使用双 GPU 更优的热门讨论

在 Reddit 上,有一个备受关注的帖子,主题为“何时使用双 GPU 更好”。该帖子作者表示,在使用 LM 工作室时,单 8GB GPU 能达到 60t/s 的速度,但添加第二个相同的 GPU 后,速度反而降至 7t/s。同时还提到在尝试 llama2 13b 模型时也出现了类似情况,并提出疑问,是否是 GPU 之间的连接存在瓶颈,或者更换 CPU/MB 组合能解决问题,还是说在模型过大无法在单个 GPU 上运行之前,使用单个 GPU 总是更好。此帖获得了众多关注和讨论,评论数众多。

在讨论中,观点纷呈。有人指出,LM 工作室默认是否启用第二个 GPU 可能存在差异。还有人探讨了 Ollama 对某些 GPU 的支持情况,如有人认为 Ollama 不支持 6600,也有人分享了自己使用 6600 成功运行的经验,并提供了相关解决方案的链接[https://github.com/ollama/ollama/issues/2869#issuecomment-1990941696] 、 [https://github.com/ollama/ollama/issues/4464#issuecomment-2124552299] 。

有人认为不是所有的软件栈都相同,当单个 GPU 的 VRAM 不足以支持要运行的模型大小时,双 GPU 会更好,像 vLLM 和 Ollama 在支持多 GPU 方面就表现不错。但也有人表示,如果不太清楚自己在做什么,最好选择能容纳模型的单个最佳 GPU。还有人详细阐述了不同情况下 GPU 的工作方式,比如有些推理软件在某些 GPU 上支持并行张量拆分模式的推理,这种情况下使用多个 GPU 可能更快。但对于消费者 GPU 和相对较小的模型,可能只是因为单个 GPU 没有足够的 VRAM 来容纳模型推理,才需要在多个 GPU 之间分配推理任务,这并不会加快推理速度,只是能让模型数据在不同 GPU 的 VRAM 区域中分开存储。

总的来说,讨论中的共识是软件对多 GPU 的支持情况以及 GPU 的 VRAM 大小在决定是否使用双 GPU 时至关重要。特别有见地的观点是,对于普通用户,如果不了解相关技术细节,选择单个性能强大且能容纳模型的 GPU 可能是更稳妥的选择。但对于专业用户和特定的软件环境,双 GPU 可能会带来性能提升。

在这场讨论中,我们可以看到大家对于 GPU 使用的深入思考和不同经验,为面临类似选择的人提供了丰富的参考。