原贴链接

我用单张3090在32B模型上能达到约30T/s的速度,在70B模型上约为1T/s。我正考虑升级到双3090,但不知道速度提升是否对得起成本和精力。如果您在双3090上运行过32B或70B模型,您看到的速度是多少?编辑:我正在使用llama.cpp或者Ollama,主要是Q4,并且我也对不升级到双3090来提高速度的选项感兴趣。

讨论总结

原帖作者分享了自己使用单3090在32B和70B模型上的推理速度,并询问使用双3090时的速度,想知道速度提升是否值得成本和精力。评论者们纷纷给出自己在不同情况下(如不同量化方式、硬件设置、运行环境等)的速度数据,包括在32B/70B模型下双3090的速度,也有部分人分享了其他硬件(如3060、2080ti等)的运行速度情况,还涉及到一些关于模型运行、技术计算、硬件选择和成本效益方面的讨论。整体氛围较为专业、理性,大家都在围绕着速度相关话题进行交流。

主要观点

  1. 👍 在70B @4bit下可得到约15 t/s速度
    • 支持理由:多位评论者提及类似速度数据。
    • 反对声音:无。
  2. 🔥 双3090运行32B模型速度约为25 - 30 T/S,运行70B模型速度约为15 - 20 T/S
    • 正方观点:评论者根据自己的经验给出数据。
    • 反方观点:无。
  3. 💡 单个3090上低量化可能满足使用需求
    • 解释:根据评论者自身使用情况,如在KoboldAI时单3090的低量化模型速度和连贯性可接受。
  4. 🤔 NVlink对推理速度无提升但对提示处理速度有作用
    • 解释:有评论者通过自己的测试得出该结论。
  5. 🌟 32B模型使用双3090除运行更大量化和/或上下文外无速度变化
    • 解释:评论者根据自己的经验和分析得出此结论。

金句与有趣评论

  1. “😂 knownboyofno: If you run 70B @4bit, you would get about 15 t/s.”
    • 亮点:这是较早给出的关于70B模型在特定量化下速度的参考数据。
  2. “🤔 32B will be 25 - 30 T/S on dual 3090’s”
    • 亮点:直接给出双3090运行32B模型的速度范围,对原帖作者有参考价值。
  3. “👀 For me it was a decent increase. If I disable SLI in windows for example I drop from 14 t/s to 9 t/s.”
    • 亮点:通过对比说明硬件设置(如SLI)对速度的影响。
  4. “😎 MBU ranges between 50 - 60%, and as a rule of thumb, your t/s speed would be bandwidth*MBU/model_size_in_GB”
    • 亮点:提供了计算t/s速度的经验法则。
  5. “💡 Depending on your use case, lower quant on a single 3090 may be fine.”
    • 亮点:从使用需求角度考虑单卡量化选择。

情感分析

总体情感倾向为中性。主要分歧点较少,大多数评论者都是在分享自己的测试数据或者经验,并没有太多相互矛盾的观点。可能的原因是这个话题比较技术化,大家更多地是基于事实进行交流,而不是表达主观的喜好或者偏见。

趋势与预测

  • 新兴话题:不同量化方式和硬件对模型运行速度的影响可能会引发后续更多的讨论,例如更多人可能会尝试不同的量化方式在不同硬件上的效果。
  • 潜在影响:对人工智能模型运行效率的研究和优化有一定的推动作用,有助于人们更好地选择硬件和量化方式来提高模型的推理速度,在人工智能技术发展和应用方面可能会产生积极影响。

详细内容:

《关于双 3090 运行 32B/70B 模型的推理速度讨论》

在 Reddit 上,一则题为“What inference speed are you getting with dual 3090s on 32B/70B models?”的帖子引起了广泛关注。该帖主表示自己使用单 3090 时,32B 模型的推理速度约为 30 T/s,70B 模型约为 1 T/s,正在考虑升级到双 3090,但不确定速度提升是否能值回成本和付出。此帖获得了众多回复和讨论。

讨论的焦点集中在不同配置下的推理速度差异以及提升速度的方法。有人说,如果运行 70B 模型@4bit,能达到约 15 t/s。还有人分享自己更精确的速度,如约 14.57 t/s。有人提到 NVLink 桥对速度的影响,称其能使两张卡的内存分布更均匀,从而提升速度。也有人指出,推理速度取决于推理软件,在 oobabooga 中可以手动分配每张卡的任务。有人认为 llama 70b 的 r1 蒸馏效果很好,有人则认为其存在一些不足。还有人给出了不同模型在不同配置下的具体速度数据,比如使用 2x3090 运行时的速度,以及不同量化方式和引擎下的速度。

例如,有用户分享道:“在我的 2x3090 系统上,70b 模型在 Q4 下速度在 14 左右。这是在 Windows 系统上,我准备切换到 proxmox,因为我的 4090 机器在该系统中的表现比在 Windows 中好得多。”

大家对于一些问题存在共识,比如不同配置和软件对速度的影响较大。特别有见地的观点是,有人详细分析了速度的计算方式和影响因素。

然而,对于双 3090 是否值得升级以及如何进一步提升速度等问题仍存在争议。这也促使更多人深入思考和探索如何优化模型的推理速度。