原贴链接

嗨!我想知道在GPU内存中完全运行32B模型且速度较快(理想情况是大于20t/s)的绝对最便宜的方法是什么。看起来3090只能将Q4放入其显存中,据我了解这似乎比Q6差。但是要在不花太多钱的情况下获得大于24GB的显存,就需要使用多个显卡。一对3060尽管显存带宽有限,会得到好结果吗?两个3090会非常昂贵(约1200欧元二手价),而且即使在二手市场似乎也没有任何价格合适的32GB显存的显卡……

讨论总结

原帖想知道运行32B模型最便宜且能完全装入GPU内存并且速度较好(理想速度大于20t/s)的硬件方式。评论中大家积极分享自己的经验和见解,包括推荐各种显卡(如3090、3060、AMD Instinct MI60、Tesla P40等),分享不同显卡的运行参数、量化方式、显存大小、速度情况、价格波动等,还涉及到不同硬件组合(如显卡与CPU搭配)、软件(如Llama.cpp)相关的讨论,整体氛围专注于技术交流。

主要观点

  1. 👍 可以用3090运行特定的32B模型并给出运行的相关参数。
    • 支持理由:评论者给出了如在32K上下文、Q6缓存等条件下的运行情况,并分享了设置参数,如块大小等。
    • 反对声音:无
  2. 🔥 推荐Tesla P40用于运行相关模型。
    • 正方观点:价格低(有人90美元购得),拥有24GB的vRAM,能以6 - 7 t/s的速度运行72b模型,支持多种功能且易于设置。
    • 反方观点:价格有波动,不同地区价格差异大,有人认为在某些情况下性价比不如其他显卡。
  3. 💡 AMD设备运行无难度。
    • 解释:评论者分享了AMD设备运行相关模型的经验,还提供了操作建议。
  4. 🤔 可使用exllamav2在单个3090上运行Q5。
    • 解释:这为想要在3090上运行相关模型提供了一种量化方式的参考。
  5. 😎 2x 3060能达到一定的运行速度且完全载入显存。
    • 解释:评论者分享了自己使用2x 3060运行Qwen 2.5 32b的速度情况,为考虑这种硬件组合的人提供参考。

金句与有趣评论

  1. “😂 我正在使用3090运行5bpw 32B,exl2无卸载,32K上下文,Q6缓存。”
    • 亮点:直接给出了3090运行32B模型的具体运行状态,有很强的参考价值。
  2. “🤔 你只需要使用支持闪存注意力和缓存量化的后端。Llama.cpp可以,但奇怪的是人们似乎没有开启也不使用像IQ4_NL这样的“新”量化。”
    • 亮点:指出了在运行模型时人们可能忽略的后端设置和量化方式。
  3. “👀 MachineZer0:I was never able to get two MI25 working on llama.cpp, only 1.”
    • 亮点:分享了自己在硬件使用过程中的实际遇到的问题,让其他人能避免。
  4. “😉 kiselsa:Tesla P40. I got mine for 90$. Insane price for 24gb vRAM. Runs 72b models at 6 - 7 t/s. Supports gguf, fa, context cache. Super easy to setup, supported by latest drivers.”
    • 亮点:全面介绍了Tesla P40的价格、性能、支持功能等优势。
  5. “💥 Rockends:Using 2x 3060’s (12GB versions) ollama, openwebui I get 13 - 14t/s on Qwen 2.5 32b. Fully loads into vram.”
    • 亮点:详细给出了2x 3060运行特定模型的速度和显存使用情况。

情感分析

总体情感倾向是积极的,大家都在积极分享自己的知识和经验来解决原帖的问题。主要分歧点在于不同硬件设备的选择和评价,例如对于某些显卡(如Tesla P40、Intel Arc A770等)的性价比、性能方面存在不同看法。可能的原因是大家的使用场景、预算以及对硬件性能的需求不同。

趋势与预测

  • 新兴话题:英特尔Battlemage B580的性能以及是否能成为性价比高的推理设备,可能会引发后续讨论。
  • 潜在影响:如果有更多人分享和尝试新的硬件设备或者新的运行方式(如推测解码),可能会影响到相关模型运行的硬件市场价格和用户的硬件选择策略。

详细内容:

《探索运行 32B 模型的最经济硬件方案:Reddit 热门讨论》

在 Reddit 上,一则关于“Cheapest hardware go run 32B models”(运行 32B 模型的最经济硬件)的帖子引发了热烈讨论。该帖子旨在寻找能在 GPU 内存中完整运行 32B 模型且速度理想(> 20 t/s)的最经济硬件方案。此帖获得了众多关注,评论众多,大家纷纷分享了自己的见解和经验。

讨论焦点主要集中在各种硬件设备的性能表现和性价比上。有人表示在 3090 上运行 5bpw 32B ,要使用特定后端并开启某些设置。还有人提到运行 Qwen 2.5 时,不同量化配置的效果和质量差异明显。

有人指出 AMD 的 Instinct MI60 价格波动大,且使用 ROCm 存在一些问题。但也有人表示在特定环境下,其表现尚可。例如,[tu9jn] 分享说,“Prompt processing 是短板,但 token generation 还行,12 t/s 用 70b q6,9t/s 用 123b q4k。”

关于 Tesla P40,有人以低价购入并取得不错效果,而有人所在地区价格较高。

还有人认为 7900XT 配合特定设置可以运行相关模型,但也有人表示存在困难。

对于 Intel Arc A770 等设备,大家看法不一,有人认为是经济实惠的解决方案,有人则认为存在不足。

在这些讨论中,共识在于寻找性价比高的硬件方案以满足运行需求,但对于具体设备的选择存在争议。

特别有见地的观点如[AdamDhahabi]提到的双 4060 Ti 配合推测解码或许可行,以及[FullstackSensei]提到的等待新品发布后的优惠时机。

总之,这场讨论展示了大家在探索运行 32B 模型的经济硬件方案上的多样尝试和深入思考。