原贴链接

嗨！我想知道在GPU内存中完全运行32B模型且速度较快（理想情况是大于20t/s）的绝对最便宜的方法是什么。看起来3090只能将Q4放入其显存中，据我了解这似乎比Q6差。但是要在不花太多钱的情况下获得大于24GB的显存，就需要使用多个显卡。一对3060尽管显存带宽有限，会得到好结果吗？两个3090会非常昂贵（约1200欧元二手价），而且即使在二手市场似乎也没有任何价格合适的32GB显存的显卡……

讨论总结

原帖想知道运行32B模型最便宜且能完全装入GPU内存并且速度较好（理想速度大于20t/s）的硬件方式。评论中大家积极分享自己的经验和见解，包括推荐各种显卡（如3090、3060、AMD Instinct MI60、Tesla P40等），分享不同显卡的运行参数、量化方式、显存大小、速度情况、价格波动等，还涉及到不同硬件组合（如显卡与CPU搭配）、软件（如Llama.cpp）相关的讨论，整体氛围专注于技术交流。

主要观点

👍 可以用3090运行特定的32B模型并给出运行的相关参数。
- 支持理由：评论者给出了如在32K上下文、Q6缓存等条件下的运行情况，并分享了设置参数，如块大小等。
- 反对声音：无
🔥 推荐Tesla P40用于运行相关模型。
- 正方观点：价格低（有人90美元购得），拥有24GB的vRAM，能以6 - 7 t/s的速度运行72b模型，支持多种功能且易于设置。
- 反方观点：价格有波动，不同地区价格差异大，有人认为在某些情况下性价比不如其他显卡。
💡 AMD设备运行无难度。
- 解释：评论者分享了AMD设备运行相关模型的经验，还提供了操作建议。
🤔 可使用exllamav2在单个3090上运行Q5。
- 解释：这为想要在3090上运行相关模型提供了一种量化方式的参考。
😎 2x 3060能达到一定的运行速度且完全载入显存。
- 解释：评论者分享了自己使用2x 3060运行Qwen 2.5 32b的速度情况，为考虑这种硬件组合的人提供参考。

金句与有趣评论

“😂 我正在使用3090运行5bpw 32B，exl2无卸载，32K上下文，Q6缓存。”
- 亮点：直接给出了3090运行32B模型的具体运行状态，有很强的参考价值。
“🤔 你只需要使用支持闪存注意力和缓存量化的后端。Llama.cpp可以，但奇怪的是人们似乎没有开启也不使用像IQ4_NL这样的“新”量化。”
- 亮点：指出了在运行模型时人们可能忽略的后端设置和量化方式。
“👀 MachineZer0：I was never able to get two MI25 working on llama.cpp, only 1.”
- 亮点：分享了自己在硬件使用过程中的实际遇到的问题，让其他人能避免。
“😉 kiselsa：Tesla P40. I got mine for 90$. Insane price for 24gb vRAM. Runs 72b models at 6 - 7 t/s. Supports gguf, fa, context cache. Super easy to setup, supported by latest drivers.”
- 亮点：全面介绍了Tesla P40的价格、性能、支持功能等优势。
“💥 Rockends：Using 2x 3060’s (12GB versions) ollama, openwebui I get 13 - 14t/s on Qwen 2.5 32b. Fully loads into vram.”
- 亮点：详细给出了2x 3060运行特定模型的速度和显存使用情况。

情感分析

总体情感倾向是积极的，大家都在积极分享自己的知识和经验来解决原帖的问题。主要分歧点在于不同硬件设备的选择和评价，例如对于某些显卡（如Tesla P40、Intel Arc A770等）的性价比、性能方面存在不同看法。可能的原因是大家的使用场景、预算以及对硬件性能的需求不同。

趋势与预测

新兴话题：英特尔Battlemage B580的性能以及是否能成为性价比高的推理设备，可能会引发后续讨论。
潜在影响：如果有更多人分享和尝试新的硬件设备或者新的运行方式（如推测解码），可能会影响到相关模型运行的硬件市场价格和用户的硬件选择策略。

详细内容：

《探索运行 32B 模型的最经济硬件方案：Reddit 热门讨论》

在 Reddit 上，一则关于“Cheapest hardware go run 32B models”（运行 32B 模型的最经济硬件）的帖子引发了热烈讨论。该帖子旨在寻找能在 GPU 内存中完整运行 32B 模型且速度理想（> 20 t/s）的最经济硬件方案。此帖获得了众多关注，评论众多，大家纷纷分享了自己的见解和经验。

讨论焦点主要集中在各种硬件设备的性能表现和性价比上。有人表示在 3090 上运行 5bpw 32B ，要使用特定后端并开启某些设置。还有人提到运行 Qwen 2.5 时，不同量化配置的效果和质量差异明显。

有人指出 AMD 的 Instinct MI60 价格波动大，且使用 ROCm 存在一些问题。但也有人表示在特定环境下，其表现尚可。例如，[tu9jn] 分享说，“Prompt processing 是短板，但 token generation 还行，12 t/s 用 70b q6，9t/s 用 123b q4k。”

关于 Tesla P40，有人以低价购入并取得不错效果，而有人所在地区价格较高。

还有人认为 7900XT 配合特定设置可以运行相关模型，但也有人表示存在困难。

对于 Intel Arc A770 等设备，大家看法不一，有人认为是经济实惠的解决方案，有人则认为存在不足。

在这些讨论中，共识在于寻找性价比高的硬件方案以满足运行需求，但对于具体设备的选择存在争议。

特别有见地的观点如[AdamDhahabi]提到的双 4060 Ti 配合推测解码或许可行，以及[FullstackSensei]提到的等待新品发布后的优惠时机。

总之，这场讨论展示了大家在探索运行 32B 模型的经济硬件方案上的多样尝试和深入思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#