我想买一张二手的3090来进行推理和机器学习（不是训练大型语言模型，只是普通的机器学习/深度学习）

你们能在3090上舒适地运行哪些模型大小？

更新：

感谢你们的回复，我已经安装了GPU，并在Ollama上进行了一些测试：

Llama 3.1 70B：运行在6ts
Mistral nemo 12B：63ts
Mistral 7B：93ts
Mixtral 8x7：16ts
Gemma 27b：32ts（快速小子）

作为个人工作站，效果不错

讨论总结

Reddit用户围绕在单张3090显卡上运行机器学习模型展开了深入讨论。主要关注点包括模型大小、运行速度、功耗优化以及用户体验。许多用户分享了他们在不同配置下的实际运行经验，讨论了模型支持的闪存注意力和量化k,v上下文对性能的影响。此外，也有用户提出了租用服务器作为资源扩展的建议。整体讨论氛围积极，用户们通过分享各自的经验和见解，共同探讨了3090显卡在机器学习领域的应用潜力。

主要观点

👍 模型支持闪存注意力和量化k,v上下文的重要性
- 支持理由：这些技术可以显著改变3090显卡能容纳的模型大小，提升运行效率。
- 反对声音：部分模型可能不支持这些技术，限制了其在3090上的应用。
🔥 3090显卡可以运行70B规模的模型
- 正方观点：尽管速度较慢，但仍可接受，且使用过大型模型后，对较小模型的兴趣减少。
- 反方观点：速度较慢可能影响实际应用体验。
💡 8位比特的Nemo模型在VRAM和速度之间取得了平衡
- 解释：这种平衡使得在有限的VRAM下仍能保持较快的运行速度。

金句与有趣评论

“😂 If the model supports flash attention and you can quantize the k,v context then the model you can fit in the 3090 vram changes.”
- 亮点：强调了技术优化对模型运行性能的关键影响。
“🤔 Personally I do q4_k_m 70B, but it’s pushing the limit of "comfortably", it’s like 2 t/s so below reading speed but in my opinion acceptable.”
- 亮点：真实反映了用户在使用大型模型时的实际体验。
“👀 Nemo at 8 bits strikes a decent balance between VRAM and speed.”
- 亮点：简洁明了地总结了模型优化策略的效果。

情感分析

讨论的总体情感倾向积极，用户们普遍对3090显卡在机器学习领域的应用潜力持乐观态度。主要分歧点在于模型大小与运行速度之间的权衡，以及是否需要通过租用服务器来扩展资源。这些分歧反映了用户在实际应用中的不同需求和偏好。

趋势与预测

新兴话题：随着技术的进步，未来可能会有更多针对3090显卡的优化策略和模型出现。
潜在影响：3090显卡在机器学习领域的广泛应用可能会推动相关技术的发展，同时也会对GPU市场产生一定影响。

详细内容：

《关于在单个 3090 上运行模型的热门讨论》

在 Reddit 上，有一个引起广泛关注的帖子，主题是“在单个 3090 上能运行哪些模型”。该帖子获得了众多用户的回应和讨论，点赞数和评论数众多。

帖子中，作者表示想购买二手 3090 用于推理和机器学习（并非训练大型语言模型，只是一般的机器学习/深度学习），并询问大家在 3090 上能舒适运行的模型大小。之后作者更新了内容，分享了自己的测试结果。

讨论的焦点主要集中在不同用户在 3090 上运行模型的实际经验和观点。有人指出，如果模型支持闪存注意力并且可以量化 k、v 上下文，那么 3090 能容纳的模型就会有所变化。比如，有人说在 11GB 显存的 2080ti 上，通过一定的量化操作可以将 12b 的 q4 gguf 模型与 64k 上下文完全放入显存。但对于某些不支持闪存注意力的 8b 模型，显存就会很快耗尽。有人建议，花 50 美分一小时租用服务器来测试 3090 能运行的模型。

还有用户分享，自己运行 q4_k_m 70B，虽然接近“舒适”的极限，速度约为 2 字每秒，但觉得可以接受，用了 70B 之后就回不去较小的模型了，因为觉得它们不够智能。有人能在 3090 上运行 34Bs、Yi 1.5 及其微调版本、Beta 35B、Gemma 27B 等。有人尝试了 mistral nemo 12 B 后，称赞其速度达到 60 字每秒，十分惊人，但功耗达 330 瓦，通过降压能降到 230 瓦且不影响推理速度。有人认为 Nemo 以 8 位运行在显存和速度之间达到了不错的平衡。也有人表示 Gemma 27B Q5 在 24GB 显存中运行良好，性能接近 Llama 3.1 70B。还有人使用 Magnum 72b q5 K_M，速度虽慢但乐在其中。

在这场讨论中，大家对于不同模型在 3090 上的运行效果和性能各抒己见，提供了丰富的经验和见解。但也存在一些争议，比如对于功耗的看法，有人觉得 330W 不算多，有人则认为这样的功耗过高。

总之，这场关于在单个 3090 上运行模型的讨论，为有相关需求的用户提供了宝贵的参考和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#