我想买一张二手的3090来进行推理和机器学习(不是训练大型语言模型,只是普通的机器学习/深度学习)
你们能在3090上舒适地运行哪些模型大小?
更新:
感谢你们的回复,我已经安装了GPU,并在Ollama上进行了一些测试:
- Llama 3.1 70B:运行在
6ts
- Mistral nemo 12B:
63ts
- Mistral 7B:
93ts
- Mixtral 8x7:
16ts
- Gemma 27b:
32ts
(快速小子)
作为个人工作站,效果不错
讨论总结
Reddit用户围绕在单张3090显卡上运行机器学习模型展开了深入讨论。主要关注点包括模型大小、运行速度、功耗优化以及用户体验。许多用户分享了他们在不同配置下的实际运行经验,讨论了模型支持的闪存注意力和量化k,v上下文对性能的影响。此外,也有用户提出了租用服务器作为资源扩展的建议。整体讨论氛围积极,用户们通过分享各自的经验和见解,共同探讨了3090显卡在机器学习领域的应用潜力。
主要观点
- 👍 模型支持闪存注意力和量化k,v上下文的重要性
- 支持理由:这些技术可以显著改变3090显卡能容纳的模型大小,提升运行效率。
- 反对声音:部分模型可能不支持这些技术,限制了其在3090上的应用。
- 🔥 3090显卡可以运行70B规模的模型
- 正方观点:尽管速度较慢,但仍可接受,且使用过大型模型后,对较小模型的兴趣减少。
- 反方观点:速度较慢可能影响实际应用体验。
- 💡 8位比特的Nemo模型在VRAM和速度之间取得了平衡
- 解释:这种平衡使得在有限的VRAM下仍能保持较快的运行速度。
金句与有趣评论
- “😂 If the model supports flash attention and you can quantize the k,v context then the model you can fit in the 3090 vram changes.”
- 亮点:强调了技术优化对模型运行性能的关键影响。
- “🤔 Personally I do q4_k_m 70B, but it’s pushing the limit of "comfortably", it’s like 2 t/s so below reading speed but in my opinion acceptable.”
- 亮点:真实反映了用户在使用大型模型时的实际体验。
- “👀 Nemo at 8 bits strikes a decent balance between VRAM and speed.”
- 亮点:简洁明了地总结了模型优化策略的效果。
情感分析
讨论的总体情感倾向积极,用户们普遍对3090显卡在机器学习领域的应用潜力持乐观态度。主要分歧点在于模型大小与运行速度之间的权衡,以及是否需要通过租用服务器来扩展资源。这些分歧反映了用户在实际应用中的不同需求和偏好。
趋势与预测
- 新兴话题:随着技术的进步,未来可能会有更多针对3090显卡的优化策略和模型出现。
- 潜在影响:3090显卡在机器学习领域的广泛应用可能会推动相关技术的发展,同时也会对GPU市场产生一定影响。
详细内容:
《关于在单个 3090 上运行模型的热门讨论》
在 Reddit 上,有一个引起广泛关注的帖子,主题是“在单个 3090 上能运行哪些模型”。该帖子获得了众多用户的回应和讨论,点赞数和评论数众多。
帖子中,作者表示想购买二手 3090 用于推理和机器学习(并非训练大型语言模型,只是一般的机器学习/深度学习),并询问大家在 3090 上能舒适运行的模型大小。之后作者更新了内容,分享了自己的测试结果。
讨论的焦点主要集中在不同用户在 3090 上运行模型的实际经验和观点。有人指出,如果模型支持闪存注意力并且可以量化 k、v 上下文,那么 3090 能容纳的模型就会有所变化。比如,有人说在 11GB 显存的 2080ti 上,通过一定的量化操作可以将 12b 的 q4 gguf 模型与 64k 上下文完全放入显存。但对于某些不支持闪存注意力的 8b 模型,显存就会很快耗尽。有人建议,花 50 美分一小时租用服务器来测试 3090 能运行的模型。
还有用户分享,自己运行 q4_k_m 70B,虽然接近“舒适”的极限,速度约为 2 字每秒,但觉得可以接受,用了 70B 之后就回不去较小的模型了,因为觉得它们不够智能。有人能在 3090 上运行 34Bs、Yi 1.5 及其微调版本、Beta 35B、Gemma 27B 等。有人尝试了 mistral nemo 12 B 后,称赞其速度达到 60 字每秒,十分惊人,但功耗达 330 瓦,通过降压能降到 230 瓦且不影响推理速度。有人认为 Nemo 以 8 位运行在显存和速度之间达到了不错的平衡。也有人表示 Gemma 27B Q5 在 24GB 显存中运行良好,性能接近 Llama 3.1 70B。还有人使用 Magnum 72b q5 K_M,速度虽慢但乐在其中。
在这场讨论中,大家对于不同模型在 3090 上的运行效果和性能各抒己见,提供了丰富的经验和见解。但也存在一些争议,比如对于功耗的看法,有人觉得 330W 不算多,有人则认为这样的功耗过高。
总之,这场关于在单个 3090 上运行模型的讨论,为有相关需求的用户提供了宝贵的参考和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!