我一直在我的游戏笔记本(RTX 4070 8GB显存,16GB内存)上试验本地大型语言模型(LLM)。我的使用场景是编码和创意写作。以下是一些运行良好且我喜欢的模型:
Gemma 3 12B - 低量化(IQ3_XS),100%卸载到GPU,溢出到内存,每秒约10万亿次操作(t/s)。很擅长遵循指令并具备常识。这是我的理想之选,也是我的主要使用模型。
Gemma 3 4B - 全量化(Q8),100%卸载到GPU,溢出很少,每秒约30 - 40万亿次操作(t/s)。仍然很智能且能胜任工作,但知识储备更有限。在这个性能水平上这是一个很棒的模型。
MN GRAND Gutenburg Lyra4 Lyra 23.5B,中等量化(Q4)(更低的量化就太不稳定了),约50%卸载到GPU,每秒2 - 3万亿次操作(t/s)。当散文质量和创作引人入胜的故事很重要时适用。它容易出问题所以需要一些监督,但完全是另一个层次 - Gemma 3完全不能像它这样写作(尽管Gemma更严格地遵循指令)。是创意写作的好伙伴。这个模型的12B版本速度快得多(100%GPU,每秒15万亿次操作(t/s)),在文体风格上仍然很强,尽管它的故事远没有那么吸引人,所以我倾向于耐心等待23.5B版本。
我对以下模型感到失望:
Llama 3.1 8B - 运行速度快,但与Gemma 3 4B相比,回答简短、肤浅且无趣。
Mistral Small 3.1 - 在我的机器上几乎无法运行,而且由于速度极慢,对其回答也没有什么好印象。我宁愿运行Gemma 3 27B。
我希望我能运行:
QWQ 32B - 在能让它在我的系统上运行的低量化下表现不佳,速度太慢。
Gemma 3 27B - 它能运行,但与12B相比,质量提升并不值得降到每秒2万亿次操作(t/s)的速度。
讨论总结
原帖作者分享了在自己8GB VRAM、16GB RAM的设备上进行本地LLM实验时,在编码和创意写作方面表现较好和较差的模型。评论者们纷纷根据自己的经验进行补充,推荐了诸如qwen2.5 - coder:7b和deepseek - r1:1.5b混合使用、Phi - 4等模型,还分享了一些项目如https://github.com/Infini - AI - Lab/UMbreLLa能让人们运行更大模型,同时也讨论了模型在编码方面的表现、运行速度、量化等级等内容。
主要观点
- 👍 推荐qwen2.5 - coder:7b和deepseek - r1:1.5b混合使用
- 支持理由:可以利用deepseek - r1:1.5b的推理能力传递给qwen2.5 - coder:7b以获得更好结果,二者能在8GB内存机器上同时运行。
- 反对声音:无
- 🔥 推荐https://github.com/Infini - AI - Lab/UMbreLLa项目
- 正方观点:可让人们运行更大模型,通过推测解码和卸载进行优化,比llama.cpp优化更好,可能使32B速度更快。
- 反方观点:无
- 💡 Gemma 3 12B IQ4_XS不适合编码
- 解释:评论者尝试用于编码效果糟糕,相比之下Nemo Q4_K_M在编码方面表现更好。
- 💡 推荐尝试Distilled R1解决相关问题
- 解释:评论者认为可能解决原帖提到的一些问题。
- 💡 8B模型不错但需要调整
- 解释:社区蒸馏模型中的8B模型有潜力,只是需要调整才能发挥更好效果。
金句与有趣评论
- “😂 You can mix this two. Take reasoning from the deepseek and pass it to the qwen so can you better result.”
- 亮点:清晰表达了两个模型混合使用的方式和好处。
- “🤔 这个项目让人们运行更大模型,尝试看看是否能得到更快的32B速度!”
- 亮点:简单明了地介绍项目功能并吸引人们尝试。
- “👀 然后我尝试了Nemo IQ4,和Gemma 3 IQ4_XS一样在编码方面很糟糕,而且总体很笨。”
- 亮点:直观地对比了两个模型在编码方面的不佳表现。
- “😎 Have you given Distilled R1 a try? It could solve those issues.”
- 亮点:直接向原帖作者推荐模型并说明可能的效果。
- “🤓 对于我来说,Phi - 4 q2在编码方面比Gemma 3更好。”
- 亮点:基于自身使用体验给出模型对比结果。
情感分析
总体情感倾向为积极正面。主要分歧点较少,大家基本都在分享自己的经验和建议。可能的原因是原帖是关于寻求特定硬件下的最佳模型,评论者们都是基于自身知识和经验进行回应,旨在共同探讨出更好的模型使用方案。
趋势与预测
- 新兴话题:不同量化等级对模型运行的影响可能会引发后续更多讨论,如Q4_K以下难以保证可靠性、Q6_K适合更长上下文等。
- 潜在影响:对于在有限硬件资源(如8GB VRAM、16GB RAM)下运行模型的用户来说,这些讨论可以帮助他们更好地选择和优化模型,提高工作效率,也有助于模型开发者进一步优化模型在类似硬件条件下的性能。
详细内容:
标题:探索适合 8GB VRAM 和 16GB RAM 运行的最佳模型
在 Reddit 上,有一个关于在配备 8GB VRAM 和 16GB RAM 的设备上运行本地 LLMs 的热门讨论帖引起了众多关注。该帖子主要分享了作者在自己的游戏笔记本电脑(RTX 4070 8GB,16GB 内存)上进行的实验结果。其使用场景包括编码和创意写作,并列举了效果良好且喜欢的模型,如 Gemma 3 12B、Gemma 3 4B、MN GRAND Gutenburg Lyra4 Lyra 23.5B 等,同时也提到了表现令人失望的模型,如 Llama 3.1 8B 和 Mistral Small 3.1。此帖获得了大量的点赞和众多评论。
讨论焦点与观点分析: 有人分享道,qwen2.5-coder:7b 和 deepseek-r1:1.5b 可以混合使用,通过在代码中进行设置能获得更好的结果,而且这两个模型能在同一台 8GB 内存的机器上同时运行。有人提供了项目 https://github.com/Infini - AI - Lab/UMbreLLa ,称其能让人们在内存中运行更大的模型,并给出了相关的描述和基准测试链接。有人表示尝试了 Gemma 3 12B IQ4_XS,认为其在编写代码方面表现不佳。还有人推荐了 Distilled R1、Phi-4 等模型,并分享了使用体验。有人指出对于追求可靠性,模型不应低于 Q4_K,优先选择 Q6_K 以适应更长的上下文。
在这些讨论中,共识在于大家都在积极探索适合自身设备和需求的模型,以获得更好的使用效果。特别有见地的观点如对不同模型在特定场景下的性能分析,丰富了讨论内容,为其他人提供了更多参考。
总之,通过这次热烈的讨论,大家对于如何在有限的硬件条件下选择合适的模型有了更深入的思考和更多的选择方向。
感谢您的耐心阅读!来选个表情,或者留个评论吧!