需要说明的是,不必是一个既能编码又能写作的大语言模型。我知道这个问题被问了很多次,但情况变化很快,希望得到大家的帮助以掌握最新情况。谢谢。
讨论总结
这是一个关于在4090上运行且适合写作和编码的最佳大型语言模型(LLM)的讨论。参与者从不同的角度发表了观点,如有的直接推荐具体的模型,有的指出最佳模型的选择取决于编程语言和上下文大小,还有的分享了自己使用特定模型在不同硬件上的运行体验等,讨论中没有明显的争执,整体氛围比较理性。
主要观点
- 👍 推荐Qwen 2.5 Coder 32B作为满足条件的LLM。
- 支持理由:无(直接给出推荐,未做过多解释)
- 反对声音:无
- 🔥 最佳LLM的选择取决于编程语言和上下文大小。
- 正方观点:不同的编程场景和上下文需求下,各模型表现不同,如Qwen2.5 - coder在不同编程场景下有不同表现。
- 反方观点:无
- 💡 不理解在本地用4090进行编码的意义,认为使用Aider和GPT4花费几美元购买token得到的结果更好。
- 支持理由:自己在本地设备(4090、64GB M3 max)上获取好结果花费很多时间,而GPT4运行方案更稳定。
- 反对声音:无
- 🤔 推荐查看qwen的最新编码程序,编码领域包含众多特定用例,针对不同用例应尝试多种选择。
- 支持理由:有助于找到最适合特定问题或领域的方案。
- 反对声音:无
- 😎 编码方面推荐Qwen 2.5 Coder 32b Instruct,写作方面Mistral Small 22b、Gemma2 27B或者Mistral Nemo 12b能产生较好结果。
- 支持理由:无(直接给出推荐,未做过多解释)
- 反对声音:无
金句与有趣评论
- “😂 Vishnu_One:Qwen 2.5 Coder 32B”
- 亮点:简洁直接地给出了一个可能满足条件的LLM。
- “🤔 Depends on the programming language, and the context size you need.”
- 亮点:指出了选择LLM的关键因素。
- “👀 I understand the appeal of running a local LLM for some things, but for coding I don’t get it.”
- 亮点:表达了对在本地用4090进行编码的疑惑。
- “😉 对于编码,要么Qwen 2.5 Coder 32b Instruct,要么Deepseek Coder 2(3.0你不太可能以不错的性能运行)。”
- 亮点:对编码方面的LLM推荐较为具体且考虑到性能问题。
- “🤯 I tried running qwen2.5 coder 32b Q4 on a 24GB VRAM GPU, but it was taking several minutes to complete a single response.”
- 亮点:分享了qwen2.5 coder 32b Q4在特定硬件上的运行速度慢的实际体验。
情感分析
总体情感倾向比较中性,大家主要是理性地分享观点和经验。主要分歧点较少,可能是因为这是一个比较专业的话题,大家更多是从技术角度出发。部分用户关注的是模型在不同场景下的适用性,而另一部分用户则更在意本地运行与购买token使用模型的性价比。
趋势与预测
- 新兴话题:在特定领域(如数学和物理相关的Python)下的LLM选择可能会引发后续讨论。
- 潜在影响:对于那些想要在4090上运行LLM进行写作和编码的用户来说,这些讨论可以帮助他们更好地选择适合自己需求的模型,提高工作效率。同时也有助于LLM开发者进一步优化模型在不同场景下的性能。
详细内容:
标题:关于在 4090 上运行的最佳 LLM 用于写作和编码的热门讨论
在 Reddit 上,有一个备受关注的帖子“ What is the best LLM for writing and coding that can be run on 4090?”,获得了众多用户的参与,评论数众多。帖子的主人表示,不一定需要一个既能编码又能写作的 LLM,只是想了解当下的情况。
讨论的焦点集中在不同模型的性能和适用场景上。有人认为 Qwen2.5-coder 32B 在 Swift + SwiftUI 编码方面表现出色,但需要保持约 16K 的上下文窗口;对于 Web 开发则更倾向于 Codestral。有人提出对于 24GB GPU 的通用建议,比如 18GB 模型用于精确代码生成,12GB 模型适用于大上下文操作。
有用户分享道:“当涉及到编码速度和质量时,规模较小的模型就显得不够聪明。7b 模型能更快速地迭代想法。如果你是一名优秀的编码员,7b 模型在某些方面可能实际上更适合你,因为它能快速输出代码。理想情况下,选择尽可能大的代码模型,比如 32b。”
也有用户表示:“一般来说,量化(低至 4 位)的高参数模型在性能上会优于全精度的低参数模型。”但也有人提出质疑:“那 3.5 位呢?我在 exllama 上尝试了 qwen32coder,至少它没那么慢。”
有人认为小型模型如果不介意问同一个问题多次来纠正遗漏,也是可以的;但也有人指出保持 Qwen 的默认设置有时会产生更好的输出。
还有用户提到,对于本地运行 LLM 的吸引力难以言表,即便在线服务更好,自己离线时本地运行也能工作。
有人指出要始终检查 qwen 的最新编码器,因为编码领域广泛,不同使用场景需要尝试多种选择。
一位用户分享自己在 24GB VRAM GPU 上运行 qwen2.5 coder 32b Q4 的经历,称需要几分钟才能完成一个响应,降级到 14B 才能在 1 分钟内完成。
总之,关于在 4090 上运行的最佳 LLM 的讨论充满了各种观点和经验分享,用户们对于不同模型的性能、适用场景以及运行效果都有自己的看法。但大家也达成了一定的共识,那就是需要根据具体需求和硬件条件来选择合适的 LLM 模型。
感谢您的耐心阅读!来选个表情,或者留个评论吧!