原贴链接

需要说明的是,不必是一个既能编码又能写作的大语言模型。我知道这个问题被问了很多次,但情况变化很快,希望得到大家的帮助以掌握最新情况。谢谢。

讨论总结

这是一个关于在4090上运行且适合写作和编码的最佳大型语言模型(LLM)的讨论。参与者从不同的角度发表了观点,如有的直接推荐具体的模型,有的指出最佳模型的选择取决于编程语言和上下文大小,还有的分享了自己使用特定模型在不同硬件上的运行体验等,讨论中没有明显的争执,整体氛围比较理性。

主要观点

  1. 👍 推荐Qwen 2.5 Coder 32B作为满足条件的LLM。
    • 支持理由:无(直接给出推荐,未做过多解释)
    • 反对声音:无
  2. 🔥 最佳LLM的选择取决于编程语言和上下文大小。
    • 正方观点:不同的编程场景和上下文需求下,各模型表现不同,如Qwen2.5 - coder在不同编程场景下有不同表现。
    • 反方观点:无
  3. 💡 不理解在本地用4090进行编码的意义,认为使用Aider和GPT4花费几美元购买token得到的结果更好。
    • 支持理由:自己在本地设备(4090、64GB M3 max)上获取好结果花费很多时间,而GPT4运行方案更稳定。
    • 反对声音:无
  4. 🤔 推荐查看qwen的最新编码程序,编码领域包含众多特定用例,针对不同用例应尝试多种选择。
    • 支持理由:有助于找到最适合特定问题或领域的方案。
    • 反对声音:无
  5. 😎 编码方面推荐Qwen 2.5 Coder 32b Instruct,写作方面Mistral Small 22b、Gemma2 27B或者Mistral Nemo 12b能产生较好结果。
    • 支持理由:无(直接给出推荐,未做过多解释)
    • 反对声音:无

金句与有趣评论

  1. “😂 Vishnu_One:Qwen 2.5 Coder 32B”
    • 亮点:简洁直接地给出了一个可能满足条件的LLM。
  2. “🤔 Depends on the programming language, and the context size you need.”
    • 亮点:指出了选择LLM的关键因素。
  3. “👀 I understand the appeal of running a local LLM for some things, but for coding I don’t get it.”
    • 亮点:表达了对在本地用4090进行编码的疑惑。
  4. “😉 对于编码,要么Qwen 2.5 Coder 32b Instruct,要么Deepseek Coder 2(3.0你不太可能以不错的性能运行)。”
    • 亮点:对编码方面的LLM推荐较为具体且考虑到性能问题。
  5. “🤯 I tried running qwen2.5 coder 32b Q4 on a 24GB VRAM GPU, but it was taking several minutes to complete a single response.”
    • 亮点:分享了qwen2.5 coder 32b Q4在特定硬件上的运行速度慢的实际体验。

情感分析

总体情感倾向比较中性,大家主要是理性地分享观点和经验。主要分歧点较少,可能是因为这是一个比较专业的话题,大家更多是从技术角度出发。部分用户关注的是模型在不同场景下的适用性,而另一部分用户则更在意本地运行与购买token使用模型的性价比。

趋势与预测

  • 新兴话题:在特定领域(如数学和物理相关的Python)下的LLM选择可能会引发后续讨论。
  • 潜在影响:对于那些想要在4090上运行LLM进行写作和编码的用户来说,这些讨论可以帮助他们更好地选择适合自己需求的模型,提高工作效率。同时也有助于LLM开发者进一步优化模型在不同场景下的性能。

详细内容:

标题:关于在 4090 上运行的最佳 LLM 用于写作和编码的热门讨论

在 Reddit 上,有一个备受关注的帖子“ What is the best LLM for writing and coding that can be run on 4090?”,获得了众多用户的参与,评论数众多。帖子的主人表示,不一定需要一个既能编码又能写作的 LLM,只是想了解当下的情况。

讨论的焦点集中在不同模型的性能和适用场景上。有人认为 Qwen2.5-coder 32B 在 Swift + SwiftUI 编码方面表现出色,但需要保持约 16K 的上下文窗口;对于 Web 开发则更倾向于 Codestral。有人提出对于 24GB GPU 的通用建议,比如 18GB 模型用于精确代码生成,12GB 模型适用于大上下文操作。

有用户分享道:“当涉及到编码速度和质量时,规模较小的模型就显得不够聪明。7b 模型能更快速地迭代想法。如果你是一名优秀的编码员,7b 模型在某些方面可能实际上更适合你,因为它能快速输出代码。理想情况下,选择尽可能大的代码模型,比如 32b。”

也有用户表示:“一般来说,量化(低至 4 位)的高参数模型在性能上会优于全精度的低参数模型。”但也有人提出质疑:“那 3.5 位呢?我在 exllama 上尝试了 qwen32coder,至少它没那么慢。”

有人认为小型模型如果不介意问同一个问题多次来纠正遗漏,也是可以的;但也有人指出保持 Qwen 的默认设置有时会产生更好的输出。

还有用户提到,对于本地运行 LLM 的吸引力难以言表,即便在线服务更好,自己离线时本地运行也能工作。

有人指出要始终检查 qwen 的最新编码器,因为编码领域广泛,不同使用场景需要尝试多种选择。

一位用户分享自己在 24GB VRAM GPU 上运行 qwen2.5 coder 32b Q4 的经历,称需要几分钟才能完成一个响应,降级到 14B 才能在 1 分钟内完成。

总之,关于在 4090 上运行的最佳 LLM 的讨论充满了各种观点和经验分享,用户们对于不同模型的性能、适用场景以及运行效果都有自己的看法。但大家也达成了一定的共识,那就是需要根据具体需求和硬件条件来选择合适的 LLM 模型。