原贴链接

我想知道在16GB显存 + 64GB内存的情况下,我能运行的最新且最好的大语言模型有哪些。使用场景包括:通用知识、检索增强生成(RAG)、编码和角色扮演(RP)。我不希望速度太慢,最好是每秒10个词元(tok/s)或更快。不要叫我组装更好的台式机,我经常到处跑,更喜欢便携的。谢谢。

讨论总结

原帖主即将拥有64GB内存和16GB显存的笔记本电脑,想知道在此硬件配置下能运行的本地最佳大型语言模型(LLMs),使用场景包括通用知识、RAG、编码和角色扮演,并且希望速度不低于10tok/s。评论者们从不同角度进行回应,有人推荐了多种具体的LLMs如Qwen 2.5 14B、Llama 70b等,还涉及不同模型的速度、质量、适用场景等方面的讨论,也有关于设备选择如Macbook Pro的推荐以及硬件保护的提醒等内容,整体讨论氛围积极,大家各抒己见提供有价值的信息。

主要观点

  1. 👍 推荐22B及以下的LLMs以达到10tok/s目标
    • 支持理由:根据机器配置情况和运行速度要求给出建议,在高显存和内存下想要较快速度,22B及以下较合适。
    • 反对声音:无。
  2. 🔥 大型模型虽然速度慢,但质量比小模型高很多
    • 正方观点:认为大型模型质量高,如70b模型在各方面更智能,能更好理解问题。
    • 反方观点:有人认为速度过慢无法忍受,如1token/s的速度不符合需求。
  3. 💡 Macbook Pro是满足需求的一个好选项
    • 支持理由:有着不错的带宽和足够的内存来运行LLMs。
    • 反对声音:无。
  4. 👍 对于10 t/s速度要求,12b - 14b的模型适用
    • 支持理由:从速度要求出发推荐模型参数范围,像Mistral Nemo 12b和Qwen 2.5 14b符合运行要求。
    • 反对声音:无。
  5. 🔥 不同模型在不同使用需求下有不同表现
    • 正方观点:如在调试代码或解决复杂问题时大型模型更优,而追求快速交互则小模型合适。
    • 反方观点:无。

金句与有趣评论

  1. “😂 You’ll want to stick to 22B range or lower, for that 10t/s target.”
    • 亮点:简洁明确地给出在特定速度要求下的模型选择范围。
  2. “🤔 Quality is much higher, though, to the point that once you try, you’ll find difficult to go back.”
    • 亮点:强调大型模型质量高到用过就难以回头的程度。
  3. “👀 Open LMstudio and sort by compatibility”
    • 亮点:直接给出一种寻找合适LLMs的操作方法。
  4. “😎 A Macbook Pro could be a good option as well, respectable bandwidth and enough memory”
    • 亮点:推荐了满足需求的笔记本电脑并说明其优势。
  5. “💥 对于角色扮演,一个好的模型是NemoMix - Unleashed - 12b,Mistral Nemo 12b的角色扮演微调版本。”
    • 亮点:针对角色扮演任务推荐特定模型并说明来源。

情感分析

总体情感倾向是积极的。主要分歧点在于大型模型的运行速度慢是否可接受,可能的原因是不同用户对于模型质量和交互速度的权衡标准不同,有些用户更注重获取答案的速度,而有些用户则更看重模型给出答案的质量。

趋势与预测

  • 新兴话题:硬件散热保护对于运行LLMs的重要性可能会成为后续关注的点,因为在推荐模型和设备时也需要考虑硬件的稳定运行。
  • 潜在影响:对于LLMs在便携式设备上的运行需求,可能促使相关模型开发者进一步优化模型大小和运行速度之间的平衡,以适应更多不同硬件配置的用户。

详细内容:

标题:关于购买高配置笔记本电脑运行本地 LLMs 的热门讨论

近日,Reddit 上有一个帖子引发了热烈讨论,标题为“Getting a laptop 64GB ram and 16gb vram in the next days - what are the best local LLMs that I can run?”。该帖获得了众多关注,评论数众多。

原帖作者表示即将拥有一台 64GB 内存和 16GB 显存的笔记本电脑,希望了解能运行的最新且最好的本地 LLMs,其使用场景包括一般知识、RAG、编程和角色扮演,并且希望速度能达到 10 令牌/秒或更快,同时强调由于经常移动,所以更倾向于便携式电脑。

讨论的焦点主要集中在不同模型的运行性能和适用场景上。有人认为在这样的配置下,应选择 22B 范围或更低的模型,比如 Qwen 2.5 14B 是不错的选择,而 34B 以上的模型运行速度会较慢。有人则表示 123B 模型在 IQ3_M 模式下运行效果更好。

有人提出疑问:是否需要手动选择上下文长度,还是每个模型都有预定义。对此,有人回复称默认是 2k 除非在模型文件或传入请求参数中指定,且在会话期间改变上下文大小会强制模型重新加载,应保持一致。

对于选择模型,有人认为 16GB 显存处于可用性的低端,安装“快速”模型可能质量不佳,不太适用于严肃使用场景。但也有人表示,虽然速度慢些,但 70B 或 123B 等大型模型在质量上更高,更能理解问题。

有人觉得对于需要快速交互获取即时答案的情况,小型模型更合适,而对于复杂问题的解决,大型智能模型更能正确处理。

有人指出对于以 RAM 为主的推理,理想情况更适合一次性的长而详细的提示,不太适用于编程等需要速度的场景。

有人计划本周末尝试,想知道小型模型的意义所在。还有人推荐了一些具体的模型,如 Mistral Nemo 12b 和 Qwen 2.5 14b 等。

总之,在这个讨论中,大家对于如何在给定配置下选择合适的本地 LLMs 模型存在不同观点,需要根据具体使用场景和对速度、质量的需求来权衡。