原贴链接

我最近将工作电脑升级为RTX 4090 24GB。我使用Claude的20美元订阅服务作为我的大语言模型(LLM),但我想要一个本地LLM备份,用于无API限制的大量编码工作。正在寻求以下几类推荐:1. 通用型LLM;2. 专注于编码的LLM;3. 图像生成;4. 视频生成(只是做一点实验)。系统配置:RTX 4090 24GB / INTEL CORE I7 - 13700,32GB(2X16GB)DDR5 5200 CL40,SSD 1000GB M.2 KINGSTON NV2 3500MB/s PCI Express 4.0 NVMe,INTEL CORE I7 - 13700。请告诉我适合我这种配置的最佳选择!谢谢!

讨论总结

原帖作者因电脑升级到RTX 4090等配置,希望得到本地LLM在不同类型(通用、编码、图像生成、视频生成)方面的推荐。评论者们纷纷根据自己的经验和知识给出了不同的推荐,包括各种模型、UI等,也有人提出硬件升级的建议,还有一个与提醒功能相关的评论。整个讨论围绕着本地LLM推荐展开,氛围较为积极,大家都是在分享和交流信息。

主要观点

  1. 👍 可以通过特定网址查看电脑配置能运行的模型。
    • 支持理由:negative_entropie给出网址https://www.canirunthisllm.net/,可以输入电脑配置查看能运行的模型。
    • 反对声音:无
  2. 🔥 原帖作者的配置能运行量化70b模型。
    • 正方观点:negative_entropie指出按照原帖作者的配置可以轻松运行量化的70b模型。
    • 反方观点:有评论者认为在24GB显存下运行超过Q2的70B模型会很慢。
  3. 💡 推荐q4km quant of fuse - o1 - qwq作为推理编码模型,qwen 2.5 32b coder作为非推理编码模型。
    • 支持理由:评论者根据不同任务复杂度给出的推荐。
    • 反对声音:无
  4. 💪 对于24GB显存,运行70B模型不应超过Q2以免过慢。
    • 支持理由:运行超过Q2会卸载到内存,导致速度很慢。
    • 反对声音:无
  5. 🤔 推荐Mistral Nemo Instruct @ Q8用于所有事务,认为其速度快、长语境且功能全面。
    • 支持理由:Arkonias分享自己在RTX 4090设备上的使用经验。
    • 反对声音:无

金句与有趣评论

  1. “😂 negative_entropie: You can enter your specs here https://www.canirunthisllm.net/ and see which models you can run.”
    • 亮点:提供了一个查询电脑能运行模型的网址。
  2. “🤔 Low - Opening25: at Q4 and with decent context size you are still talking about >60GB of RAM/VRAM memory combined, that doesn’t leave a lot to run your regular desktop and apps on top of the model itself.”
    • 亮点:指出运行相关模型会占用大量内存/显存,影响常规桌面和应用运行。
  3. “👀 我会使用q4km quant of fuse - o1 - qwq作为推理编码模型,qwen 2.5 32b coder作为非推理编码模型。”
    • 亮点:明确给出了编码模型的推荐。
  4. “😎 Okay, there are a lot of weird answers here, you should not try running any more than a Q2 of a 70B with 24GB of VRAM, it will be painfully slow if you offload to RAM.”
    • 亮点:对之前一些回答提出质疑,并给出合理的运行建议。
  5. “💡 Mistral Nemo Instruct @ Q8 is my go to Local LLM for everything on my 4090, fast enough, long context and does what ever.”
    • 亮点:分享在4090设备上使用效果较好的本地LLM。

情感分析

总体情感倾向是积极的,大家都在积极地为原帖作者提供建议和分享经验。主要分歧点在于对于70B模型在24GB显存下的运行情况,有的认为可以轻松运行,有的认为不应超过Q2以免过慢。可能的原因是大家对模型运行的条件和要求有不同的理解和经验。

趋势与预测

  • 新兴话题:关于在不同硬件条件下如何更好地运行大型模型的讨论可能会继续,如在消费级CPU上运行的优化等。
  • 潜在影响:对本地LLM在不同硬件配置下的应用有更多的指导意义,帮助更多人选择适合自己电脑配置的本地LLM。

详细内容:

《升级到 RTX 4090 后,寻找最佳本地 LLM 选项的热门讨论》

近日,一位用户在 Reddit 上分享了自己升级工作电脑配备 RTX 4090 24GB 后的经历,并寻求适合自己配置的本地 LLM 推荐。该帖获得了众多关注和热烈讨论,点赞数和评论数众多。

原帖中,用户提出在使用 Claude 的 20 美元订阅服务作为主要 LLM 的同时,希望有一个本地 LLM 作为无 API 限制的编码会话备份,并列出了包括通用 LLM、专注编码的 LLM、图像生成、视频生成等方面的需求,同时还给出了自己电脑的详细配置。

讨论焦点主要集中在以下几个方面:

  1. 有人指出可以在https://www.canirunthisllm.net/输入规格,查看能运行的模型,以这样的配置能轻松运行量化的 70b 模型。
  2. 有人认为在 Q4 且有适当的上下文大小的情况下,仍需要超过 60GB 的 RAM/VRAM 内存组合,留给运行常规桌面和应用程序的内存不多。
  3. 有人询问图表中黄色的含义,得到的回答是这意味着 GPU 和 RAM 要共享内存,会使推理变得更慢,因为模型无法完全适配 GPU 的 VRAM。
  4. 有人表示找不到“.exe”文件。
  5. 有人推荐使用 q4km 量化的 fuse-o1-qwq 作为推理编码模型,qwen 2.5 32b coder 作为非推理编码模型,并解释了不同模型在不同任务中的应用。
  6. 有人认为对于 24GB VRAM,不应尝试运行超过 Q2 的 70B,否则会非常慢,并给出了一系列推荐。
  7. 有人提到增加更多 RAM(128 或 256)能更轻松运行更大的模型。
  8. 有人讨论在 CPU 上运行模型的速度问题。

讨论中的共识是需要根据具体需求和电脑配置选择合适的本地 LLM 模型。独特的观点如根据任务的复杂程度选择不同参数的模型,丰富了讨论内容。

总体而言,这场讨论为有类似需求的用户提供了丰富的参考和思考方向。但如何在有限的硬件条件下选择最适合自己需求的本地 LLM 模型,仍然是一个需要根据个人情况权衡的问题。