原贴链接

我最近将工作电脑升级为RTX 4090 24GB。我使用Claude的20美元订阅服务作为我的大语言模型（LLM），但我想要一个本地LLM备份，用于无API限制的大量编码工作。正在寻求以下几类推荐：1. 通用型LLM；2. 专注于编码的LLM；3. 图像生成；4. 视频生成（只是做一点实验）。系统配置：RTX 4090 24GB / INTEL CORE I7 - 13700，32GB（2X16GB）DDR5 5200 CL40，SSD 1000GB M.2 KINGSTON NV2 3500MB/s PCI Express 4.0 NVMe，INTEL CORE I7 - 13700。请告诉我适合我这种配置的最佳选择！谢谢！

讨论总结

原帖作者因电脑升级到RTX 4090等配置，希望得到本地LLM在不同类型（通用、编码、图像生成、视频生成）方面的推荐。评论者们纷纷根据自己的经验和知识给出了不同的推荐，包括各种模型、UI等，也有人提出硬件升级的建议，还有一个与提醒功能相关的评论。整个讨论围绕着本地LLM推荐展开，氛围较为积极，大家都是在分享和交流信息。

主要观点

👍 可以通过特定网址查看电脑配置能运行的模型。
- 支持理由：negative_entropie给出网址https://www.canirunthisllm.net/，可以输入电脑配置查看能运行的模型。
- 反对声音：无
🔥 原帖作者的配置能运行量化70b模型。
- 正方观点：negative_entropie指出按照原帖作者的配置可以轻松运行量化的70b模型。
- 反方观点：有评论者认为在24GB显存下运行超过Q2的70B模型会很慢。
💡 推荐q4km quant of fuse - o1 - qwq作为推理编码模型，qwen 2.5 32b coder作为非推理编码模型。
- 支持理由：评论者根据不同任务复杂度给出的推荐。
- 反对声音：无
💪 对于24GB显存，运行70B模型不应超过Q2以免过慢。
- 支持理由：运行超过Q2会卸载到内存，导致速度很慢。
- 反对声音：无
🤔 推荐Mistral Nemo Instruct @ Q8用于所有事务，认为其速度快、长语境且功能全面。
- 支持理由：Arkonias分享自己在RTX 4090设备上的使用经验。
- 反对声音：无

金句与有趣评论

“😂 negative_entropie: You can enter your specs here https://www.canirunthisllm.net/ and see which models you can run.”
- 亮点：提供了一个查询电脑能运行模型的网址。
“🤔 Low - Opening25: at Q4 and with decent context size you are still talking about >60GB of RAM/VRAM memory combined, that doesn’t leave a lot to run your regular desktop and apps on top of the model itself.”
- 亮点：指出运行相关模型会占用大量内存/显存，影响常规桌面和应用运行。
“👀 我会使用q4km quant of fuse - o1 - qwq作为推理编码模型，qwen 2.5 32b coder作为非推理编码模型。”
- 亮点：明确给出了编码模型的推荐。
“😎 Okay, there are a lot of weird answers here, you should not try running any more than a Q2 of a 70B with 24GB of VRAM, it will be painfully slow if you offload to RAM.”
- 亮点：对之前一些回答提出质疑，并给出合理的运行建议。
“💡 Mistral Nemo Instruct @ Q8 is my go to Local LLM for everything on my 4090, fast enough, long context and does what ever.”
- 亮点：分享在4090设备上使用效果较好的本地LLM。

情感分析

总体情感倾向是积极的，大家都在积极地为原帖作者提供建议和分享经验。主要分歧点在于对于70B模型在24GB显存下的运行情况，有的认为可以轻松运行，有的认为不应超过Q2以免过慢。可能的原因是大家对模型运行的条件和要求有不同的理解和经验。

趋势与预测

新兴话题：关于在不同硬件条件下如何更好地运行大型模型的讨论可能会继续，如在消费级CPU上运行的优化等。
潜在影响：对本地LLM在不同硬件配置下的应用有更多的指导意义，帮助更多人选择适合自己电脑配置的本地LLM。

详细内容：

《升级到 RTX 4090 后，寻找最佳本地 LLM 选项的热门讨论》

近日，一位用户在 Reddit 上分享了自己升级工作电脑配备 RTX 4090 24GB 后的经历，并寻求适合自己配置的本地 LLM 推荐。该帖获得了众多关注和热烈讨论，点赞数和评论数众多。

原帖中，用户提出在使用 Claude 的 20 美元订阅服务作为主要 LLM 的同时，希望有一个本地 LLM 作为无 API 限制的编码会话备份，并列出了包括通用 LLM、专注编码的 LLM、图像生成、视频生成等方面的需求，同时还给出了自己电脑的详细配置。

讨论焦点主要集中在以下几个方面：

有人指出可以在https://www.canirunthisllm.net/输入规格，查看能运行的模型，以这样的配置能轻松运行量化的 70b 模型。
有人认为在 Q4 且有适当的上下文大小的情况下，仍需要超过 60GB 的 RAM/VRAM 内存组合，留给运行常规桌面和应用程序的内存不多。
有人询问图表中黄色的含义，得到的回答是这意味着 GPU 和 RAM 要共享内存，会使推理变得更慢，因为模型无法完全适配 GPU 的 VRAM。
有人表示找不到“.exe”文件。
有人推荐使用 q4km 量化的 fuse-o1-qwq 作为推理编码模型，qwen 2.5 32b coder 作为非推理编码模型，并解释了不同模型在不同任务中的应用。
有人认为对于 24GB VRAM，不应尝试运行超过 Q2 的 70B，否则会非常慢，并给出了一系列推荐。
有人提到增加更多 RAM（128 或 256）能更轻松运行更大的模型。
有人讨论在 CPU 上运行模型的速度问题。

讨论中的共识是需要根据具体需求和电脑配置选择合适的本地 LLM 模型。独特的观点如根据任务的复杂程度选择不同参数的模型，丰富了讨论内容。

总体而言，这场讨论为有类似需求的用户提供了丰富的参考和思考方向。但如何在有限的硬件条件下选择最适合自己需求的本地 LLM 模型，仍然是一个需要根据个人情况权衡的问题。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#