我最近将工作电脑升级为RTX 4090 24GB。我使用Claude的20美元订阅服务作为我的大语言模型(LLM),但我想要一个本地LLM备份,用于无API限制的大量编码工作。正在寻求以下几类推荐:1. 通用型LLM;2. 专注于编码的LLM;3. 图像生成;4. 视频生成(只是做一点实验)。系统配置:RTX 4090 24GB / INTEL CORE I7 - 13700,32GB(2X16GB)DDR5 5200 CL40,SSD 1000GB M.2 KINGSTON NV2 3500MB/s PCI Express 4.0 NVMe,INTEL CORE I7 - 13700。请告诉我适合我这种配置的最佳选择!谢谢!
讨论总结
原帖作者因电脑升级到RTX 4090等配置,希望得到本地LLM在不同类型(通用、编码、图像生成、视频生成)方面的推荐。评论者们纷纷根据自己的经验和知识给出了不同的推荐,包括各种模型、UI等,也有人提出硬件升级的建议,还有一个与提醒功能相关的评论。整个讨论围绕着本地LLM推荐展开,氛围较为积极,大家都是在分享和交流信息。
主要观点
- 👍 可以通过特定网址查看电脑配置能运行的模型。
- 支持理由:negative_entropie给出网址https://www.canirunthisllm.net/,可以输入电脑配置查看能运行的模型。
- 反对声音:无
- 🔥 原帖作者的配置能运行量化70b模型。
- 正方观点:negative_entropie指出按照原帖作者的配置可以轻松运行量化的70b模型。
- 反方观点:有评论者认为在24GB显存下运行超过Q2的70B模型会很慢。
- 💡 推荐q4km quant of fuse - o1 - qwq作为推理编码模型,qwen 2.5 32b coder作为非推理编码模型。
- 支持理由:评论者根据不同任务复杂度给出的推荐。
- 反对声音:无
- 💪 对于24GB显存,运行70B模型不应超过Q2以免过慢。
- 支持理由:运行超过Q2会卸载到内存,导致速度很慢。
- 反对声音:无
- 🤔 推荐Mistral Nemo Instruct @ Q8用于所有事务,认为其速度快、长语境且功能全面。
- 支持理由:Arkonias分享自己在RTX 4090设备上的使用经验。
- 反对声音:无
金句与有趣评论
- “😂 negative_entropie: You can enter your specs here https://www.canirunthisllm.net/ and see which models you can run.”
- 亮点:提供了一个查询电脑能运行模型的网址。
- “🤔 Low - Opening25: at Q4 and with decent context size you are still talking about >60GB of RAM/VRAM memory combined, that doesn’t leave a lot to run your regular desktop and apps on top of the model itself.”
- 亮点:指出运行相关模型会占用大量内存/显存,影响常规桌面和应用运行。
- “👀 我会使用q4km quant of fuse - o1 - qwq作为推理编码模型,qwen 2.5 32b coder作为非推理编码模型。”
- 亮点:明确给出了编码模型的推荐。
- “😎 Okay, there are a lot of weird answers here, you should not try running any more than a Q2 of a 70B with 24GB of VRAM, it will be painfully slow if you offload to RAM.”
- 亮点:对之前一些回答提出质疑,并给出合理的运行建议。
- “💡 Mistral Nemo Instruct @ Q8 is my go to Local LLM for everything on my 4090, fast enough, long context and does what ever.”
- 亮点:分享在4090设备上使用效果较好的本地LLM。
情感分析
总体情感倾向是积极的,大家都在积极地为原帖作者提供建议和分享经验。主要分歧点在于对于70B模型在24GB显存下的运行情况,有的认为可以轻松运行,有的认为不应超过Q2以免过慢。可能的原因是大家对模型运行的条件和要求有不同的理解和经验。
趋势与预测
- 新兴话题:关于在不同硬件条件下如何更好地运行大型模型的讨论可能会继续,如在消费级CPU上运行的优化等。
- 潜在影响:对本地LLM在不同硬件配置下的应用有更多的指导意义,帮助更多人选择适合自己电脑配置的本地LLM。
详细内容:
《升级到 RTX 4090 后,寻找最佳本地 LLM 选项的热门讨论》
近日,一位用户在 Reddit 上分享了自己升级工作电脑配备 RTX 4090 24GB 后的经历,并寻求适合自己配置的本地 LLM 推荐。该帖获得了众多关注和热烈讨论,点赞数和评论数众多。
原帖中,用户提出在使用 Claude 的 20 美元订阅服务作为主要 LLM 的同时,希望有一个本地 LLM 作为无 API 限制的编码会话备份,并列出了包括通用 LLM、专注编码的 LLM、图像生成、视频生成等方面的需求,同时还给出了自己电脑的详细配置。
讨论焦点主要集中在以下几个方面:
- 有人指出可以在https://www.canirunthisllm.net/输入规格,查看能运行的模型,以这样的配置能轻松运行量化的 70b 模型。
- 有人认为在 Q4 且有适当的上下文大小的情况下,仍需要超过 60GB 的 RAM/VRAM 内存组合,留给运行常规桌面和应用程序的内存不多。
- 有人询问图表中黄色的含义,得到的回答是这意味着 GPU 和 RAM 要共享内存,会使推理变得更慢,因为模型无法完全适配 GPU 的 VRAM。
- 有人表示找不到“.exe”文件。
- 有人推荐使用 q4km 量化的 fuse-o1-qwq 作为推理编码模型,qwen 2.5 32b coder 作为非推理编码模型,并解释了不同模型在不同任务中的应用。
- 有人认为对于 24GB VRAM,不应尝试运行超过 Q2 的 70B,否则会非常慢,并给出了一系列推荐。
- 有人提到增加更多 RAM(128 或 256)能更轻松运行更大的模型。
- 有人讨论在 CPU 上运行模型的速度问题。
讨论中的共识是需要根据具体需求和电脑配置选择合适的本地 LLM 模型。独特的观点如根据任务的复杂程度选择不同参数的模型,丰富了讨论内容。
总体而言,这场讨论为有类似需求的用户提供了丰富的参考和思考方向。但如何在有限的硬件条件下选择最适合自己需求的本地 LLM 模型,仍然是一个需要根据个人情况权衡的问题。
感谢您的耐心阅读!来选个表情,或者留个评论吧!