原贴链接

以下是可在单个24GB GPU（无CPU卸载）上运行的模型列表，这作为本地大型语言模型（LLM）解决方案效果很好。表格展示了模型、GPU层数和上下文情况，具体模型包括Meta - Llama - 3.1 - 8B - Instruct - Q8_0.gguf、gemma - 2 - 27b - it - Q5_K_M.gguf、Mistral - Small - Instruct - 2409 - Q6_K_L.gguf、Mistral - Nemo - Instruct - 2407 - Q8_0.gguf、Qwen2.5 - 32B - Instruct - Q4_K_M.gguf、Qwen2.5 - 14B - Instruct - Q8_0.gguf、c4ai - command - r - 08 - 2024 - Q4_K_M.gguf、Yi - 1.5 - 34B - Chat - Q4_K_M.gguf、Phi - 3 - medium - 4k - instruct - Q8_0.gguf、granite - 3.0 - 8b - instruct - Q8_0.gguf、Bielik - 11B - v2.3 - Instruct.Q8_0.gguf、glm - 4 - 9b - chat - Q8_0.gguf、internlm2_5 - 20b - chat - q8_0.gguf、aya - 23 - 8B.Q8_0.gguf。在Linux（桌面端，部分显存被用户界面占用）下使用特定命令进行了测试，在Windows或使用koboldcpp或其他用户界面可能也能获得相同结果。希望有所帮助（部分上下文可能过大，只是在测试内存使用情况，可能并非每个模型都能使用20000的上下文长度，但在该设置下可运行）

讨论总结

原帖列出可在单24GB GPU上运行的模型及其相关信息，评论者们大多认可原帖信息的有用性。同时，也有人提出关于模型层数与通用智能的关系、不同硬件条件下模型的选择、新手对特定模型加载的疑问、模型运行版本的疑问以及部分模型在特定语言中的适用性等多种话题，整个讨论氛围较为理性，多是对技术相关问题的探讨。

主要观点

👍 原帖内容有用
- 支持理由：为对模型在单24GB GPU运行感兴趣的人提供参考
- 反对声音：无
🔥 好奇模型层数与通用智能的具体关联
- 正方观点：模型层数与理解语境等能力的关系值得探究
- 反方观点：无
💡 在特定需求下探讨不同大小模型（32B、70B、123B）的选择
- 解释：涉及KV缓存放置位置、量化等因素对模型选择的影响
💡 新手询问3090ti加载新模型的可能性及CPU卸载相关
- 解释：新GPU的VRAM和模型产出速度促使新手探索加载更大模型
💡 对原帖列出的特定模型版本存在疑问
- 解释：基于自己在3090上的运行情况提出质疑

金句与有趣评论

“😂 the_void_the_void: This is useful, thanks!”
- 亮点：简洁表达原帖内容的有用性
“🤔 我一直好奇模型层数与通用智能（理解语境或话语的能力而非知识）之间的具体关联。”
- 亮点：提出一个值得深入探讨的技术话题
“👀 如果每秒仅需处理1个以上单词，你会偏好哪种模型和参数选择？”
- 亮点：引导对特定需求下模型选择的思考
“🤔 总算是个新手问题，但是用3090ti并通过CPU卸载来加载英伟达新的72b模型是否可行呢？”
- 亮点：体现新手对新模型加载的疑惑
“👀 我能在3090上运行gemma - 2 - 27b - it - Q6\_K\_L。为什么你在你的列表里放Q5\_K\_M呢？”
- 亮点：根据自身运行情况对原帖模型版本提出疑问

情感分析

总体情感倾向是积极的，大部分评论者认可原帖内容。主要分歧点在于部分模型的细节方面，如模型版本的选择、模型在特定语言中的适用性等。可能的原因是不同的用户有不同的使用经验和需求，导致对原帖内容有不同的看法。

趋势与预测

新兴话题：关于如何通过分布式推理运行更大的模型可能会引发后续讨论。
潜在影响：对模型在不同硬件上的优化配置有指导意义，可能会影响到相关领域中人们对模型使用的决策。

详细内容：

标题：关于在单张 3090（或 4090）上使用的模型列表引发的热门讨论

在 Reddit 上，一则关于在单张 24GB GPU（无 CPU 卸载）上可运行的模型列表的帖子引发了热烈关注，获得了众多点赞和大量评论。帖子中详细列出了一系列模型及其相关参数，如 GPU 层数和上下文长度等。

讨论焦点与观点分析：有人表示一直对层数与通用智能之间的具体关联感到好奇。有人认为模型深度（层数）似乎比宽度更重要，比如在 gemma - 2 - 9b 中就有所体现。但也有人指出，将不同模型拼凑在一起得到的较大模型，在综合“理解”方面并不一定能胜过原生训练的同规模模型。还有人提出不能简单地认为只是增加层数，因为不同模型有着不同的架构和训练方式。有人自谦对模型层数和 LLM 工作原理的理解十分有限。也有人提到在自己的硬件设置下，若每秒只需 1 个单词以上，应如何选择模型和参数。

有用户分享了自己能够在特定条件下运行 70B 和 72B 模型的经历，同时也有人指出更大的模型速度较慢。对于能否用 3090ti 和 CPU 卸载加载新的 nvidia 72b 模型，大家也各抒己见。有人对不同量化方式的 KV 缓存进行了讨论。还有用户分享了相关的视频链接，展示了在单张 GPU 上运行多种任务的情况。

总之，关于在单张 3090 或 4090 上使用的模型的讨论丰富多样，为广大爱好者和从业者提供了宝贵的经验和见解。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#