原贴链接

现在有很多开源的大语言模型，我非常感谢做这些的科技公司。但有趣的是，在中等规模范围似乎存在明显差距，特别是在80亿到700亿参数之间（例如LLaMa 3）。虽然80亿参数的模型是个不错的起点，但还不够好。而且许多消费级显卡可以处理更多。如果Meta（或者其他公司）想要更广泛的用户基础，我认为他们真的应该考虑开发这些中等规模的大语言模型（也许是3.3版本，希望如此？）。另外，对于其他计划开源其大语言模型的公司：也许针对16 - 24GB显存优化的更多样化的模型可以让更多用户受益。这可以为做各种实验的个人消费者开辟许多可能性。我目前在这个领域看到的少数模型有140亿和320亿变体的Qwen2.5、270亿的Gemma2、150亿的Starcoder和140亿的Phi3。仅此而已。看看开源大语言模型的格局如何演变来填补这个明显的差距将会很有趣。

讨论总结

原帖提到在开源LLM中，8B到70B参数之间存在模型规模的明显差距，希望有更多适合消费级GPU的中间规模模型。评论中一部分人认为现有的模型已经足够多且部分已达SOTA水平，像Qwen等模型及其变体已经涵盖了中等规模；另一部分人则从硬件配置、企业开发目的等角度阐述了这个问题，还有对不同规模模型实用性的不同看法，如低于27B的模型对多数情况没用或小模型适用于简单日常任务等。

主要观点

👍 8B到70B之间存在足够的模型选项
- 支持理由：列举了Mistral的12B和22B模型适合特定显存的GPU，还有Gemma 9B、LLaMA 3 15B等模型，NVIDIA的51B模型填补了特定区间差距。
- 反对声音：原帖认为8B模型不够好，需要更多中间规模模型。
🔥 公司开发LLM多为自身研究目的而非扩大用户群体
- 正方观点：公司不在乎普通用户能否在特定显存显卡上运行模型，多数模型还需量化才能适配。
- 反方观点：没有明确反对观点，但有人认为如果有销售模型的市场可能会有更多不同大小模型。
💡 觉得没有合适模型的人可能未充分利用现有模型
- 解释：存在总是追求下一个更好模型的现象，花费过多时间更换模型而非有效利用模型。
💡 不同的GPU配置在处理模型时有不同的效果
- 解释：在显存超过48GB时普通电脑无法满足需求，可以通过特定硬件方式解决显存需求大的问题。
💡 特定大小模型缺失会影响开源LLM声誉
- 解释：如20B - 35B模型的缺失可能影响开源LLM声誉。

金句与有趣评论

“😂 Firstly, there are more, just somewhat obscure - solar pro preview was a 22b model that released recently iirc.”
- 亮点：补充了不太知名的模型，对原帖认为模型数量不足提出反例。
“🤔 I think there is a very addictive "high" to chase where you’re always waiting for the "next best" model because you think that model will be "the one", but in my experience, you spend a lot more time model hopping than actually using the model for something useful.”
- 亮点：指出人们总是追求新模型而未充分利用现有模型的现象。
“👀 And this may be a unpopular thing to say, but Nvidia is not offering higher VRAM cards because they want you to buy the bigger card.”
- 亮点：提出Nvidia的商业策略可能是不提供高VRAM显卡的原因。
“🤔 Idk about most people but don’t find below 27b to be useful for most stuff.”
- 亮点：表达对小模型实用性的怀疑态度。
“👀 GPT2 was only 1.5 parameters. And it was a big deal. And a 8b parameter model blows it out of the water.”
- 亮点：通过GPT2的例子强调8B参数模型的价值。

情感分析

总体情感倾向比较中性，主要分歧点在于是否需要更多8B - 70B之间的模型。支持不需要更多模型的人认为现有模型已足够或者问题出在其他方面如硬件、企业目的等；支持需要更多模型的人则觉得现有的8B模型不够好，中间规模模型存在明显差距。可能的原因是大家从不同的角度看待这个问题，如使用者的需求、硬件条件、企业的商业考量等。

趋势与预测

新兴话题：对不同规模模型实用性的探讨可能会引发后续关于如何更好地利用现有模型的讨论。
潜在影响：如果企业更多地考虑扩大用户群体，可能会影响开源LLM的发展方向，例如是否会开发更多适合消费级GPU的模型，进而影响普通消费者对大语言模型的使用体验和普及程度。

详细内容：

标题：寻找适配消费级 GPU 的 LLM 尺寸为何如此艰难？

在 Reddit 上，有一篇关于寻找适配消费级 GPU 的 LLM 尺寸的热门讨论引起了众多关注。原帖指出，如今开源 LLM 众多，但在 8B 到 70B 参数的中等规模范围存在明显差距，比如 LLaMa 3。8B 模型虽有起点意义，但不够出色，许多消费级显卡能承受更多。作者认为，若 Meta 等公司想扩大用户群，应考虑开发这些中等规模的 LLM，还呼吁其他公司优化 16 到 24GB VRAM 的更多模型。该帖子获得了大量点赞和众多评论，引发了对 LLM 尺寸与消费级 GPU 适配问题的广泛讨论。

讨论焦点与观点分析：有人表示，近期有 22B 模型发布，但不太为人所知。同时也有人指出，Qwen 14b/32b 及其变体性能处于 SOTA 水平，质疑为何还需要更多。有人提到超过 2 块 GPU 时存在实际差距，一旦超过 48GB 的 VRAM，普通 PC 就难以应对。但也有人成功将 96GB 的 VRAM 连接到迷你电脑，用于运行 Qwen 2.5 72B 效果良好。还有人认为使用迷你电脑具有模块化、便携性等诸多优点。

有人认为，在 20B 到 35B 之间的模型明显不足，这可能成为许多潜在用户寻找商业 LLM 替代品的主要障碍。也有人认为，目前没有公司真正在推动 AI 民主化，20+B 模型对于大多数人来说太大，免费的 ChatGPT 对很多人来说更具吸引力。

有人觉得 8 到 70 之间已有足够多的选择，如 Mistral 的 12B 和 22B 模型等。还有人好奇 Mistral 22B 和 Qwen2.5 32B 在日常任务和编码方面的区别。

有人提出，感觉没有适配模型的人可能未充分利用已有的模型。也有人认为 Nvidia 不提供更高 VRAM 卡是为了让用户购买更贵的产品，有人期待未来出现可升级 VRAM 的模块化 GPU。

有人认为小型模型适用于指令任务，也有人觉得小型模型对创意写作或角色扮演有用，但有人表示不信任小型模型处理重要事务。

总之，对于 LLM 尺寸与消费级 GPU 的适配问题，大家观点各异，从不同角度进行了深入探讨，反映了这一领域的复杂性和多样性。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#