基于API定价、大型语言模型(LLM)整体进展和个人观点的预测:
- GPT - 4o Mini:大约66亿 - 80亿有效混合专家(MoE)参数,可能类似于微软论文(https://arxiv.org/pdf/2409.12136)中描述的Grin MoE架构。理由如下:
- Qwen 14B似乎能提供接近GPT - 4o Mini的性能。
- Grin MoE架构旨在实现140亿密集级别的性能(如果训练得当,性能类似于Qwen 14B)。
- 微软与OpenAI的紧密合作可能使微软深入了解OpenAI的模型结构,因此他们开发类似的MoE架构来竞争(Grin MoE)是合理的。
- Gemini flash 8B:80亿密集参数,多模态。根据livebench,比qwen 2.5 7B稍好。
- Gemini Flash(5月):320亿密集参数。
- Gemini Flash(9月):160亿密集参数(似乎优于Qwen 14B,推理能力提高,与5月版本相比,回忆事实信息的能力较弱,两者都未使用搜索,这可能表明整体模型规模小于5月版本)。成本是flash 8b的两倍。在DeepMind的论文中确认Gemini flash 5月版本是密集型的。
- Gemini Pro(9月):320亿有效混合专家(MoE)参数,在DeepMind的论文中确认Gemini pro 5月版本是混合专家(MoE)架构。
- GPT - 4 Original(3月):2800亿有效参数,总计1.8万亿(基于泄露的细节)。
- GPT - 4 Turbo:约930 - 940亿有效(仅文本)参数。
- GPT - 4o(5月):约470亿有效(仅文本)参数,可能类似于[混元大型](https://huggingface.co/tencent/Tencent - Hunyuan - Large)架构。
- GPT - 4o(8月/最新):约280 - 320亿有效(仅文本)参数,可能类似于[Yi Lightning](https://www.linkedin.com/posts/kaifulee_01ais - new - model - yi - lightning - is - now - 6 - activity - 7252115411469492224 - PArf)、[混元Turbo](https://huggingface.co/tencent/Tencent - Hunyuan - Large/discussions/9)或Stepfun Step - 2架构(总计约1万亿+参数,有效参数相对较低)。8月的4o价格是5月4o价格的3/5,这表明有效参数减少且效率提高。 你怎么看?
讨论总结
原帖作者对多个闭源模型如GPT - 4系列、Gemini系列等的规模进行了推测。评论者们各抒己见,部分人同意原帖中的部分猜测,也有人提出不同观点,如认为新模型未改变基础架构、纠正原帖中GPT - 4 Original的参数等。还有人从新的角度如模型速度估算提供补充思路,也有部分评论是简单互动或提出原帖未涉及模型(如Claude模型)的疑问,整体讨论围绕闭源模型规模展开,氛围较为理性专业。
主要观点
- 👍 同意原帖部分猜测但质疑新模型改变基础架构
- 支持理由:新模型从头训练成本高,所以基础架构可能不变
- 反对声音:无
- 🔥 指出Gemini Flash的8b参数包含视觉模型,实际文本参数更小
- 正方观点:8b参数计数应包含视觉模型,实际文本参数约为7b,性能却令人印象深刻
- 反方观点:无
- 💡 原帖模型规模推测低于预期
- 理由:未明确提及,只是个人感觉低于预期
- 反对声音:无
- 💡 Qwen 2.5系列的表现使得当前模型活跃参数可能更小
- 解释:从Qwen 2.5系列的性能与规模关系得出
- 反对声音:无
- 💡 可以利用模型的每秒处理令牌数来估算速度
- 支持理由:结合硬件相关新闻和知识有助于这种估算
- 反对声音:无
金句与有趣评论
- “😂 Agree with many of your guesses, but I believe neither new gemini flash nor new gpt - 4o have changed their base model architecture from their original version.”
- 亮点:对原帖部分内容表示赞同的同时提出自己的质疑,是一种常见的理性讨论态度。
- “🤔 isr_431:Please correct me if I’m wrong, but the 8b parameter count of Gemini Flash would be including the vision model. This would bring the ’true’ parameter size to around 7b, which is very impressive for its performance.”
- 亮点:对Gemini Flash的参数构成提出新的看法,并且对其在较小参数下的性能表示赞赏。
- “👀 原评论者:Lower than i expected tbh. What are your estimates on the Claude models?”
- 亮点:直接表达对原帖推测规模的看法,并提出关于Claude模型规模的疑问。
- “😎 GPT - 4 original was 1.3 total and 221 active. 16 experts total, 2 active.”
- 亮点:提供了GPT - 4 Original准确的参数信息,纠正原帖错误。
- “👍 LoadingALIAS:This is a great post.”
- 亮点:简洁地表达了对原帖的认可。
情感分析
总体情感倾向为中性,主要分歧点在于原帖的模型规模推测是否合理准确。可能的原因是不同评论者有不同的知识背景、研究经验以及对模型的理解程度,并且不同模型的信息不完全透明,导致在模型规模推测上存在多种观点。
趋势与预测
- 新兴话题:对Claude模型规模的探讨可能会引发后续讨论。
- 潜在影响:对人工智能领域内模型研究方向和人们对模型规模与性能关系的理解可能产生一定影响,有助于更准确地把握模型构建和优化的方向。
详细内容:
标题:关于封闭源模型规模的热门探讨
近期,Reddit 上一个关于封闭源模型规模的帖子引发了广泛关注。该帖基于 API 定价、整体语言模型的进展以及个人观点,对多种模型的参数规模进行了预测和分析,获得了众多用户的热烈讨论。截至目前,点赞数众多,评论区更是热闹非凡。
讨论的主要方向集中在不同模型的参数规模估算以及性能表现等方面。比如,有人认为新的 Gemini Flash 和新的 GPT-4o 可能并未改变其基础模型架构,也有人提到了混合模型的可能性以及训练成本和效率的问题。
在讨论中,有人分享道:“同意你的许多猜测,但我认为新的 Gemini Flash 和新的 GPT-4o 都没有从原始版本改变其基础模型架构。从头训练成本太高,他们不应该这么频繁地做。Gemini Flash 可能是 20 - 30B 密集型。GPT-4 系列的规模可能已经经历了大约两次 50%的缩减,这意味着 GPT-4T 约为 1T 且有 100B 活跃参数,GPT-4o 约为 500B 且有 50B 活跃参数,他们将其增加 10 倍以打造约 5T 的 Orion/GPT-4.5/GPT-5,这与之前的报道相符。当然,这些数字只是我个人的猜测。对于中国模型,我想指出,基于其极低的价格(甚至低于 DeepSeek - V2)和在复杂推理中的不佳表现,Yi - Lightning 可能规模较小。另一方面,Step - 2 相当昂贵(据我回忆,输入约为 6 美元/M,输出约为 20 美元/M),所以可能有更多的活跃参数。”
还有用户表示:“在 Y Combinator 播客中,Sonnet 和 4o 被认为有 500B 参数,我相信他们,因为他们肯定知道很多内部消息。这里是播客的链接:https://youtu.be/lbJilIQhHko?feature = shared ”
同时,也有人指出:“OpenAI 这样的大公司需要效率,因为他们服务的用户众多,所以资源利用很重要。他们也不会从头训练模型——他们可以修剪、重新训练部分、添加/移除专家、从旧模型训练,总的来说就是各种调整。GPT - 4 Turbo 不仅比 GPT - 4 更好——它更快、更小。有泄露消息表明 GPT - 4 效率不高(每次使用 280B 不是能维持的),所以他们可能缩小它以更好地服务用户。至于 GPT - 4 Turbo 到 4o,4o 现在是多模态的,这听起来像是一个新的开始,但它可能更小、更快、更高效。到几个月后我们看到最新的 4o 更新时,它的规模进一步缩小是有道理的。而且新的 4o august 更便宜,这加强了我的观点。”
讨论中的共识在于大家普遍关注模型的规模、效率以及性能之间的关系。特别有见地的观点是关于不同模型架构和训练方式对模型性能和参数规模的影响。
通过这次热烈的讨论,我们可以更深入地了解封闭源模型领域的发展动态和各种可能性,也期待未来有更多准确和详细的信息来进一步揭示这些模型的奥秘。
感谢您的耐心阅读!来选个表情,或者留个评论吧!