为什么？

因为它被制造出来是为了取代GPT 3.5 Turbo，并且它比GPT 3.5 Turbo便宜60%（据泄露的微软文件显示，GPT 3.5 Turbo是一个20B密集模型）。20-60% = 8B参数（可能是MoE）。
微软可能有权使用GPT 4和4 Turbo（也许还有4o），并且可以访问权重。"我们拥有所有的知识产权"。他们甚至可能知道架构，并通过运行类似Phi的SLM实验来接近4o mini的性能。
Phi 3.5 MoE是一个16专家模型。最初的GPT 4也传闻有16个专家。查看1和2。考虑到第2点（前述声明），4o mini可能也有16个专家（微软可能知道其架构并试图模仿它）。
Phi 3.5 MoE的MMLU分数是78.9，4o mini是82。Phi 3.5主要在过滤和合成数据4.9个标记上训练。现在想象一下，如果OpenAI使用类似16个专家*8b活跃参数+在约15B+标记上过度训练，包括但不限于：手动数据+来自内部gpt-next的合成数据+新的和各种训练技术，这似乎是可能的。新架构并非不可能，也许他们使用了mamba 2或其他东西。
2024年的一大重点是缩小规模并创建更智能、更好、更快、更小的模型。
看看deepseek coder和deepseek v2，看看一个21活跃参数模型（总共232B参数）能有多好。特别是在数学和代码方面。
Sam Altman（OpenAI CEO）："“GPT-4是你们任何人都将不得不使用的最笨的模型，”。换句话说：创建一个高效、智能且廉价的模型来取代一个低效、笨拙的旧模型（3.5T）

讨论总结

Reddit上的讨论主要集中在GPT-4o mini模型的参数大小和性能上。用户们探讨了该模型可能是8B参数的理论，并讨论了硬件使用、模型性能以及与其他模型的比较。此外，评论还涉及了对Phi 3.5 MoE模型的评价和实际应用中的表现。讨论中还提到了OpenAI可能使用的新训练技术和架构，以及微软可能有权使用GPT 4和4 Turbo的情况。总体上，讨论涵盖了从模型参数到实际应用的多个方面，展示了用户对GPT-4o mini的广泛关注和深入分析。

主要观点

👍 GPT-4o mini可能是8B参数模型
- 支持理由：它是用来替代GPT 3.5 Turbo的，且成本更低。
- 反对声音：有观点认为其性能超过8B模型应有的表现。
🔥 OpenAI可能使用H100s等高级硬件
- 正方观点：高级硬件能提升模型性能。
- 反方观点：使用旧硬件运行较小模型可能更经济。
💡 Phi 3.5 MoE模型在基准测试中表现良好
- 解释：但在实际应用中可能表现不佳。
👍 GPT-4o mini可能是密集模型
- 支持理由：密集模型在并行处理请求时更有效率。
- 反对声音：MoE模型在某些情况下优化了吞吐量。
🔥 GPT-4o mini可能是多模态模型
- 正方观点：多模态特性可能增加模型的大小。
- 反方观点：目前还没有看到实际的多模态应用。

金句与有趣评论

“😂 Interesting theory.” - FrostyContribution35
- 亮点：对帖子中的理论表示兴趣。
“🤔 Personally, I hope that it is actually an 8B model because it just further indicates how much more improvement is to be had with smaller models.” - a_slay_nub
- 亮点：表达了对小型模型改进潜力的期待。
“👀 phi-3.5-MoE is really crushing it in reasoning benchmarks hitting WAY above its weight but overall in general with language, math, coding, etc its actually pretty shit” - pigeon57434
- 亮点：指出了Phi 3.5 MoE模型在特定领域的优势和整体表现的不足。

情感分析

讨论的总体情感倾向是好奇和怀疑并存。用户们对GPT-4o mini的参数大小和性能表现出了浓厚的兴趣，同时也对其可能的技术实现和实际应用效果持保留态度。主要分歧点在于模型是否真的如推测的那样是8B参数，以及其在实际应用中的表现是否能达到预期。

趋势与预测

新兴话题：多模态模型的实际应用和性能优化。
潜在影响：GPT-4o mini的性能和成本效益可能推动更多高性价比模型的开发，改变AI模型市场的竞争格局。

详细内容：

标题：关于 GPT 4o mini 参数规模的热门讨论

在 Reddit 上，一篇关于“为何 GPT 4o mini 可能大约有 8B 活跃参数”的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。帖子主要从多个方面阐述了 GPT 4o mini 可能具有约 8B 活跃参数的原因，包括与其他模型的对比、性能表现、成本等因素。

讨论焦点与观点分析如下：有人认为 GPT 4o mini 速度慢，不太可能是 8B 模型，可能是硬件或模型架构导致。例如，有用户提到：“OpenAI 可能使用 H100 运行 GPT 4o，用旧 GPU 运行较小模型。” 也有人认为 GPT 4o mini 可能是更接近 Gemma 27B 的规模，因为其速度快且可能经过量化。关于 GPT 4o mini 是密集模型还是稀疏模型存在争议。有用户表示：“GPT4o mini 可能是密集模型，因为可以微调，可能使用 LORA。为 MOE 模型制作 LORA 非常棘手，所以 GPT4o mini 不太可能是 MOE。”但也有人反驳称：“为 MOE 训练 LORA 是完全可能的，可针对每个专家训练较小的 LORA。” 有人猜测 GPT 4o mini 可能有多个 8B 模型，并通过预处理决定使用哪个来处理提示。还有用户认为 GPT 4o mini 可能是比 70B 模型略小的规模，或者是通过深度优化和定制硬件实现性能。对于 GPT 4o mini 是否为全模态也有不同看法，有人认为这只是营销炒作，目前尚未看到实际成果。

讨论中的共识在于大家都对 GPT 4o mini 的参数规模和性能表现充满好奇，并从不同角度进行分析和推测。一些独特的观点，如关于模型架构和训练方式的讨论，丰富了整个话题。

总的来说，关于 GPT 4o mini 的参数规模仍无定论，这场讨论充分展现了大家对于先进技术的关注和探索。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#