就在几个月前，MOE周围有很多炒作，有人预测这是llms的未来，但今天我没有看到新的MOE模型（除了GRIN-MoE），也没有看到大多数流行模型的MOE微调（现在也有更小的版本！）。那么发生了什么？MOE不是一个好主意吗？

详细内容：

《关于 MOE 模型的热门讨论：现状、争议与未来》

不久前，关于 MOE 模型的讨论在网络上掀起了一阵热潮，大家都对其寄予厚望，认为这将是语言模型的未来。然而，如今我们却很少看到新的 MOE 模型，也鲜见对主流模型的 MOE 微调。比如，在 Reddit 上的这个帖子就引发了广泛关注，获得了大量的点赞和众多的评论。

帖子的核心问题是：曾经备受瞩目的 MOE 模型如今怎么了？是其理念不够好，还是存在其他原因？

在讨论中，观点纷呈。有人认为，MOE 模型增加了复杂度，同等规模的密集模型表现同样出色，而且 MOE 模型仍需将所有参数载入内存，训练难度大，不易收敛。但也有人指出，MOE 模型在训练和推理速度上有显著提升。

有用户分享，在过去看到过一篇文章，表明规模较小的模型在有限词汇量下能有更好表现。还有用户提到，在遥远的过去，曾看到文章展示较小模型在有限词汇量下能表现更好，比如在英语中，大量交流仅使用少量词汇集。有人设想创建一个 MOE 模型，将常用词汇集中在一个专家模型中，将大量词汇和其他语言放入其他专家模型中。

有人指出，MOE 模型在质量计算和内存使用方面存在有趣的权衡。也有人表示，在实际使用中，能明显感受到 MOE 模型选择层改进推理质量带来的优势，但自己仍倾向使用中型密集模型。

还有人认为，MOE 模型在某些特定情况下表现出色，比如在拥有大量内存的笔记本电脑上，能以不错的速度运行。但也有人认为，MOE 模型在某些方面不如密集模型，比如智能水平和推理逻辑任务的表现。

关于 MOE 模型的未来，有人认为可能会转向代理方向，也有人认为其在大公司中的应用具有一定意义，因为能在保持低活动参数的同时保证性能。但同时，也有人觉得 MOE 模型训练困难，难以微调，维护和采用作为基础架构也存在困难。

总之，关于 MOE 模型的讨论充满了多样性和复杂性，其未来发展仍有待进一步观察和探索。

详细内容：#

详细内容：