我们提出专家链(CoE),它通过在混合专家(MoE)模型内的层内专家之间实现顺序通信,从根本上改变稀疏大型语言模型(LLM)的处理方式。混合专家(MoE)模型在专家之间并行独立地处理信息,并且有很高的内存需求。专家链(CoE)引入了一种迭代机制,使专家能够通过处理其他专家输出之上的标记来“通信”。实验表明,专家链(CoE)在多个方面显著优于以前的混合专家(MoE)模型:性能方面,2倍迭代的专家链(CoE)将数学验证损失从1.20降低到1.12;缩放方面,2倍迭代可达到3倍专家选择的性能,优于层缩放;效率方面,在同等性能下内存使用降低17.6%;灵活性方面,专家组合增加823倍,提高了利用率、通信和专业化程度。https://github.com/ZihanWang314/coe
讨论总结
帖子主题是关于Chain - of - Experts (CoE)技术的提出及其在多个方面的优势。评论呈现出多样化,一部分以幽默调侃的方式对待与专家相关的概念,创造出许多趣味化名称;一部分提出对开源公司是否关注科学新闻并据此进行训练等疑问,还有人从自身使用角度出发,表示在该技术能在特定平台运行之前,虽觉得技术很酷但觉得没实际意义。整体氛围比较轻松且富有探索性。
主要观点
- 👍 以幽默方式调侃专家相关概念的发展
- 支持理由:以幽默诙谐的语言创造各种专家相关概念的趣味名称,如“专家列车”等,博人一笑。
- 反对声音:无。
- 🔥 质疑开源公司是否关注科学新闻并进行相关训练
- 正方观点:提出开源公司是否关注新的科学新闻并花费大量时间进行训练的疑问,这是对行业实际操作情况的合理探究。
- 反方观点:无。
- 💡 从自身使用场景出发看待技术价值
- 解释:如果技术不能在自己使用的平台(连接到sillytavern的koboldcpp)运行,就觉得无实际意义,但也认可技术本身很酷。
金句与有趣评论
- “😂 alright guys, who is ready for tree/atom/draft of experts by the end of the week lol”
- 亮点:用幽默的方式调侃即将出现的专家相关概念,充满诙谐感。
- “🤔 I wonder: Are there people who work in the companies that release open source and read all these scientific news and say "Hey, that is a cool idea, let’s spend several houndreds hours of training on that new method"?”
- 亮点:提出对开源公司是否关注科学新闻的疑问,反映了很多人内心的疑惑。
- “👀 所有这些对我这个普通人来说都是没有意义的,直到它能在连接到我的sillytavern的koboldcpp上运行,让我们行动起来吧,伙计们。”
- 亮点:从自身使用场景出发表达对技术的看法,很接地气。
情感分析
总体情感倾向比较积极和轻松。主要分歧点较少,大家基本在各自的话题上进行讨论。可能的原因是帖子主题相对专业,大家更多是从自身感兴趣的角度发表看法,没有太多冲突性的观点。
趋势与预测
- 新兴话题:关于开源公司对新科学成果的应用以及从使用者角度出发的技术实用性探讨可能会引发后续讨论。
- 潜在影响:如果开源公司更多关注科学新闻并应用成果,可能会加速相关技术领域的发展;从使用者角度对技术实用性的关注可能促使技术开发者更注重实际应用场景的优化。
详细内容:
标题:Chain-of-Experts:解锁 MoEs 通信力量引发的热烈讨论
最近,Reddit 上有一篇关于“Chain-of-Experts (CoE)”的帖子备受关注。该帖提出了 CoE 这一概念,它从根本上改变了稀疏大型语言模型(LLM)中 Mixture-of-Experts (MoE) 模型的处理方式,通过在层内专家之间实现顺序通信来运作。此帖收获了众多点赞和大量评论。
帖子中提到,MoE 模型在专家之间独立并行地处理信息,并且内存需求较高,而 CoE 引入了迭代机制,使专家能够基于其他专家的输出处理令牌。实验表明,CoE 在多个方面显著优于之前的 MoE 模型,比如性能方面,CoE 经过 2 倍迭代将数学验证损失从 1.20 降低到 1.12;在扩展方面,2 倍迭代能匹配 3 倍专家选择的性能,优于层扩展;效率方面,在性能相当的情况下内存使用降低 17.6%;灵活性方面,专家组合增加 823 倍,提高了利用率、通信和专业化。相关链接:https://github.com/ZihanWang314/coe
讨论焦点与观点分析: 有人打趣说,这周结束前谁准备好专家的树/原子/草案,这充满了趣味。 有人认为可能会出现“COE”专家委员会,还担心会一直使用令牌直到项目资金耗尽。 有人提到了“Circle of Experts”。 有人表示正在为“atom - tree - draft - of - expert - thoughts - GRPO - 7B - GGUF”做准备。 有人分享了相关的链接:http://reddit.com/r/LocalLLaMA/comments/1j29hm0/new_atom_of_thoughts_looks_promising_for_helping/ 。 有人准备玩专家训练的文字游戏,称“让我们训练专家列车!” 有人认为即将有原子化专家委员会到来。 有人提到“Paxos 2: Federated Global Consensus of Experts with Dynamic Bias Prediction and Collision Avoidance/Detection”。
有人好奇是否有公司员工会阅读这些科学新闻并将新方法投入训练,还关心从论文发布到模型发布的延迟。 有人举例说至少 DeepSeek 似乎会采用他人在论文中发现的一些巧妙想法。 有人提到这是一个实践社区,还分享了关于果蝇大脑也有专家链和激活循环的链接:https://arstechnica.com/science/2025/03/ai-versus-the-brain-and-the-race-for-general-intelligence/ 。 有人表示在相关技术应用到 koboldcpp 并连接到自己的 sillytavern 之前都不太关心,但也承认这听起来很酷。
这场讨论中,大家对于 CoE 这一新技术充满了期待和思考,也有对其实际应用和发展的担忧和疑虑。而不同观点的交流和碰撞,也为这一话题的探讨增添了丰富的色彩。
感谢您的耐心阅读!来选个表情,或者留个评论吧!