原贴链接

我一直在思考，如果我们采取一种与盲目扩大模型规模略有不同的方法，人工智能系统可能会是什么样子。与其构建一个庞大的神经网络，不如我们构建一个由数百甚至数千个小型专业化专家模型组成的系统，这些模型能够相互通信？

这个系统看起来有点像一个递归神经网络，其中每个节点都是一个不同的模型，边代表它们的交互。以下是分解：

工作原理

任务路由： 一个小型分类型模型（路由器）识别出处理传入任务的最相关的专家。对于复杂任务，它会升级到智能中央推理引擎。
推理引擎： 正如你所知，有时需要用户和模型之间来回交流才能获得所需的输出，推理引擎在某种程度上就像用户的代理，它在这个来回交流中扮演用户角色，以从专家那里获得所需的输出。这个引擎可以处理抽象推理，并协调各种专家模型的努力。它依赖于专家模型或数据库获取特定信息，因此我认为它比当前最先进的模型更小且更智能。
专家模型： 每个专家模型都专门从事特定领域；数学、语言、物理等。这些专家还可以有子专家（例如，数学专家可以包括几何、微积分等专家）。
（动作模型）： 后续迭代可以包含用于控制机器人或与互联网交互的模型。
（感知模型）： 未来的版本可以包含一个感知模型，以增强动作模型和整个系统的性能。

优势

分布式训练： 训练整个系统变得更加可管理，因为每个底层模型可以独立训练，允许完全分布式训练。
高效推理： 在推理过程中，系统仅利用与任务最相关的模型，确保不会使用超过必要的计算资源。
自适应计算： 对于更具挑战性的任务，系统将能够自动动态增加其使用的计算量，确保最佳性能而不浪费资源。
有趣的动态： 模型之间的交互可以导致迷人的涌现行为。
可解释性： 通过将任务分解并分配给专业化模型，系统变得更少黑箱。你可以观察模型之间的交互，更好地理解它是如何得出解决方案的。

挑战：

训练数据： 为这些专家模型创建正确的训练数据可能很棘手。数据需要包含系统中预期的信息流，例如模型何时以及应该询问另一个模型什么，如何回应，如何与数据库交互，…

我绝对不是人工智能专家，所以我很想听听你的想法。这种方法能否使人工智能系统更高效和可解释，还是训练数据问题太大而无法克服？

讨论总结

本次讨论主要围绕作者提出的多层次神经网络系统展开，探讨了这种模块化AI架构的优势、挑战及未来发展方向。讨论中涉及的主要话题包括模块化AI、专家模型、中央推理引擎、训练数据、计算资源和成本问题等。参与者们对这种新型AI系统的潜力表示认可，同时也指出了其实施过程中可能遇到的困难，如训练数据的创建和计算资源的限制。讨论中还提到了一些相关的研究方向和文献，鼓励作者进一步研究并撰写论文。总体而言，讨论氛围积极，参与者们对这种创新性的AI架构表示了浓厚的兴趣。

主要观点

👍 模块化AI框架是未来的发展方向
- 支持理由：通过多训练前线策略，训练单个模块执行简单任务并关注全局上下文，逐步发展出适应性强、多专家的AI。
- 反对声音：实际实施的困难在于计算资源的限制和成本问题。
🔥 中央推理引擎的重要性
- 正方观点：中央推理引擎负责协调各个模型的交互，确保系统高效地解决问题。
- 反方观点：尚未看到这种架构的成功实现案例。
💡 训练数据的重要性
- 解释：训练数据是实现多层神经网络系统的关键挑战之一，需要包含系统中预期的信息流。
💡 计算资源和成本问题
- 解释：当前的计算资源和成本限制了实验的频率和深度，如果能够降低实验成本并提高实验效率，将会有更多的人参与到这类系统的开发中。
💡 工具调用与大型语言模型
- 解释：这种架构类似于工具调用，LLMs作为工具之一，但尚未看到成功的实现案例。

金句与有趣评论

“😂 The potential for a decentralized system of experts is massive, but I’ve been grappling with implementation challenges, particularly around how to get these modules to truly ‘talk’ to each other.”
- 亮点：作者对模块化AI系统的潜力表示乐观，但也指出了实施中的挑战。
“🤔 You’re definitely on the right track. Please research past work that matches your ideas, and write up a paper, moving the field forward.”
- 亮点：评论者鼓励作者进一步研究并撰写论文，推动该领域的研究进展。
“👀 Almost like Personality Cores from the Portal universe.”
- 亮点：评论者通过比喻表达了对这种新型AI系统架构的认可和兴趣。
“👀 The challenge really is, look at the number of arrows on your schema. Looks overwhelming right? That’s the issue - not enough tokens per second to experiment quickly on all that needs to be tried.”
- 亮点：评论者指出了计算资源和成本问题对实验效率的限制。
“👀 This is how I imagine information might flow through a system like this.”
- 亮点：评论者详细描述了多层次神经网络系统的信息流动过程。

情感分析

讨论的总体情感倾向积极，参与者们对这种新型AI系统的潜力表示认可，并对其实施中的挑战进行了深入探讨。主要分歧点在于计算资源和成本问题，以及训练数据的创建。这些挑战被认为是实现多层次神经网络系统的关键障碍。

趋势与预测

新兴话题：模块化AI系统的进一步研究和实现，特别是如何解决计算资源和成本问题。
潜在影响：如果这种多层次神经网络系统能够成功实现，将对AI领域产生深远影响，提高系统的效率和可解释性，推动AI技术的进一步发展。

详细内容：

标题：关于多级别神经网络的热门讨论

在 Reddit 上，一篇关于多级别神经网络的帖子引起了广泛关注。帖子中提出，如果不盲目扩大模型规模，而是构建一个由成百上千个能够相互通信的小型专业专家模型组成的系统，AI 系统或许会有不同的表现。该帖还附上了一张复杂图表，对系统的构成和运行进行了初步展示，获得了众多点赞和大量评论。

讨论的焦点主要集中在这种系统的可行性和面临的挑战。有人认为这是走向模块化 AI 框架的正确道路，比如提到可以通过多训练阵线，先训练单个模块执行简单任务，再引入聚合器协调各模块。但也有人提出疑问，比如个体模型是否需要全局背景，不同模块的分词器是否会成为问题。

有人提到 Jensen 在 Nvidia NIM 的相关论述，还有人推荐了《GraphReader》这一研究论文。

对于该系统，有人认为其就像《传送门》宇宙中的个性核心。也有人指出，尽管很多人有类似想法，但由于每秒的令牌数量限制了实验速度，导致大多数人没有尝试，不过也有人认为这并非不可克服的挑战。

还有人觉得这只是工具调用，利用 LLM 作为其中的工具，并且已有相关产品在运用类似理念，但对于更通用的智能，包含所有专家领域的大型模型可能更好。

总体而言，关于这种多级别神经网络的设想引发了热烈讨论，既有对其潜力的期待，也有对实际操作中诸多困难的担忧。未来这种创新思路能否真正推动 AI 系统的发展，还有待进一步观察和实践。

工作原理#

优势#

挑战：#

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#