构建通用人工智能(AGI)之二：解决强化学习问题的思路

原贴链接

嗨。这是帖子“我想我知道如何构建通用人工智能(AGI)了，希望得到一些反馈”的第二部分（https://new.reddit.com/r/LocalLLaMA/comments/1glezjy/i_think_i_figured_out_how_to_build_agi_want_to/）。在那篇帖子中，我基本上指出当前大型语言模型(LLM)的问题在于它们缺乏与环境的持续交互。听起来强化学习（一种处理实时环境中的动作的机器学习范式）似乎很适合解决这个问题，对吧？然而，强化学习领域已经停滞很长时间了，并且被深度学习所掩盖。一位强化学习的先驱研究者甚至认为这个领域已经停滞了20年（https://www.youtube.com/watch?v=OmpzeWym7HQ）。为什么会停滞呢？首先，什么是强化学习？（https://en.wikipedia.org/wiki/Q - learning，https://en.wikipedia.org/wiki/Reinforcement_learning）基本上，有一个智能体。它存在于某个环境中，无论是现实世界还是模拟环境。它可以做很多动作，比如移动肢体。并且它会根据是否更接近完成环境中的任务而得到奖励或惩罚。基于这些奖励/惩罚，智能体学会在哪些情况下哪些动作是有益的、会得到奖励，然后就会去做这些动作。这就是它完成给定任务的方式。Q - learning基本上使用一个巨大的查找表，其中环境状态与特定动作相关联。智能体确定在哪些特定状态下，某些动作是有益还是有害的。我基本上描述了一个简单的Q - learning算法（https://llminfo.image.fangd123.cn/images/z5p4ce0nqrzd1.png!/format/webp）。强化学习中一个尚未解决的大问题是信用分配问题。信用分配问题是强化学习(RL)中的一个挑战，涉及确定哪些动作对奖励或惩罚负责。例如：如果某些动作在很长时间延迟后才给出奖励会怎样？当后来给出奖励时，不清楚哪个动作应该被记为这个奖励的功劳。这就导致奖励分配不正确。我在想这个问题如何能被解决。然后我想起了液态神经网络（https://arxiv.org/abs/2006.04439，https://arxiv.org/abs/2106.13898）。液态神经网络比传统神经网络能更好地处理因果关系。它们能发现因果之间的明确关系，这是传统神经网络难以做到的（https://youtu.be/iRXZ5vQ6mGE?si = JZRYuGyz7gD6RtON&t = 254，在这里，4:14处，液态神经网络的发明者说这个神经网络能捕捉任务的因果结构）。所以我想，如果液态神经网络擅长找出任意时间间隔的两个事件之间的真正因果关系，那么我们难道不能就用液态神经网络来找出是哪个动作导致了哪个奖励，然后将功劳分配给正确的动作吗？让我解释一下。我们可以简单地让一个液态神经网络观察强化学习智能体的模型以及它得到的奖励。随着时间的推移，它将找出到底哪些动作实际对哪些奖励有贡献。然后我们可以利用这个识别结果，将功劳分配给正确的动作。这样就解决了强化学习的信用分配问题。有人可能会想，如果这么容易，为什么之前没人想到呢？一方面，液态神经网络是最近的发明，研究论文在2020年才发布。在液态神经网络之前，其他神经网络不擅长学习事件之间的真正因果关系。所以可能之前没有人想到以这种方式将液态神经网络应用于强化学习。这让我思考，我们还能从神经网络中吸取哪些经验来解决强化学习的其他问题呢？这让我意识到——强化学习和神经网络实际上是一回事。为什么呢？还记得之前将状态与动作关联的Q - learning表吗？如果你将几个这样的表层层叠加，将前一层给出的动作作为下一层的状态，你基本上就得到了一个传统的前馈神经网络。并且一个单一的Q - learning表等同于一个单层神经网络。在神经网络中，它得到的输入等同于强化学习中的状态，它给出的输出等同于强化学习中的动作。另一个例子：SMIRL是一种最小化惊喜的强化学习智能体（https://arxiv.org/abs/1912.05510）。那些神经科学研究人员发现，如果将单个神经元建模为最小化它们的惊喜，它们就会收敛到实际神经元的工作、行为和学习方式（https://www.researchgate.net/publication/373262499_Sequence_anticipation_and_spike - timing - dependent_plasticity_emerge_from_a_predictive_learning_rule）。你可以创建一个SMIRL智能体来模拟一个神经元。然后将很多个连接在一起。它就会像一个神经网络一样工作。（好吧，它们并非完全相同。但它们背后的核心原理实际上是相同的。它们是类似等效的）。所以既然我们知道它们从根本上基本是相同的东西。我们就可以将用于神经网络的方法应用于强化学习，也可以将用于强化学习的方法应用于神经网络。我们可以用神经网络中找到的解决方案来弥补强化学习的许多缺陷和问题。反之亦然。我所举的液态神经网络如何解决强化学习中的信用分配问题的例子，就是这样一个解决方案的具体例子。所以我认为，找出强化学习其他大问题的解决方案不会很难。这件事的好处在于，这很容易证明或证伪。创建一个概念验证来看看液态神经网络是否能解决信用分配问题会很容易。如果可以，我们在强化学习方面就有了一个重大突破。

讨论总结

原帖围绕强化学习展开，提出用液态神经网络解决强化学习中的信用分配问题以及强化学习和神经网络可相互转换等观点。评论者们的观点大多为负面，包括对原帖缺乏数学依据、没有证据支持、对基本概念存在误解等方面的质疑，还有人以诙谐调侃的方式表达对原帖内容的难以理解。不过，也有少量评论认可原帖作者的研究态度或热情等。

主要观点

👍 原帖的计划写得很好
- 支持理由：Dylanissoepic认为这是他见过写得很好的描述性计划。
- 反对声音：无。
🔥 原帖缺乏数学依据、未深入探讨机器学习基本理论且无证明或证据
- 正方观点：原帖像是仅依据论文结论就得出自己的结论，机器学习是基于数学的学科，原帖却未涉及数学知识。
- 反方观点：无。
💡 强化学习和神经网络不同
- 解释：多个评论者指出强化学习是一类学习算法，神经网络是被学习的对象，二者在本质、涉及的数学理解要素等方面存在差异。
💡 原帖作者只有理论而无实际成果
- 解释：评论者认为原帖作者虽然提出很多理论，但没有实际的实现成果。
💡 原帖理论可能基于超出作者理解水平的内容构建，可靠性存疑
- 解释：有评论者感觉原帖作者像是阅读了超出自己理解水平的内容后构建出理论。

金句与有趣评论

“😂 plsendfast：what drugs do you take”
- 亮点：以一种看似调侃的方式开启了一种诙谐的讨论氛围，暗示原帖作者的想法奇特。
“🤔 从我的角度来看，我看到的是一个没有涉及任何数学，没有探索任何机器学习基本理论，没有提供任何证明或证据的人。”
- 亮点：直接指出原帖缺乏数学依据等重要问题。
“👀 TommyX12：You are comparing reinforcement learning with neural network like they are similar things. That sounds like comparing fossil fuels with a Honda Civic.”
- 亮点：通过形象的类比表达出对原帖将强化学习与神经网络作比较的不认可。

情感分析

总体情感倾向为负面。主要分歧点在于原帖的理论是否合理、可靠。可能的原因是原帖涉及的内容比较专业且具有一定的前瞻性，但原帖作者未能很好地阐述依据，让许多对机器学习、强化学习等有一定了解的读者产生质疑。

趋势与预测

新兴话题：可能会引发关于如何在强化学习中更好地引入其他技术解决现存问题的讨论。
潜在影响：如果原帖中的理论能够被进一步研究和完善，可能会对强化学习和人工智能领域的发展产生积极推动作用；反之，如果原帖中的观点被证明是错误的，也可以为后来的研究者提供经验教训，避免在类似问题上走弯路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测