原贴链接

每当我尝试Deepseek或QwQ模型时,我对其整个思考过程的杂乱无章感到非常惊讶。这种内心独白式的方式对我来说没什么意义,这让我不想使用它们,也不信任它们能产生可靠的结果。我知道大语言模型就像一个只能通过大声说话来思考的人,但我想如果它们的思考遵循某种结构和逻辑,而不是每隔几段就随机出现’但是等等’,它们就能产生更好的结果(我也肯定会更信任它们)。有人能给我解释一下它们为什么这样工作吗?如果我理解正确的话,‘思考’部分是微调的结果,我不太理解为什么研究人员不使用更有结构的’思考’数据来完成这项任务。有没有大语言模型在其’思考’部分利用更多结构的例子呢?

讨论总结

主题围绕LLMs思考过程看似杂乱无章展开。主要观点包括LLMs思考由强化学习训练、思考有助于自我复查等,整体氛围是理性探讨且有不同观点交流。

主要观点

  1. 👍 大语言模型的思考由强化学习训练,有效就行。
    • 支持理由:部分模型的表现证明了这种训练方式能让其工作。
    • 反对声音:未提及。
  2. 🔥 推理型LLM的思考部分有助于自我复查。
    • 正方观点:可避免选择低概率标记时产生幻觉式解释。
    • 反方观点:未提及。
  3. 💡 模型中的“思考”过程有助于探索解决方案空间。
    • 解释:这种随机标识可避免模型困在初始方向。
  4. 💡 LLMs的“思考”并非真正像人类的思考。
    • 解释:LLMs是通过尝试回答并重新评判自己来“思考”。
  5. 💡 大语言模型思考过程杂乱无章。
    • 支持理由:思考得出的计划在最终回复时无法执行。

金句与有趣评论

  1. “😂 Thinking has been trained through reinforcement learning, so what works works.”
    • 亮点:简洁点明LLM思考训练的本质。
  2. “🤔 Well, that’s basically what the thinking does, it is automatically just questioning itself so that it makes sure it doesn’t do stupid shit on the first shot.”
    • 亮点:形象解释模型“思考”的自我质疑功能。
  3. “👀 The thinking portions allow reasoning LLMs to second guess themselves, which they do not do in regular LLMs.”
    • 亮点:指出推理型LLM与常规LLM在自我复查上的区别。
  4. “😂 If you had to show your work, but were only allowed to think by guessing and then negating your previous guess before making a new guess, gradually approaching an answer that meets all the constraints and parameters, you would also sound like a madman.”
    • 亮点:以人类思考类比LLMs思考,生动有趣。
  5. “🤔 Simplest answer: it allows the model to explore the solution space.”
    • 亮点:简单直接地解释模型思考的作用。

情感分析

总体情感倾向是中性偏探讨。主要分歧点在于LLMs思考杂乱无章是本身机制问题还是未优化的结果。可能的原因是大家对LLMs的理解程度和关注重点不同。

趋势与预测

  • 新兴话题:在潜在空间中改进LLMs思考可能会成为后续话题。
  • 潜在影响:对LLMs开发方向有一定的引导作用,促使研究人员思考如何优化LLMs思考过程以提高其性能和可信度。

详细内容:

标题:为何“思考型”LLMs 听起来如此混乱?

在 Reddit 上,一篇题为“为何‘思考’LLMs 听起来如此精神分裂?”的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。原帖作者表示,在尝试 Deepseek 或 QwQ 模型时,对其看似随意的思考过程感到惊讶,质疑这种缺乏结构和逻辑的“内心独白”方式,不明白为何研究人员不为“思考”部分使用更具结构的数据。

讨论的焦点集中在多个方面。有人认为思考是通过强化学习训练的,所以现状如此。也有人指出,在潜空间保存“思想”而非转换回标记空间具有优势,能保留更多细节和细微差别。还有人觉得推理标记与输出关系不大,语气分裂明显,应将其视为模型的便签本。有人表示,强化学习或许能解释很多,只是不理解为何会将这种杂乱的内容作为训练数据。

有人分享道:“当你使用非推理模型,发现其给出的结果有误,反馈后它能自我纠正并给出有效代码,这就是思考的作用,虽然会消耗更多的令牌和时间。”

有人认为思考部分能让推理 LLMs 自我质疑,避免选择错误的令牌导致幻觉。但也有人觉得可以通过更有组织的探索和总结方法达到类似效果。还有观点认为,模型的思考看似像人类,但并非如此,其输出只是在特定情境下的下一个令牌的概率分布。

对于“思考型”LLMs 为何如此表现,目前尚无定论。但这场讨论无疑为我们理解这一现象提供了多元的视角和深入的思考。