原贴链接

大家好!我最近深入研究类似O1的模型,尤其是看到阿里巴巴的QWQ和深源的R1之后。我对它们的推理机制特别感兴趣。在我目前使用类似O1模型(主要用于角色扮演应用)的工作中,我采用双模型方法:主模型用于生成,验证器(RM)检查输出是否令人满意,如果不满意,我添加一个特殊推理标记并让模型继续。这种方法效果很好,有趣的是,O1的技术报告也提到使用特殊推理标记。然而,我注意到一个有趣的现象:QWQ和R1在推理过程中似乎都不使用这些特殊标记或PRM。这让我想知道:它们如何确定当前输出是否正确?它们使用什么机制来决定是否继续推理?很想听听大家对此的想法和见解!有没有其他人注意到这种差异或者对它们的实现了解更多?

讨论总结

这个讨论围绕QWQ和R1在没有像O1那样的特殊令牌时如何确定是否需要更多推理步骤展开。大家从不同角度提出观点,包括训练集的特性、输出停止标准、内部评估系统等,同时也有一些关于模型比较和对OpenAI成果的看法,整体讨论氛围比较理性,大家都在积极探讨技术相关的可能性。

主要观点

  1. 👍 QWQ和R1可能使用来自树搜索的最佳序列的训练集
    • 支持理由:HideLord表示95%确定,参考了arxiv.org/pdf/2406.09136中的方法,通过树搜索中的最佳序列训练集,经MCTS等操作后不需要特殊令牌
    • 反对声音:无
  2. 🔥 模型通过结束输出,确定输出的能力源于训练过程
    • 正方观点:评论者提出的结束方式且能力源于训练过程
    • 反方观点:有人质疑这可能是强化学习的“直觉”但无法微调
  3. 💡 QWQ是正常自回归架构,推理能力源于训练数据
    • 推理能力来自训练数据推测是Qwen - 2.5 - 32B的微调形式,按正常自回归架构工作,不存在特殊的判断输出正确与否、是否继续推理的机制
  4. 💡 QWQ和R1不使用特殊标记意味着有不同内部评估系统
    • 可能存在如内部一致性检查等复杂内部机制,QwQ的自我事实核查机制支持内部评估,也可能有预定长度限制或多种方法组合
  5. 💡 喜爱QQW和R1模型的出现
    • 认为它们的出现会促使Llama 3超越O1预览版,进而期待很棒的人工智能出现

金句与有趣评论

  1. “😂 I’m 95% certain they are just using a variation of this: https://arxiv.org/pdf/2406.09136 "
    • 亮点:HideLord比较确定地给出QWQ和R1可能使用的机制来源,为大家提供了参考方向。
  2. “🤔 Ig they simply end their outputs by . The model itself can cope with this. The trick is hidden in training process, which taught model when to end.”
    • 亮点:提出了一种关于模型输出停止标准与训练过程关系的思考。
  3. “👀 我喜欢这些模型的出现,这样Llama 3就将超越o1预览版。”
    • 亮点:表达了对新模型出现的积极态度,以及对模型竞争关系的一种期待。

情感分析

总体情感倾向是比较积极理性的。主要分歧点在于对模型推理机制的不同看法,例如关于模型通过结束输出是训练所得还是类似强化学习“直觉”无法微调的争议,原因是大家对模型内部机制的理解不同,且缺乏足够的官方技术报告支撑。

趋势与预测

  • 新兴话题:等待QWQ和R1技术报告发布后的进一步讨论,对其内部机制更深入的探究。
  • 潜在影响:如果能深入理解QWQ和R1的推理机制,可能会对人工智能模型的发展和优化产生积极影响,比如改进其他类似模型的推理过程。

详细内容:

《探究 QWQ 和 R1 模型的推理机制之谜》

在 Reddit 上,一篇关于“如何确定 QWQ 和 R1 在没有类似 O1 的特殊令牌时是否需要更多推理步骤”的帖子引发了广泛关注,获得了众多点赞和大量评论。

原帖作者提到自己深入研究 O1 类模型,特别是在阿里巴巴的 QWQ 和 Deepseek 的 R1 方面。他在当前工作中使用双模型方法,包括生成的主模型和检查输出是否满意的验证器。但他发现 QWQ 和 R1 似乎在推理过程中未使用特殊令牌,由此产生了一系列疑问。

讨论焦点主要集中在 QWQ 和 R1 的推理机制上。有人指出它们可能只是使用了类似于 https://arxiv.org/pdf/2406.09136 中的方法,训练集是通过树搜索得出的最佳序列。还有人认为这种方式过于“刻意”,应该在“推理预训练”中使用,然后通过强化学习进行“推理对齐”。

有人认为模型可能就是通过结束输出,关键在于训练过程。也有人提出模型本身就是普通的自回归架构,通过输出 EOS 令牌停止生成,所有推理能力来自训练数据。还有人表示 QWQ 和 R1 可能采用了不同的内部评估系统,可能是更复杂的内部机制,也可能是预定的长度限制,或者是多种方法的组合。

讨论中的共识在于都在试图揭示 QWQ 和 R1 推理机制的奥秘。特别有见地的观点是对不同可能机制的深入分析,丰富了对这一问题的探讨。但目前这一问题仍像是一个谜团,有待更多技术报告和研究来揭开谜底。