原贴链接

大家好！我最近深入研究类似O1的模型，尤其是看到阿里巴巴的QWQ和深源的R1之后。我对它们的推理机制特别感兴趣。在我目前使用类似O1模型（主要用于角色扮演应用）的工作中，我采用双模型方法：主模型用于生成，验证器（RM）检查输出是否令人满意，如果不满意，我添加一个特殊推理标记并让模型继续。这种方法效果很好，有趣的是，O1的技术报告也提到使用特殊推理标记。然而，我注意到一个有趣的现象：QWQ和R1在推理过程中似乎都不使用这些特殊标记或PRM。这让我想知道：它们如何确定当前输出是否正确？它们使用什么机制来决定是否继续推理？很想听听大家对此的想法和见解！有没有其他人注意到这种差异或者对它们的实现了解更多？

讨论总结

这个讨论围绕QWQ和R1在没有像O1那样的特殊令牌时如何确定是否需要更多推理步骤展开。大家从不同角度提出观点，包括训练集的特性、输出停止标准、内部评估系统等，同时也有一些关于模型比较和对OpenAI成果的看法，整体讨论氛围比较理性，大家都在积极探讨技术相关的可能性。

主要观点

👍 QWQ和R1可能使用来自树搜索的最佳序列的训练集
- 支持理由：HideLord表示95%确定，参考了arxiv.org/pdf/2406.09136中的方法，通过树搜索中的最佳序列训练集，经MCTS等操作后不需要特殊令牌
- 反对声音：无
🔥 模型通过结束输出，确定输出的能力源于训练过程
- 正方观点：评论者提出的结束方式且能力源于训练过程
- 反方观点：有人质疑这可能是强化学习的“直觉”但无法微调
💡 QWQ是正常自回归架构，推理能力源于训练数据
- 推理能力来自训练数据推测是Qwen - 2.5 - 32B的微调形式，按正常自回归架构工作，不存在特殊的判断输出正确与否、是否继续推理的机制
💡 QWQ和R1不使用特殊标记意味着有不同内部评估系统
- 可能存在如内部一致性检查等复杂内部机制，QwQ的自我事实核查机制支持内部评估，也可能有预定长度限制或多种方法组合
💡 喜爱QQW和R1模型的出现
- 认为它们的出现会促使Llama 3超越O1预览版，进而期待很棒的人工智能出现

金句与有趣评论

“😂 I’m 95% certain they are just using a variation of this: https://arxiv.org/pdf/2406.09136 "
- 亮点：HideLord比较确定地给出QWQ和R1可能使用的机制来源，为大家提供了参考方向。
“🤔 Ig they simply end their outputs by . The model itself can cope with this. The trick is hidden in training process, which taught model when to end.”
- 亮点：提出了一种关于模型输出停止标准与训练过程关系的思考。
“👀 我喜欢这些模型的出现，这样Llama 3就将超越o1预览版。”
- 亮点：表达了对新模型出现的积极态度，以及对模型竞争关系的一种期待。

情感分析

总体情感倾向是比较积极理性的。主要分歧点在于对模型推理机制的不同看法，例如关于模型通过结束输出是训练所得还是类似强化学习“直觉”无法微调的争议，原因是大家对模型内部机制的理解不同，且缺乏足够的官方技术报告支撑。

趋势与预测

新兴话题：等待QWQ和R1技术报告发布后的进一步讨论，对其内部机制更深入的探究。
潜在影响：如果能深入理解QWQ和R1的推理机制，可能会对人工智能模型的发展和优化产生积极影响，比如改进其他类似模型的推理过程。

详细内容：

《探究 QWQ 和 R1 模型的推理机制之谜》

在 Reddit 上，一篇关于“如何确定 QWQ 和 R1 在没有类似 O1 的特殊令牌时是否需要更多推理步骤”的帖子引发了广泛关注，获得了众多点赞和大量评论。

原帖作者提到自己深入研究 O1 类模型，特别是在阿里巴巴的 QWQ 和 Deepseek 的 R1 方面。他在当前工作中使用双模型方法，包括生成的主模型和检查输出是否满意的验证器。但他发现 QWQ 和 R1 似乎在推理过程中未使用特殊令牌，由此产生了一系列疑问。

讨论焦点主要集中在 QWQ 和 R1 的推理机制上。有人指出它们可能只是使用了类似于 https://arxiv.org/pdf/2406.09136 中的方法，训练集是通过树搜索得出的最佳序列。还有人认为这种方式过于“刻意”，应该在“推理预训练”中使用，然后通过强化学习进行“推理对齐”。

有人认为模型可能就是通过结束输出，关键在于训练过程。也有人提出模型本身就是普通的自回归架构，通过输出 EOS 令牌停止生成，所有推理能力来自训练数据。还有人表示 QWQ 和 R1 可能采用了不同的内部评估系统，可能是更复杂的内部机制，也可能是预定的长度限制，或者是多种方法的组合。

讨论中的共识在于都在试图揭示 QWQ 和 R1 推理机制的奥秘。特别有见地的观点是对不同可能机制的深入分析，丰富了对这一问题的探讨。但目前这一问题仍像是一个谜团，有待更多技术报告和研究来揭开谜底。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#