原贴链接

我尝试训练一个像O1那样的推理大语言模型。尝试使用系统提示和类似反射模型的训练方法,但效果都不太好。首先思考O1的不同之处。以下是普通对话的样子:

{"role": "user", "content": "which is greater 9.9 or 9.11 ??”}, {"role": "assistant", "content": "9.11 is greater than 9.9"}

但O1在生成答案之前增加了一个推理步骤。

{"role": "user", "content": "which is greater 9.9 or 9.11 ??”}, {"role": "reasoning", "content": "(It's the part which is hidden in o1)"} {"role": "assistant", "content": "9.9 is greater than 9.11"}

所以,让我们将这一步添加到普通LLM中。结果它成功了。以下是两个我训练的模型的链接。

Reasoning Llama 3.2 1b-v0.1

Reasoning Qwen2.5 0.5b v0.1

数据集:Reasoning-base-20k

两个模型都在数据集的10k列上进行了训练。

谢谢!

讨论总结

本次讨论主要围绕一个名为“Reasoning Model”的新型推理模型展开。帖子作者尝试通过模仿O1模型的推理能力,训练出能够在给出答案前进行推理的LLM。这一尝试引起了社区的热烈讨论,许多用户表示赞赏并尝试使用该模型。讨论中涉及了模型的性能、适用范围、数据集构建方式、训练代码的改进等多个方面。同时,也有用户对模型与O1模型的差距进行了深入探讨,认为要达到O1的架构需要更多深入的工作。

主要观点

  1. 👍 推理模型的性能与潜力

    • 支持理由:许多用户表示赞赏并尝试使用该模型,认为其在某些任务上表现良好。
    • 反对声音:有用户指出,与O1模型相比,该模型的推理能力仍有较大差距。
  2. 🔥 推理模型与O1模型的比较

    • 正方观点:有用户认为该模型能够模仿O1模型的推理能力,具有很大的潜力。
    • 反方观点:有用户指出,O1模型的推理能力远超该模型,要达到O1的架构需要更多深入的工作。
  3. 💡 推理模型的应用与改进

    • 有用户计划将推理模型应用于编程领域,认为其具有潜在实用性。
    • 有用户提出将推理模型应用到更大规模的语言模型上的建议。
    • 有用户对模型的性能表示好奇,并询问是否有相关的基准测试数据。

金句与有趣评论

  1. “😂 Wow that’s great! I want to try it :D any chance for gguf?”
    • 亮点:用户对推理模型的兴趣和尝试意愿。
  2. “🤔 I thought this video showed an interesting, and more complex, multi-step reasoning approach.”
    • 亮点:用户提出了一个多步骤推理的视角,并提供了视频链接作为参考。
  3. “👀 It’s working, but it takes more than two minutes per response.”
    • 亮点:用户分享了将推理步骤转化为代理管道的实验结果,并提供了相关链接。

情感分析

讨论的总体情感倾向积极,用户对推理模型表示赞赏并尝试使用。主要分歧点在于模型与O1模型的差距,以及模型的性能和适用范围。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括推理模型在更多领域的应用,以及如何改进模型的性能和推理能力。
  • 潜在影响:推理模型的发展可能对相关领域如自然语言处理和人工智能产生积极影响,推动更智能、更高效的AI应用的发展。

详细内容:

标题:关于新型推理模型的热门讨论

在 Reddit 上,一篇题为“Introducing My Reasoning Model: No Tags, Just Logic”的帖子引发了广泛关注。该帖子介绍了作者训练一个类似于 O1 的推理模型的尝试,尝试了多种方法但效果不佳,最后通过在普通 LLM 中添加推理步骤取得了成功,并提供了训练模型的链接和数据集。此帖获得了众多点赞和大量评论。

讨论的焦点集中在多个方面。有人认为这种方法或许可以为生成训练集提供良好模板;也有人认为应先进行 MMLU 测试以验证效果。还有用户分享了自己将类似方法应用于 Gemini 8B flash 的实验经历,并开源了相关实验。

有趣的观点包括猜测让 AI 玩游戏能否生成优质逻辑数据,以及对模型速度和效果的各种看法。比如有用户指出该模型速度极慢,而有人则表示在特定设置下速度不错。

对于这一模型,存在不同的见解。有人认为目前无法证明作者的微调比基础模型更出色,也不清楚与 O1 内部架构的差异。还有人认为 O1 的推理方式与普通的“Chain of Thought”不同,其能够自我纠错并采取不同策略。

同时,有人好奇是否能将这种方法应用于更大的模型,也有人询问模型的训练方式、基准测试情况等。

总之,这次关于推理模型的讨论十分热烈,展现了大家对新技术的浓厚兴趣和深入思考。 但对于该模型是否能真正接近 O1 的水平,以及其在实际应用中的效果和潜力,还需要进一步的研究和测试。