原贴链接

嗨！我一直在尝试让Llama - 8B通过自我对弈来引导自身的研究技能。我修改了Unsloth的GRPO实现（❤️Unsloth！）以支持函数调用和智能反馈循环。其工作原理如下：1. Llama自己生成关于文档的问题（你可以让它从任何文档中学习，但我选择了阿波罗13号任务报告）；2. 它学习使用搜索工具在语料库中搜索答案；3. 它使用llama - as - a - judge评估自己的成功/失败；4. 最后，它通过强化学习（RL）进行自我训练以提高研究能力。该模型一开始会产生幻觉并犯各种错误，但在我的4090上训练一个小时后，它迅速得到改善，答案正确率从23%提高到53%。这里是完整的代码和说明！

讨论总结

原帖作者分享了自己修改Unsloth的GRPO代码，使Llama - 8B通过自我提问、搜索答案、自我评估和强化学习等方式在研究技能上得到提升，经过1小时RTX 4090训练后准确率从23%提升到53%，并给出了代码和说明链接。评论者们大多对原帖成果表示认可、赞赏或惊叹，部分评论者提出在其他模型上尝试、对模型功能进行拓展等想法，还有一些人针对原帖中的技术细节提出疑问，整个讨论氛围积极。

主要观点

👍 对原帖成果表示认可和赞赏
- 支持理由：原帖成果令人惊叹、印象深刻、很酷等。
- 反对声音：无。
🔥 原帖作者应向Unsloth提交PR
- 正方观点：原帖内容对Unsloth有用，很多人需要这个功能。
- 反方观点：无。
💡 好奇成果应用于其他模型的改进情况
- 解释：如应用于Llama 70B和405B模型会有何种改进，或尝试在DeepSeek v3、Gemma 3等模型上进行。
💡 对任务准确性测量方式表示疑惑
- 解释：如如何在让Llama - 8B自我提升研究技能的任务中测量准确性。
💡 关注模型训练时间与学习效果的关系
- 解释：好奇将训练时间延长，模型的学习效果是否会继续提升。

金句与有趣评论

“😂 Florida Man makes runaway ASI in basement, as a side project.”
- 亮点：以幽默诙谐的方式调侃原帖作者的行为，暗示成果可能具有失控风险或不切实际之处。
“🤔 Wow. You just closed the distance a lot for this model.”
- 亮点：表达出对原帖中关于Llama - 8B成果的惊叹，强调成果的积极意义。
“👀 That’s amazing!”
- 亮点：简洁地表达对原帖成果的认可，体现出积极正面的态度。
“😂 This is no doubt what openAI and other big companies are doing right now behind closed doors for the big “year of agents””
- 亮点：提出一种猜测，认为原帖的实验内容可能是大公司正在秘密进行的，与“代理之年”相关。
“🤔 Have you tried this with other documents? Is the accuracy transferable?”
- 亮点：直接对原帖实验的通用性提出疑问，想了解是否用其他文档做过实验以及准确性是否可转移。

情感分析

[总体情感倾向为积极正面，大多数评论者对原帖作者的成果表示认可、赞赏或惊叹。主要分歧点较少，个别评论者提出的质疑更多是关于技术细节方面，如模型是否只是在微调代理回答特定问题，可能是由于不同评论者的技术背景和关注点不同。]

趋势与预测

新兴话题：[原帖技术应用于编码方面的可能性、模型在不同硬件设备上的运行情况等可能引发后续讨论]
潜在影响：[对人工智能研究领域可能产生一定影响，如为提升模型研究能力提供新的思路和方法，也可能促使更多人关注和参与到相关技术的探索和改进中]

详细内容：

标题：《关于改进 Llama-8B 模型以实现自主研究能力的热门讨论》

在 Reddit 上，有一个引起广泛关注的帖子。该帖称作者修改了 Unsloth 的 GRPO 实现，让 Llama-8B 在短短 1 小时的训练中，回答准确率从 23%提升到了 53%，还分享了详细的训练过程及相关代码和说明的链接。此帖获得了众多点赞和大量评论。

讨论焦点主要集中在以下几个方面：有人称赞这一成果很酷，比如[yoracale]就表示感谢并鼓励作者向 Unsloth 提交 PR。有人好奇将此方法应用于更大规模的模型，如 Llama 70B 和 405B 会有怎样的效果。还有人提议尝试在其他模型上应用，如[jazir5]建议在 DeepSeek v3 上进行尝试。

关于准确性的测量，[pm_me_ur_sadness_]提出疑问，作者详细解释了通过随机抽取报告片段生成明确问题，并让模型搜索整个语料库回答，以此训练模型的搜索和推理能力。

对于训练的具体步骤，[ab2377]是个新手，询问步骤 4 的细节，作者解释说会根据模型回答正确的情况创建微调数据，然后重复这一过程。

有人思考训练时间延长的效果，[Codingpreneur]询问训练两、四小时或更多时间会怎样。

有人好奇能否应用于其他领域，比如[tuanlda78202]询问能否用于互联网搜索和信息检索，[DataHogWrangler]思考能否用于编码。

总之，这次关于模型改进的讨论激发了众多有价值的思考和交流，展示了大家对人工智能技术发展的关注和探索。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#