我们使用逻辑蒸馏改进了DeepSeek R1蒸馏模型,在GSM8K上实现了4 - 14%的提升,每次训练仅花费3 - 18美元。详情见https://mobiusml.github.io/r1_redistill_blogpost/。模型可在Hugging Face获取,可通过HQQ高效运行。https://huggingface.co/collections/mobiuslabsgmbh/deepseek - r1 - redistill - 6793d3bea92c7fff0639ab4d
讨论总结
整个讨论围绕Re - Distilling DeepSeek R1这一主题展开。其中既有对模型蒸馏技术本身的探讨,如是否能应用于其他模型、多次蒸馏的结果、初始蒸馏技术选择等;也有关于模型训练成本、硬件要求等实际操作层面的交流;还有不少评论以幽默调侃的方式进行互动,如想象蒸馏达到超级智能输出“42”、三次蒸馏达到“200 proof”等。
主要观点
- 👍 大量的LLMs蒸馏循环可能达到人工超级智能并输出“42”
- 支持理由:一种对LLMs发展的有趣假设和调侃。
- 反对声音:无。
- 🔥 对“Re - Distilling DeepSeek R1”中的“double distillation”进行调侃
- 正方观点:以幽默方式营造轻松氛围。
- 反方观点:无。
- 💡 32b模型应用相同蒸馏方法需标记器相似才有可能性
- 支持理由:根据现有的方法要求。
- 反对声音:无。
- 💡 由于模型架构不同,不能在特定蒸馏R1上进行操作
- 支持理由:模型架构差异带来限制。
- 反对声音:有观点称技术上可行但需要更多投入和大量计算。
- 💡 赞赏原帖提及实验成本是最终训练成本的20倍且实际约为30倍
- 支持理由:对成本情况表示认可并补充。
- 反对声音:无。
金句与有趣评论
- “😂 如果我们对LLMs进行一百万次的蒸馏循环。也许它将真正达到人工超级智能并且只输出“42”。”
- 亮点:以幽默方式假设LLMs蒸馏与超级智能的关系。
- “🤔 ResidentPositive4122: "double distillation" was right there :)”
- 亮点:开启幽默调侃话题。
- “👀 Any chance you’ll apply the same to the 32b model? :)”
- 亮点:对模型应用提出疑问。
- “😆 arm2armreddit: 33% becoming 96% 😆”
- 亮点:通过数字变化表达夸张效果。
- “🤔 w1w2d3: Not possible. They have different model architect”
- 亮点:针对操作可能性给出明确否定理由。
情感分析
总体情感倾向是积极且轻松的。主要分歧点在于技术操作的可行性方面,如在特定蒸馏R1上进行操作的可能性。产生分歧的原因是不同的技术理解和考虑因素,一方从模型架构出发认为不可行,另一方则考虑到技术上有实现的可能但需要更多投入。
趋势与预测
- 新兴话题:可能会有更多关于模型蒸馏技术改进的讨论,以及如何突破硬件限制实现模型转换等。
- 潜在影响:有助于推动DeepSeek R1模型相关技术的发展,也可能对人工智能领域的模型优化和成本控制等方面产生积极影响。
详细内容:
标题:关于 DeepSeek R1 重蒸馏的热门讨论
在 Reddit 上,一篇有关改进 DeepSeek R1 蒸馏模型的帖子引发了众多关注。该帖子称通过使用对数蒸馏,在 GSM8K 上取得了 +4 - 14% 的增益,每次训练仅花费 3 - 18 美元,并提供了相关细节的链接https://mobiusml.github.io/r1\_redistill\_blogpost/,模型也可在 Hugging Face 上获取https://huggingface.co/collections/mobiuslabsgmbh/deepseek-r1-redistill-6793d3bea92c7fff0639ab4d 。此贴获得了大量点赞和众多评论,引发了广泛而热烈的讨论。
讨论焦点与观点分析: 有人提出如果对大型语言模型蒸馏一百万次,或许能达到人工智能超级智能并只输出“42”。还有人围绕数字“42”展开有趣的讨论,如“四十中有几个 R?”“42”“43”等。 有人提到“‘二次蒸馏’就在那里”,有人觉得“33%变成 96%很有趣”,也有人说“这是永远清晰的领域”。 有用户提问是否会将同样的方法应用于 32b 模型,有人回复称因为硬件限制不太可能。对于能否在具有 650B 参数的蒸馏 R1 上进行操作,有人表示不可能,因为模型架构不同。 有人好奇进行从全 R1 到 70b 所需的硬件要求,得到回复称大约需要 18 倍的 H100 以获得最佳质量,若采用特定方式可减少至 10 倍 H100。 有人询问再次重蒸馏会怎样,也有人询问使用的训练数据是否只有英语数据,还有人询问是否有更大规模的模型即将推出,以及代码是否公开等问题,均得到了相应的回答。 有人质疑 DeepSeek 在最初蒸馏时为何未使用对数蒸馏,回复称可能是因为其不太关注较小模型,主要目标是大 R1 模型。
在这场讨论中,大家各抒己见,从技术细节到有趣的设想,丰富了对 DeepSeek R1 重蒸馏这一话题的探讨。
感谢您的耐心阅读!来选个表情,或者留个评论吧!