原贴链接

我们使用逻辑蒸馏改进了DeepSeek R1蒸馏模型，在GSM8K上实现了4 - 14%的提升，每次训练仅花费3 - 18美元。详情见https://mobiusml.github.io/r1_redistill_blogpost/。模型可在Hugging Face获取，可通过HQQ高效运行。https://huggingface.co/collections/mobiuslabsgmbh/deepseek - r1 - redistill - 6793d3bea92c7fff0639ab4d

讨论总结

整个讨论围绕Re - Distilling DeepSeek R1这一主题展开。其中既有对模型蒸馏技术本身的探讨，如是否能应用于其他模型、多次蒸馏的结果、初始蒸馏技术选择等；也有关于模型训练成本、硬件要求等实际操作层面的交流；还有不少评论以幽默调侃的方式进行互动，如想象蒸馏达到超级智能输出“42”、三次蒸馏达到“200 proof”等。

主要观点

👍 大量的LLMs蒸馏循环可能达到人工超级智能并输出“42”
- 支持理由：一种对LLMs发展的有趣假设和调侃。
- 反对声音：无。
🔥 对“Re - Distilling DeepSeek R1”中的“double distillation”进行调侃
- 正方观点：以幽默方式营造轻松氛围。
- 反方观点：无。
💡 32b模型应用相同蒸馏方法需标记器相似才有可能性
- 支持理由：根据现有的方法要求。
- 反对声音：无。
💡 由于模型架构不同，不能在特定蒸馏R1上进行操作
- 支持理由：模型架构差异带来限制。
- 反对声音：有观点称技术上可行但需要更多投入和大量计算。
💡 赞赏原帖提及实验成本是最终训练成本的20倍且实际约为30倍
- 支持理由：对成本情况表示认可并补充。
- 反对声音：无。

金句与有趣评论

“😂 如果我们对LLMs进行一百万次的蒸馏循环。也许它将真正达到人工超级智能并且只输出“42”。”
- 亮点：以幽默方式假设LLMs蒸馏与超级智能的关系。
“🤔 ResidentPositive4122: "double distillation" was right there :)”
- 亮点：开启幽默调侃话题。
“👀 Any chance you’ll apply the same to the 32b model? :)”
- 亮点：对模型应用提出疑问。
“😆 arm2armreddit: 33% becoming 96% 😆”
- 亮点：通过数字变化表达夸张效果。
“🤔 w1w2d3: Not possible. They have different model architect”
- 亮点：针对操作可能性给出明确否定理由。

情感分析

总体情感倾向是积极且轻松的。主要分歧点在于技术操作的可行性方面，如在特定蒸馏R1上进行操作的可能性。产生分歧的原因是不同的技术理解和考虑因素，一方从模型架构出发认为不可行，另一方则考虑到技术上有实现的可能但需要更多投入。

趋势与预测

新兴话题：可能会有更多关于模型蒸馏技术改进的讨论，以及如何突破硬件限制实现模型转换等。
潜在影响：有助于推动DeepSeek R1模型相关技术的发展，也可能对人工智能领域的模型优化和成本控制等方面产生积极影响。

详细内容：

标题：关于 DeepSeek R1 重蒸馏的热门讨论

在 Reddit 上，一篇有关改进 DeepSeek R1 蒸馏模型的帖子引发了众多关注。该帖子称通过使用对数蒸馏，在 GSM8K 上取得了 +4 - 14% 的增益，每次训练仅花费 3 - 18 美元，并提供了相关细节的链接https://mobiusml.github.io/r1\_redistill\_blogpost/，模型也可在 Hugging Face 上获取https://huggingface.co/collections/mobiuslabsgmbh/deepseek-r1-redistill-6793d3bea92c7fff0639ab4d 。此贴获得了大量点赞和众多评论，引发了广泛而热烈的讨论。

讨论焦点与观点分析：有人提出如果对大型语言模型蒸馏一百万次，或许能达到人工智能超级智能并只输出“42”。还有人围绕数字“42”展开有趣的讨论，如“四十中有几个 R？”“42”“43”等。有人提到“‘二次蒸馏’就在那里”，有人觉得“33%变成 96%很有趣”，也有人说“这是永远清晰的领域”。有用户提问是否会将同样的方法应用于 32b 模型，有人回复称因为硬件限制不太可能。对于能否在具有 650B 参数的蒸馏 R1 上进行操作，有人表示不可能，因为模型架构不同。有人好奇进行从全 R1 到 70b 所需的硬件要求，得到回复称大约需要 18 倍的 H100 以获得最佳质量，若采用特定方式可减少至 10 倍 H100。有人询问再次重蒸馏会怎样，也有人询问使用的训练数据是否只有英语数据，还有人询问是否有更大规模的模型即将推出，以及代码是否公开等问题，均得到了相应的回答。有人质疑 DeepSeek 在最初蒸馏时为何未使用对数蒸馏，回复称可能是因为其不太关注较小模型，主要目标是大 R1 模型。

在这场讨论中，大家各抒己见，从技术细节到有趣的设想，丰富了对 DeepSeek R1 重蒸馏这一话题的探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#