原贴链接

我们使用360 - LLaMA - Factory训练框架对Deepseek - R1 - Distill - Qwen - 32B在数学、代码和科学三个目标领域进行监督微调（SFT），以产生三个特定领域的模型。我们使用开源数据中的问题作为种子。同时，数学、编码和科学任务的响应由R1生成，从而为每个领域创建专门的模型。在此基础上，我们利用Arcee团队的Mergekit工具组合多个模型，创建了Tiny - R1 - 32B - 预览，它展示出很强的整体性能。

讨论总结

该讨论围绕TinyR1 - 32B - Preview展开。一方面，有用户对Reflection 70B表示支持并有意使用；另一方面，部分用户对TinyR1 - 32B - Preview和Qihoo360存在质疑，认为这可能是骗局，不信任Qihoo360发布的内容，还提及Qihoo360在中国的不良声誉，包括软件难以卸载、修改用户设置和发送不良广告等。此外，也有用户对模型本身进行评价，如在基准测试中的表现、模型功能缺陷、训练数据的可靠性等，还有用户分享了使用该模型的负面体验。

主要观点

👍 对Reflection 70B有使用意向并支持
- 支持理由：未明确提及具体理由，可能基于对Reflection 70B性能的期待。
- 反对声音：无。
🔥 认为TinyR1 - 32B - Preview是骗局
- 正方观点：以前有类似模型骗局，且Qihoo360声誉差。
- 反方观点：模型在Huggingface上结果会被验证，超常说法需要超常证据，不能仅凭一句话判定。
💡 对Qihoo360不信任
- 解释：Qihoo360是名声不好的上市公司，发布的内容不值得重视，在中国有不良行为。
🤔 此内容之前已在本地发布过
- 解释：评论者给出之前发布内容的链接，表明不是首次出现。
😕 对模型训练数据的来源存在质疑
- 解释：怀疑模型能够即时创建不存在的训练数据，影响模型可信度。

金句与有趣评论

“😂 fish312: Time to fire up my Reflection 70B!”
- 亮点：表达对Reflection 70B的使用兴趣，开启关于不同模型的话题。
“🤔 MerePotato: This is a known scam”
- 亮点：直接提出模型可能是骗局的观点，引发大量争议讨论。
“👀 if47：Qihoo 360 is a notoriously bad public company and nothing they publish is worth taking seriously.”
- 亮点：明确表达对Qihoo360的不信任及原因，是不信任观点的典型代表。
“😏 nntb: How is this a scam they have a model on huggingface. Claims will be verified and then it will be shown to be not as good as the results it claims. Or as good or better”
- 亮点：对认为是骗局的观点进行有力反驳。
“😒 tried it. switches to chinese. said to reply in english. looped 3 - 4 times through the question (electrical engineering), gave me 3 different wrong strategies and hallucinated components. very bad. deleted.”
- 亮点：生动地描述了使用模型的糟糕体验。

情感分析

总体情感倾向为负面，主要分歧点在于对TinyR1 - 32B - Preview和Qihoo360的看法。部分人对模型和Qihoo360持怀疑、不信任甚至认为是骗局的态度，可能是因为Qihoo360在中国的声誉不佳以及对模型训练方式、表现等存在疑虑；而另一方则对模型有一定的期待或认可，如支持Reflection 70B的用户。

趋势与预测

新兴话题：对模型训练数据真实性的探究可能会引发后续讨论，例如如何确保模型训练数据的可靠性。
潜在影响：如果关于Qihoo360声誉不佳的观点持续传播，可能会影响其在模型相关领域的发展，也可能促使Qihoo360在未来的模型发布中更加注重数据透明度和声誉管理；而对于整个模型行业来说，关于模型骗局、数据可靠性等问题的讨论可能会促使行业建立更严格的标准和规范。

详细内容：

标题：关于 TinyR1-32B-Preview 的热门讨论

在 Reddit 上，一篇关于“TinyR1-32B-Preview: SuperDistillation Achieves Near-R1 Performance with Just 5% of Parameters”的帖子引起了广泛关注。该帖子介绍了通过特定的训练框架在多个领域生成专业模型，并利用工具合并创建了 Tiny-R1-32B-Preview 模型，且声称其性能强劲。此贴获得了众多评论和热议。

讨论的焦点主要集中在该模型是否可信以及其性能表现。有人认为这是一场骗局，比如[MerePotato]就表示：“这是一个已知的骗局。”他还提到：“它建立声誉，诱使投资者为一家名不副实的公司掏钱。”[electric_fungi]则认为：“至少这次看起来更现实一些？”但也有人持不同看法，像[nntb]就质疑道：“请教我这怎么会是骗局？”

也有用户分享了个人经历和案例，[huangrice]说：“五年前，360 很难卸载，会修改浏览器主页、默认应用甚至注册表，还会推送包括全屏保护版和弹窗在内的广告，其中还有一些不适当内容。”

还有很多关于模型技术方面的讨论，比如[oglord69420]提到：“人们的误解在于 r1 并非 671b 参数，实际活跃参数接近 37b。所以 32b 模型接近其性能并不令人震惊。”

这场讨论展现了大家对该模型的不同看法和深入思考，到底是一场技术革命还是一场骗局，还需要更多的证据和实践来验证。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#