我们使用360 - LLaMA - Factory训练框架对Deepseek - R1 - Distill - Qwen - 32B在数学、代码和科学三个目标领域进行监督微调(SFT),以产生三个特定领域的模型。我们使用开源数据中的问题作为种子。同时,数学、编码和科学任务的响应由R1生成,从而为每个领域创建专门的模型。在此基础上,我们利用Arcee团队的Mergekit工具组合多个模型,创建了Tiny - R1 - 32B - 预览,它展示出很强的整体性能。
讨论总结
该讨论围绕TinyR1 - 32B - Preview展开。一方面,有用户对Reflection 70B表示支持并有意使用;另一方面,部分用户对TinyR1 - 32B - Preview和Qihoo360存在质疑,认为这可能是骗局,不信任Qihoo360发布的内容,还提及Qihoo360在中国的不良声誉,包括软件难以卸载、修改用户设置和发送不良广告等。此外,也有用户对模型本身进行评价,如在基准测试中的表现、模型功能缺陷、训练数据的可靠性等,还有用户分享了使用该模型的负面体验。
主要观点
- 👍 对Reflection 70B有使用意向并支持
- 支持理由:未明确提及具体理由,可能基于对Reflection 70B性能的期待。
- 反对声音:无。
- 🔥 认为TinyR1 - 32B - Preview是骗局
- 正方观点:以前有类似模型骗局,且Qihoo360声誉差。
- 反方观点:模型在Huggingface上结果会被验证,超常说法需要超常证据,不能仅凭一句话判定。
- 💡 对Qihoo360不信任
- 解释:Qihoo360是名声不好的上市公司,发布的内容不值得重视,在中国有不良行为。
- 🤔 此内容之前已在本地发布过
- 解释:评论者给出之前发布内容的链接,表明不是首次出现。
- 😕 对模型训练数据的来源存在质疑
- 解释:怀疑模型能够即时创建不存在的训练数据,影响模型可信度。
金句与有趣评论
- “😂 fish312: Time to fire up my Reflection 70B!”
- 亮点:表达对Reflection 70B的使用兴趣,开启关于不同模型的话题。
- “🤔 MerePotato: This is a known scam”
- 亮点:直接提出模型可能是骗局的观点,引发大量争议讨论。
- “👀 if47:Qihoo 360 is a notoriously bad public company and nothing they publish is worth taking seriously.”
- 亮点:明确表达对Qihoo360的不信任及原因,是不信任观点的典型代表。
- “😏 nntb: How is this a scam they have a model on huggingface. Claims will be verified and then it will be shown to be not as good as the results it claims. Or as good or better”
- 亮点:对认为是骗局的观点进行有力反驳。
- “😒 tried it. switches to chinese. said to reply in english. looped 3 - 4 times through the question (electrical engineering), gave me 3 different wrong strategies and hallucinated components. very bad. deleted.”
- 亮点:生动地描述了使用模型的糟糕体验。
情感分析
总体情感倾向为负面,主要分歧点在于对TinyR1 - 32B - Preview和Qihoo360的看法。部分人对模型和Qihoo360持怀疑、不信任甚至认为是骗局的态度,可能是因为Qihoo360在中国的声誉不佳以及对模型训练方式、表现等存在疑虑;而另一方则对模型有一定的期待或认可,如支持Reflection 70B的用户。
趋势与预测
- 新兴话题:对模型训练数据真实性的探究可能会引发后续讨论,例如如何确保模型训练数据的可靠性。
- 潜在影响:如果关于Qihoo360声誉不佳的观点持续传播,可能会影响其在模型相关领域的发展,也可能促使Qihoo360在未来的模型发布中更加注重数据透明度和声誉管理;而对于整个模型行业来说,关于模型骗局、数据可靠性等问题的讨论可能会促使行业建立更严格的标准和规范。
详细内容:
标题:关于 TinyR1-32B-Preview 的热门讨论
在 Reddit 上,一篇关于“TinyR1-32B-Preview: SuperDistillation Achieves Near-R1 Performance with Just 5% of Parameters”的帖子引起了广泛关注。该帖子介绍了通过特定的训练框架在多个领域生成专业模型,并利用工具合并创建了 Tiny-R1-32B-Preview 模型,且声称其性能强劲。此贴获得了众多评论和热议。
讨论的焦点主要集中在该模型是否可信以及其性能表现。有人认为这是一场骗局,比如[MerePotato]就表示:“这是一个已知的骗局。”他还提到:“它建立声誉,诱使投资者为一家名不副实的公司掏钱。”[electric_fungi]则认为:“至少这次看起来更现实一些?”但也有人持不同看法,像[nntb]就质疑道:“请教我这怎么会是骗局?”
也有用户分享了个人经历和案例,[huangrice]说:“五年前,360 很难卸载,会修改浏览器主页、默认应用甚至注册表,还会推送包括全屏保护版和弹窗在内的广告,其中还有一些不适当内容。”
还有很多关于模型技术方面的讨论,比如[oglord69420]提到:“人们的误解在于 r1 并非 671b 参数,实际活跃参数接近 37b。所以 32b 模型接近其性能并不令人震惊。”
这场讨论展现了大家对该模型的不同看法和深入思考,到底是一场技术革命还是一场骗局,还需要更多的证据和实践来验证。
感谢您的耐心阅读!来选个表情,或者留个评论吧!