原贴链接

我想我现在要把QwQ作为我的主要推理模型，而不再用R1了。在我所有的测试中，QwQ得到的答案质量与R1相同甚至更好，同时思维链更高效、更简洁、更自信。相比之下，R1就像一个笨手笨脚的傻瓜，只是因为尝试了所有可能的解决方案才显得聪明。而且差距还不小，在同一个问题上，QwQ使用的标记比R1少4倍，但得到的答案相同。亚当说并非所有的思维链（CoTs）都是平等的，这是对的，在这种情况下，我认为Qwen训练他们的模型在不降低质量的情况下更有效率。但我很想听听大家的想法，因为我相信其他人比我更有经验。

讨论总结

原帖作者认为QwQ - 32B模型比R1模型在推理上更简洁高效且答案质量相同或更优，想换用QwQ - 32B作为主要推理模型。评论者们从各个方面对这两个模型进行比较，包括在不同任务（如写作、编码、数学等）中的表现、模型的推理特点、在不同平台上的运行情况等，大家观点不一，既有支持原帖观点的，也有反对的，讨论氛围比较热烈且存在争议。

主要观点

👍 QwQ - 32B在长推理方面表现不错，输出比大型在线模型更详细。
- 支持理由：它本身就能提供信息，相对大型在线模型输出更详细。
- 反对声音：有评论者指出QwQ - 32B存在虚构公司名称或产品的问题。
🔥 QwQ - 32B在32B模型里测试表现好，但创造力等不及R1。
- 正方观点：在测试中表现好。
- 反方观点：与R1相比，创造力和“聪明度”不及R1。
💡 R1在特定设置下会有更好的表现，其散文更具复杂性。
- 解释：例如在T = 0.2运行时，R1的散文更复杂精致。
💡 QwQ在标准编码测试中的表现优于其他模型。
- 解释：通过使用pygame库在python中创建3D旋转立方体测试得出。
💡 QwQ - 32B与R1很接近，甚至可能比Llama - distilled - 70B还要好一点，但R1的推理仍然更优越。
- 解释：经过对两者的“氛围”检查得出结论。

金句与有趣评论

“😂 我对它的长推理能力印象深刻，其本身就能提供信息，而且与大型在线模型相比，它的输出更详细。”
- 亮点：体现出QwQ - 32B在长推理方面的优势。
“🤔 在我的情况中，R1做邮件评判要比qwq 32b好得多。”
- 亮点：这是从邮件评判这个特定任务角度比较两个模型。
“👀 Cergorach: I tried it for creative writing, it uses a LOT of thinking.”
- 亮点：说明QwQ用于创意写作时思考较多的特点。
“😉 我也同意它的思维链长度似乎合理，等待可能是值得的（在我的4090上每秒大约运行35 - 40个标记）。”
- 亮点：对QwQ的思维链长度和运行情况给出评价。
“💥 原帖：I think I will now switch over to using QwQ as my primary reasoning model instead of R1.”
- 亮点：原帖的核心观点句。

情感分析

总体情感倾向存在争议。主要分歧点在于QwQ - 32B和R1模型的优劣比较。支持QwQ - 32B的人认为它推理简洁高效、答案质量好、在某些任务中表现不错；反对者则指出它在创造力、推理简洁性、特定任务（如邮件评判、数学求解等）上不如R1，可能存在过度思考、回答冗长等问题。可能的原因是大家使用模型的场景、测试方法和关注的任务类型不同。

趋势与预测

新兴话题：如模型融合（FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32b融合模型）的使用体验和比较可能引发后续讨论。
潜在影响：对于相关模型的改进方向有参考价值，例如如何提高模型的推理效率、避免回答冗长等，也可能影响用户在不同任务场景下对模型的选择。

详细内容：

《Reddit 上关于 QwQ-32B 与 R1 模型的热烈讨论》

近日，Reddit 上一则关于 QwQ-32B 和 R1 模型的讨论引起了众多网友的关注。原帖作者表示将把 QwQ 作为主要推理模型，因为在测试中它能获得与 R1 相同或更优的答案，且思考过程更高效、简洁和自信。该帖获得了大量的点赞和众多评论。

讨论的焦点主要集中在 QwQ-32B 与 R1 模型在不同任务和场景中的表现对比。有人认为 QwQ-32B 在某些方面表现出色，比如推理更高效、输出更简洁。有人分享道：“在我的测试中，它对于 32B 模型来说表现真的很好，但在创造力和‘聪明度’方面仍远不如 R1。主要在写作任务方面进行测试。”但也有人指出 QwQ-32B 存在的问题，例如在实际场景中表现不如 R1，可能存在过拟合的情况。

有人说：“我尝试将 QwQ 用于创意写作，它进行了大量思考，这似乎比 r1 70b 模型更好。其输出也更冗长，但缺乏 r1 671b 的创造力、情感唤起或简洁性。” 还有人提到：“在 LM Studio 中，你需要用另一个 Qwen 模型的系统提示来替换。否则会有一些语法错误。”

然而，也有不同的声音。比如有人认为：“在我的情况中，R1 在电子邮件批评方面比 qwq 32b 做得好得多。”

这场讨论尚无明确的共识，但充分展现了大家对于这两个模型的深入思考和多样观点。究竟 QwQ-32B 能否在更多方面超越 R1 ，或者在特定任务中展现独特优势，还有待进一步的测试和探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#