原贴链接

这是一个小评测。我会尽量简短。我使用Bartowski的Q5和Q6测试了QwQ。我没发现Q6有任何明显优势。优点：这个模型，如果能接受额外的标记，无疑比Deepseek Distill R1 32B更强。但它需要更多思考来达成这一效果。如果你对上下文长度或推理速度敏感，这可能是个艰难的权衡。很棒的地方：这个模型打败了Qwen - Coder 32B（在Aider里这个尺寸模型中的编码王者）。它写的代码不一定更好，但迭代次数少很多。它第一次就能领会你的意图和指令，并且避免愚蠢的语法错误。最大的优势是与Qwen - Coder相比，使用QwQ我需要的提示少得多——但要注意，对QwQ的1个提示所花费的标记数是对Qwen - Coder 32B的3个迭代提示的2 - 3倍。缺点：如上所述，它要思考才能表现得这么聪明。而且它思考很多。我的显存完全以512GB / s的速度在使用，我都变得不耐烦了。糟糕的地方：有两次它随机为我写出了完美的代码（一次就成功），但随后忘记遵循Aider的代码编辑规则。在等待了这么多思考标记来产生结果后，这非常令人失望。结论（到目前为止）：那些打败Deepseek R1（完整版本）的基准测试肯定是假的。这个模型不在那个级别。但基本上它能在单个提示里达到Qwen32B和Qwen - Coder32B的三个迭代提示的效果，这绝对不可思议。我认为很多人会从这个模型中受益。

讨论总结

原帖是对QwQ和Aider的简要评测，包含使用不同模型测试结果、QwQ模型优缺点等。评论者们在认同原帖部分内容的基础上，对QwQ模型与其他模型（如R1）的比较、QwQ模型自身的性能、在不同任务（如编码）中的表现、模型思考时间过长、token使用量等问题进行了讨论，还涉及到Aider对模型结果的影响、硬件相关话题、特定模型是否有公开基准测试等，整个讨论氛围比较理性和专业。

主要观点

👍 原帖作者的体验与自己目前的体验匹配度很高，对原帖表示欣赏。
- 支持理由：评论者表示原帖内容与自己的体验相符。
- 反对声音：无
🔥 将QwQ - 32B与R1比较是愚蠢营销手段，QwQ - Max才是与R1竞争的合适版本。
- 正方观点：两者规模差距大，这样比较会让用户失望。
- 反方观点：无（未在评论中有明显反对观点）
💡 在aider中使用推理模型的架构模式并使用另一个小或快的LLM做实际编辑有助于提升性能和效率平衡。
- 解释：这种方式可以优化在aider中的使用效果，是一种平衡性能和效率的策略。
💡 若模型需人工纠正输出则不可用，R1动态模型在这方面表现更好。
- 解释：以QwQ模型为例，说明需要人工干预输出的模型存在不足，而R1动态模型未出现因输出问题需返回重新处理的情况。
💡 QwQ模型存在思考过多的情况，可通过温度设置为0.5 - 0.6、Top - P设置为0.5来控制。
- 解释：针对QwQ模型思考过多的问题提出了具体的控制设置。

金句与有趣评论

“😂 我认为QwQ - 32B是伟大的。但是将其与R1（一个大20倍的SOTA模型）进行比较是愚蠢的营销手段，这让人们失望。”
- 亮点：直接指出模型比较中的不合理营销手段。
“🤔 如果它需要人工辅助来纠正输出，它仍然是不可用的。”
- 亮点：提出了判断模型可用性的一个观点。
“👀 如果您正在使用aider，我注意到使用推理模型的架构模式并使用另一个更小或更快的llm进行实际编辑会更好。”
- 亮点：给出了在aider使用中的优化建议。
“😎 Qwen 2.5 - 32B几乎立即作答但非常自信地给出了错误答案。”
- 亮点：生动地描述了Qwen 2.5 - 32B的测试情况。
“😏 我发现qwq在编码任务中由于其过长的思考时间几乎无法使用。”
- 亮点：强调了QwQ在编码任务中的可用性问题。

情感分析

总体情感倾向比较中立理性。主要分歧点在于对QwQ模型的评价，如与其他模型的比较是否合理、QwQ模型的性能和可用性等方面。产生分歧的原因可能是大家使用模型的场景、测试方法和对模型性能评判标准不同。

趋势与预测

新兴话题：对函数调用模型的推荐需求可能引发后续讨论。
潜在影响：如果关于模型性能和使用方式的讨论继续深入，可能会影响相关模型开发者对模型优化的方向，也会为模型使用者在选择和使用模型时提供更多参考。

详细内容：

《关于 QwQ 模型的热门讨论：性能、优势与不足》

近日，Reddit 上一则关于 QwQ 模型的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。原帖作者对 QwQ 模型进行了测试并分享了自己的看法，主要包括其在不同方面的表现以及存在的问题，进而引发了关于该模型与其他类似模型比较的广泛探讨。

在讨论焦点与观点分析方面，有人认为 QwQ 模型非常出色，在某些方面强于 Deepseek Distill R1 32B 和 Qwen-Coder 32B 等模型，比如能够更快地理解意图和指令，减少迭代次数。但也有人指出其存在的不足，比如思考时间过长，消耗大量令牌，甚至有时会违反 Aider 的代码编辑规则。

有用户分享道：“我认为 QwQ-32B 很棒。但将它与 R1 这种规模大 20 倍的 SOTA 模型进行比较，是愚蠢的营销手段，让人感到失望。实际上，QwQ-Max 才应该与 R1 正面竞争，而不是这个精简版本。”

还有用户表示：“从我的测试来看，在数学方面它比完整的 R1 更好，但在复杂编码方面则不然。”

同时，也有用户提到温度和 Top-P 等设置对模型性能的影响，比如“我发现 0.6 的温度设置给我带来了麻烦，0.4 和 0.5 则效果好得多。”

关于模型的基准测试，也存在不同的看法。有人认为某些基准测试不可信，而有人则认为 Aider 是唯一可信的基准。

总的来说，对于 QwQ 模型的评价褒贬不一，讨论反映了其在性能和效率方面的复杂性和多样性，也展示了用户对于模型不断优化和改进的期待。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#