原贴链接

Qwen QwQ 32B解决了OpenAI在o1 - preview技术论文（https://openai.com/index/learning - to - reason - with - llms/）中首次展示的密码问题。到目前为止（至少在我的48Gb MacBook上）没有其他本地模型能够解决这个问题。32B模型（也是6位量化的）有着惊人的性能。现在来说说不好的方面——它确实使用了超过9000个标记，并且以每秒4个标记（token）的速度计算，这需要33分钟才能完成。

这是完整的输出，包括来自llama.cpp的提示： https://gist.github.com/sunpazed/497cf8ab11fa7659aab037771d27af57

讨论总结

这是一个关于QwQ - 32B模型解决Cipher问题的讨论。原帖指出QwQ - 32B解决了Cipher问题，但用时较长。评论中有人分享自己使用该模型时遇到的小错误、不同设置下的结果差异，也有人对模型真正解决问题的能力表示质疑，还涉及到与其他模型在不同任务中的性能对比，以及在运行测试中的失败经历等内容。

主要观点

👍 QwQ - 32B解决Cipher问题成果不错。
- 支持理由：原帖提到解决了之前其他本地模型无法解决的问题。
- 反对声音：有评论质疑是否是数据集污染导致的结果。
🔥 不使用推荐设置和提示可能会让模型更好地回答问题。
- 正方观点：JTN02称自己未使用推荐设置和提示时模型回答正确。
- 反方观点：无明显反方观点。
💡 Q4量化版本不能解决密码问题，而完整版本表现不错。
- 解释：评论者在对比中发现Q4量化版本和完整版本在解决密码问题上表现不同。
💡 模型可能会出现小错误，如对草莓中R数量的判断。
- 解释：DeltaSqueezer表示自己尝试时模型在最后出现此类小错误。
💡 不同人使用模型得到的结果有所不同。
- 解释：从多人分享自己使用QwQ - 32B模型的不同结果得出。

金句与有趣评论

“😂 DeltaSqueezer：Very nice. I tried it but at the end it got it slightly wrong and said: "There are two Rs in strawberry." :P”
- 亮点：以幽默的方式指出模型出现的小错误。
“🤔 JTN02：Mine gets the strawberry problem right first try every time. And only take a minute of thinking. I kept my openwebui setting default instead of using the recommended settings and prompt. The recommended settings and prompt screws up QwQ for me.”
- 亮点：提供了不同设置下模型的不同表现情况。
“👀 machecazzomenefrega：so they injected in the COTs of the training randomly "THERE ARE THREE RS IN STRAWBERRY." to try "hardcoding" the response into the model but it still fails at it?”
- 亮点：对模型训练注入信息进行推测并对结果表示疑惑。
“😉 sunpazed：Ha! See this line, "Which is correct because the word "strawberry" has three Rs."”
- 亮点：对DeltaSqueezer提出的模型错误给出相关解释。
“🤨 AdOdd4004：QwQ - 32B thinks too much, I kinda hate that…”
- 亮点：表达对QwQ - 32B思考过多的不满。

情感分析

总体情感倾向比较中立。主要分歧点在于QwQ - 32B是否真正解决了Cipher问题以及模型性能的好坏。产生分歧的原因可能是不同用户在使用模型时有不同的体验，以及模型本身运行时的多种表现情况（如耗时久、结果错误等）影响了大家对模型能力的判断。

趋势与预测

新兴话题：QwQ - 32B与其他模型如Gemini Flash Thinking实验的比较可能会引发后续讨论。
潜在影响：对模型性能优化方向有潜在影响，例如如何改进量化版本的性能，如何提高模型解决问题的效率等。

详细内容：

标题：QwQ-32B 成功解决 o1-preview 密码问题引发 Reddit 热议

在 Reddit 上，一则关于 QwQ-32B 成功解决 o1-preview 密码问题的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。帖子中提到，Qwen QwQ 32B 成功解决了这一难题，且没有其他本地模型（至少在发帖者 48Gb 的 MacBook 上）能够做到。不过，此过程消耗了超过 9000 个 tokens，以 4t/s 的速度花费了 33 分钟。同时，帖子还提供了完整输出的链接。

讨论的焦点集中在以下几个方面：有人认为如果给予足够的时间，QwQ-32B 似乎能解决问题，比如有用户分享自己让它思考 30 分钟（M4 Pro），在 15000 个标记之后找到了正确答案，而 Grok3 给出了错误答案。有人指出 Grok 第一次尝试就做到了，并展示了其思考过程。还有人探讨了不同模型的表现，比如有人提到 llama3 时就开始显示出 5 或 6 位量化更聪明。

对于模型成功的原因，有人认为可能是较低的上下文长度迫使模型收敛更快。但也有人质疑是否存在数据集污染的可能。有人分享道：“如果是数据集污染，那么模型就像知道测试答案的人一样，会让你觉得它是通过推理得出答案，实际上并非如此。”

同时，还有各种有趣的观点和案例分享。比如有人给出了通过数字组合得到 24 的不同方法和思考过程。也有人提出了新的密码问题，并对比不同模型的解决情况。

总之，关于 QwQ-32B 成功解决密码问题的讨论十分热烈，大家从不同角度进行了分析和探讨，展现了对这一话题的浓厚兴趣和深入思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#