原贴链接

Qwen QwQ 32B解决了OpenAI在o1 - preview技术论文(https://openai.com/index/learning - to - reason - with - llms/)中首次展示的密码问题。到目前为止(至少在我的48Gb MacBook上)没有其他本地模型能够解决这个问题。32B模型(也是6位量化的)有着惊人的性能。现在来说说不好的方面——它确实使用了超过9000个标记,并且以每秒4个标记(token)的速度计算,这需要33分钟才能完成。

这是完整的输出,包括来自llama.cpp的提示: https://gist.github.com/sunpazed/497cf8ab11fa7659aab037771d27af57

讨论总结

这是一个关于QwQ - 32B模型解决Cipher问题的讨论。原帖指出QwQ - 32B解决了Cipher问题,但用时较长。评论中有人分享自己使用该模型时遇到的小错误、不同设置下的结果差异,也有人对模型真正解决问题的能力表示质疑,还涉及到与其他模型在不同任务中的性能对比,以及在运行测试中的失败经历等内容。

主要观点

  1. 👍 QwQ - 32B解决Cipher问题成果不错。
    • 支持理由:原帖提到解决了之前其他本地模型无法解决的问题。
    • 反对声音:有评论质疑是否是数据集污染导致的结果。
  2. 🔥 不使用推荐设置和提示可能会让模型更好地回答问题。
    • 正方观点:JTN02称自己未使用推荐设置和提示时模型回答正确。
    • 反方观点:无明显反方观点。
  3. 💡 Q4量化版本不能解决密码问题,而完整版本表现不错。
    • 解释:评论者在对比中发现Q4量化版本和完整版本在解决密码问题上表现不同。
  4. 💡 模型可能会出现小错误,如对草莓中R数量的判断。
    • 解释:DeltaSqueezer表示自己尝试时模型在最后出现此类小错误。
  5. 💡 不同人使用模型得到的结果有所不同。
    • 解释:从多人分享自己使用QwQ - 32B模型的不同结果得出。

金句与有趣评论

  1. “😂 DeltaSqueezer:Very nice. I tried it but at the end it got it slightly wrong and said: "There are two Rs in strawberry." :P”
    • 亮点:以幽默的方式指出模型出现的小错误。
  2. “🤔 JTN02:Mine gets the strawberry problem right first try every time. And only take a minute of thinking. I kept my openwebui setting default instead of using the recommended settings and prompt. The recommended settings and prompt screws up QwQ for me.”
    • 亮点:提供了不同设置下模型的不同表现情况。
  3. “👀 machecazzomenefrega:so they injected in the COTs of the training randomly "THERE ARE THREE RS IN STRAWBERRY." to try "hardcoding" the response into the model but it still fails at it?”
    • 亮点:对模型训练注入信息进行推测并对结果表示疑惑。
  4. “😉 sunpazed:Ha! See this line, "Which is correct because the word "strawberry" has three Rs."
    • 亮点:对DeltaSqueezer提出的模型错误给出相关解释。
  5. “🤨 AdOdd4004:QwQ - 32B thinks too much, I kinda hate that…”
    • 亮点:表达对QwQ - 32B思考过多的不满。

情感分析

总体情感倾向比较中立。主要分歧点在于QwQ - 32B是否真正解决了Cipher问题以及模型性能的好坏。产生分歧的原因可能是不同用户在使用模型时有不同的体验,以及模型本身运行时的多种表现情况(如耗时久、结果错误等)影响了大家对模型能力的判断。

趋势与预测

  • 新兴话题:QwQ - 32B与其他模型如Gemini Flash Thinking实验的比较可能会引发后续讨论。
  • 潜在影响:对模型性能优化方向有潜在影响,例如如何改进量化版本的性能,如何提高模型解决问题的效率等。

详细内容:

标题:QwQ-32B 成功解决 o1-preview 密码问题引发 Reddit 热议

在 Reddit 上,一则关于 QwQ-32B 成功解决 o1-preview 密码问题的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。帖子中提到,Qwen QwQ 32B 成功解决了这一难题,且没有其他本地模型(至少在发帖者 48Gb 的 MacBook 上)能够做到。不过,此过程消耗了超过 9000 个 tokens,以 4t/s 的速度花费了 33 分钟。同时,帖子还提供了完整输出的链接。

讨论的焦点集中在以下几个方面: 有人认为如果给予足够的时间,QwQ-32B 似乎能解决问题,比如有用户分享自己让它思考 30 分钟(M4 Pro),在 15000 个标记之后找到了正确答案,而 Grok3 给出了错误答案。有人指出 Grok 第一次尝试就做到了,并展示了其思考过程。还有人探讨了不同模型的表现,比如有人提到 llama3 时就开始显示出 5 或 6 位量化更聪明。

对于模型成功的原因,有人认为可能是较低的上下文长度迫使模型收敛更快。但也有人质疑是否存在数据集污染的可能。有人分享道:“如果是数据集污染,那么模型就像知道测试答案的人一样,会让你觉得它是通过推理得出答案,实际上并非如此。”

同时,还有各种有趣的观点和案例分享。比如有人给出了通过数字组合得到 24 的不同方法和思考过程。也有人提出了新的密码问题,并对比不同模型的解决情况。

总之,关于 QwQ-32B 成功解决密码问题的讨论十分热烈,大家从不同角度进行了分析和探讨,展现了对这一话题的浓厚兴趣和深入思考。