原贴链接

所有测试都进行了10次（这些问题我10次都答对了）。QwQ来自Bartowski - q4km，上下文16k，速度约为35t/s。命令：llama - cli.exe –model QwQ - 32B - Q4_K_M.gguf –color –threads 30 –keep -1 –n - predict -1 –ctx - size 16384 - ngl 99 –simple - io - e –multiline - input –no - display - prompt –conversation –no - mmap。数学方面：初始余额10万美元，每10万美元余额每月赚1.5万美元，余额增长则收益按步增长，计算3年后（36个月）的余额，答案为947.5万美元，QwQ通过；还有其他数学、逻辑、编码等各类问题的问答测试，QwQ均通过。结论：思考深入，虽有时比QwQ预览版耗时长2 - 3倍，但结果更好，用离线模型解决了所有私人测试的问题，目前QwQ是32b大小的最先进推理模型，在推理和数学方面超越任何蒸馏深度搜索模型，离线工作时在推理和数学方面与o3 mini med或high相当，与671b深度搜索模型相当。

讨论总结

原帖宣称QwQ模型在数学方面表现出色，甚至超越一些模型。评论者从多个角度进行讨论，包括对自身之前观点的反思、模型温度设置对结果的影响、32B规模是否为最优、QwQ与其他模型在数学和编码方面的对比、模型回答逻辑谜题的表现、对模型免责声明的疑问、怀疑模型针对测试问题进行过调整、对测试内容类型的期待等，整体氛围理性且包含多种观点。

主要观点

👍 承认自己之前对思考模式的看法可能错误
- 支持理由：看到在较少计算能力下得到不错结果，改变之前笃定是浪费时间的看法
- 反对声音：无
🔥 32B是LLM的帕累托最优规模
- 正方观点：从不同角度阐述32B规模适合家用消费级硬件运行LLM等优势
- 反方观点：随着新系统进入市场，32B最优的情况可能改变
💡 降低温度能得到好结果
- 解释：部分评论者通过自身测试发现降低温度后结果变好，但不同温度下情况不同，如0.2可能陷入循环，0.8以上可能有问题等

金句与有趣评论

“😂 fuck i hate to admit i was wrong but maybe thinking mode isn’t as much of a gimmick as I thought.”
- 亮点：表达出一种懊恼且坦诚自己错误的情绪，反映出对新结果的意外
“🤔 32B seems like the Pareto optimal size for an LLM.”
- 亮点：简洁地提出32B规模在LLM中的地位，引发更多关于模型规模的讨论
“👀 Math and reasoning - yes easy.. coding don’t know yet…”
- 亮点：明确指出QwQ模型在数学和推理方面与其他模型的对比情况，而在编码方面还存在疑问

情感分析

总体情感倾向较为理性客观。主要分歧点在于QwQ模型的实际表现，如在编码方面与其他模型对比，以及32B规模是否真的是最优等。可能的原因是大家从不同的使用场景、测试方法和对模型的期望出发，导致对模型的评价存在差异。

趋势与预测

新兴话题：模型的量化探索以及如何进行正确量化。
潜在影响：如果QwQ模型在后续测试中确实表现优秀，可能会影响相关领域对模型规模、温度设置等参数的调整，也可能影响用户对不同模型在数学、编码、推理等方面能力的预期。

详细内容：

标题：Reddit 热门讨论：QwQ 模型在数学和逻辑测试中的表现

在 Reddit 上，一篇关于 QwQ 模型的帖子引起了广泛关注。该帖详细介绍了对 QwQ 模型进行的一系列数学、逻辑等方面的测试，测试均进行了 10 次，且 QwQ 模型在多项测试中都取得了通过的成绩。此帖获得了众多用户的参与和讨论，点赞数和评论数众多。

讨论的焦点主要集中在 QwQ 模型的性能表现以及与其他模型的比较上。有人认为 QwQ 模型的思考模式并非只是噱头，其在解决复杂问题上表现出色。例如，有人说：“fuck i hate to admit i was wrong but maybe thinking mode isn’t as much of a gimmick as I thought.”

同时，也有用户分享了在使用过程中的温度设置经验。比如，有人提到：“Ater lowering the temperature I started having good results.” 还有人表示：“I did runs with 0.2 and 0.4 both worked fine.”

关于 QwQ 模型的尺寸和适用场景，大家看法不一。有人认为 32B 是 LLM 的帕累托最优尺寸，也有人认为对于更复杂、需要深度分析的问题，更大的模型如 R1 可能更有优势。比如，“Yeah, I would say for questions with a single answer that is expected to be found (like math, some code questions, some logic questions) QWQ should do fine. But there are some weird questions, questions that need a lot of logic, or that depends on analyzing a lot of data, in summary that need DEEPNESS, in those cases having more layers benefit DS R1”

在关于 QwQ 模型与 Deepseek 671b 的对比中，有人认为在数学和推理方面 QwQ 表现出色，但在编码方面还不确定。

总的来说，Reddit 上关于 QwQ 模型的讨论呈现出多样化的观点，既有对其出色表现的肯定，也有对其局限性的思考。这也反映了大家对于人工智能模型不断探索和追求更优性能的热情。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#