原贴链接

如标题所说，从两天前开始尝试新的QwQ - 32B（https://huggingface.co/Qwen/QwQ - 32B - GGUF），但我根本无法从它得到任何实际的代码。它一直在思考，永远停不下来，可能会遇到像上下文或者最大标记数之类的限制，并且在得到任何实际结果之前就停止了。我在CPU上运行它，温度设为0.7，Top P为0.95，最大标记数（num_predict）为12000，上下文为2048 - 8192。有谁用它来做编码吗？编辑：刚发现我弄错了，最大标记数（num_predict）是12000。编辑：更多信息，我正在Docker Open Web UI和Ollama - 版本0.5.13中运行。编辑：有趣的是，在思考过程中有有用的代码，但它在思考部分，而且和模型的表述混在一起。编辑：是Q5_K_M模型。编辑：据Docker容器报告，使用这些设置的模型正在使用30GB内存。更新：在用户u/syraccc的建议之后，我使用了来自这里（https://www.reddit.com/r/LocalLLaMA/comments/1j4v3fi/prompts_for_qwq32b/）的“低推理努力”提示，现在QwQ开始回答了，仍然思考很多，也许比之前少了，代码质量还不错。我使用的提示来自于我已经用在线模型完成的项目，目前我只是使用相同的提示来测试本地QwQ的质量，因为不管怎样，在只有1t/s的CPU上它相当没用。

讨论总结

该讨论围绕QwQ - 32B模型在本地ollama上运行无法得到有效代码结果展开。参与者分享了各自的使用经验、遇到的问题、提出的解决方案以及对模型性能的看法，涉及到标记数设置、上下文长度、硬件要求等多方面因素，整体氛围积极且富有技术交流性。

主要观点

👍 QwQ - 32B模型对部分人来说运行正常
- 支持理由：如评论者称在MacBook、Mac mini、Windows系统下运行效果良好等。
- 反对声音：部分人遇到模型一直思考无实际结果的情况。
🔥 原帖作者设置的最大标记数可能过小不适合编码
- 正方观点：模型用于编码时每次回复通常需要10000 - 15000个标记，12000个标记可能过小。
- 反方观点：无（未发现明显反对意见）。
💡 QwQ - 32B模型8k最大上下文无用
- 解释：对于稍详细但较短的提示，它经常会超过10k个标记。
💡 QwQ - 32B生成较好答案需4倍标记和更多时间
- 解释：相比Qwen2.5，它需要更多标记，所以花费时间也更多。
💡 不同设备运行该模型效果不同
- 解释：如在MacBook、本地ollama、Windows系统下的不同运行情况。

金句与有趣评论

“😂 It works fine for me.”
- 亮点：表明模型在该评论者的使用环境下正常运行，与原帖作者形成对比。
“🤔 But you max tokens is way way too small.”
- 亮点：指出原帖作者可能存在的设置问题。
“👀 8k max context is useless for this model.”
- 亮点：对模型的上下文设置给出否定评价。
“🤔 It will come up with a better answer than Qwen2.5, but it will require 4x the tokens (so even more than 4x the time) to pull it off.”
- 亮点：解释了QwQ - 32B模型在获取较好答案时的资源消耗情况。
“😂 It works really well on my MacBook.”
- 亮点：再次体现模型在不同设备上的不同运行效果。

情感分析

总体情感倾向为中性且偏积极。大部分评论者都是在理性地分享自己的使用经验、分析问题并提出建议，分歧点主要在于QwQ - 32B模型在不同设备和设置下的运行效果，可能是由于硬件条件、使用环境、个人需求等因素导致的。

趋势与预测

新兴话题：探索让Ollama更高效使用上下文以及是否能量化上下文的方法。
潜在影响：有助于其他有类似问题的用户优化QwQ - 32B模型的使用，提高模型在本地运行的效率，也为模型开发者提供优化方向。

详细内容：

标题：关于 QwQ-32B 在本地 ollama 上表现的热门讨论

这篇帖子探讨了在本地 ollama 上使用 QwQ-32B 模型时遇到的问题。原帖发布于两天前https://huggingface.co/Qwen/QwQ-32B-GGUF ，作者表示无法从中获得实际代码，模型思考不停且可能达到诸如上下文或最大令牌等限制而停止，在 CPU 上运行，设置了温度 0.7、Top P 0.95、最大令牌 12000、上下文 2048 - 8192 等参数。此帖获得了众多关注，引发了广泛讨论。

讨论焦点与观点分析：有人表示该模型对自己来说运行良好，但指出作者设置的最大令牌过小，对于编码任务，此模型通常每回复需要 10000 至 15000 个令牌。有人分享自己使用其他模型的经历，比如 reka 模型和 noushermes 版本的 mistral 2501 。有人提到若上下文滑动，QwQ:32b 会一直思考，不太适合该模型。有人认为使用该模型时应根据情况调整上下文窗口，比如设置为 16k - 32k 。有人在 Mac 上使用该模型效果良好，并分享了自己的设置和经验。还有人表示降低温度到 0.1 有效果。

共识方面，大家普遍认为该模型对上下文和最大令牌的设置要求较高。特别有见地的观点如，有人认为这是一种权衡，需要考虑时间、上下文和智能之间的平衡。

总的来说，关于 QwQ-32B 在本地 ollama 上的使用，大家各抒己见，分享了不同的设置和使用体验。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#