该帖子仅提供了一个视频链接（https://llminfo.image.fangd123.cn/videos/1j9lwlw.mp4），无更多可翻译内容

讨论总结

这个讨论围绕QwQ在高思维努力设置下一次性击中弹跳球示例展开。原帖作者分享了相关研究成果，包括设置QwQ思考努力程度的方法和高思考设置下的模拟成果，虽然研究还处于高度实验阶段且代码库较乱，但依然吸引了众多评论者参与讨论。大家从不同角度发表看法，如对原帖操作的赞赏、对相关技术原理的推测、对推理模型改进的设想，也提到了在实际操作过程中遇到的问题等。

主要观点

👍 通过调整特定标记的对数几率可设置QwQ的思考努力程度
- 支持理由：原帖作者在之前帖子解释过相关操作，在本次实验中也有成果体现。
- 反对声音：无。
🔥 原帖中的操作达到很高思维水平，可能破解OpenAI思维层级
- 正方观点：原帖的操作成果显著，看起来具有很高的思维水平。
- 反方观点：无。
💡 可能需要为推理模型的思考标记添加权重调整器
- 支持理由：有助于优化推理模型的思考过程。
- 反对声音：有人认为模型自身基于训练给出结果就好，对数几率处理器用常数乘数辅助即可。
💡 认为推理引擎应添加易访问参数
- 支持理由：方便对推理过程进行控制。
- 反对声音：无。
💡 对于思考时间短的模型可强制其思考更长时间来处理难题
- 支持理由：可能解决一些模型处理难题能力不足的问题。
- 反对声音：无。

金句与有趣评论

“😂 So, as I explained in this post (https://www.reddit.com/r/LocalLLaMA/comments/1j85snw/experimental\\_control\\_the\\_thinking\\_effort\\_of\\_qwq/), I created a way to set the thinking effort of QwQ by messing with the end - of - thinking token (</think>) logit.”
- 亮点：原帖作者解释设置QwQ思考努力程度方法的依据。
“🤔 But when I set the thinking effort to 2.5, it really did it! A working simulation in one shot!”
- 亮点：体现高思考设置下一次性成功模拟的关键结果。
“👀 That’s awesome, I think you cracked the thinking - levels of OpenAI.”
- 亮点：表达对原帖操作高度赞赏，认为达到很高水平。
“🤔 I dont think it is necessary cause at the initial tokens, the logits for are naturally small, witch means it is very unlikelly (if not impossible) that it will stop thinking.”
- 亮点：对添加思考标记权重调整器提出不同看法的依据。
“😂 Good stuff!”
- 亮点：简单直接地对项目表示认可。

情感分析

总体情感倾向为积极。大部分评论者对原帖中的成果表示赞赏、认可或好奇，如认为这是一项创新、工作很出色等。主要分歧点在于对推理模型的思考标记权重调整的必要性，部分人认为有必要改进，部分人觉得模型自身基于训练给出结果就好。可能的原因是大家对模型本身的理解和期望不同，有些人更关注优化模型的可能性，而有些人则认为现有机制已足够。

趋势与预测

新兴话题：将原帖中的方法应用到其他模型（如R1）的测试，以及对“”标记在不同情况（如不是单个标记时）下对数偏差的深入研究。
潜在影响：如果相关技术得到进一步发展，可能会对QwQ及其他推理模型的性能优化产生积极影响，也可能为人工智能领域的研究提供新的思路和方法。

详细内容：

标题：关于 QwQ 高思维努力设置解决弹球问题的热门讨论

近日，Reddit 上一个关于 QwQ 在高思维努力设置下解决弹球问题的帖子引起了广泛关注。该帖子包含了一段视频链接：https://llminfo.image.fangd123.cn/videos/1j9lwlw.mp4 ，点赞数和评论数众多，引发了大家对相关技术问题的热烈讨论。

讨论的焦点主要集中在不同的思维努力设置所带来的效果、个人的实践经历以及对模型优化的各种观点。有人分享道：“作为一名在相关领域探索的研究者，我先尝试了稍微大一点的思维努力（1.2，然后 1.5），但没有成功。但当我把思维努力设置到 2.5 时，真的成功了！一次就实现了有效的模拟！”还有人提出：“也许 llamacpp 和其他模型需要为推理模型的思考令牌添加一个权重调节器，在我们选择令牌并设置权重时发挥作用。”

有用户认为设置终止包络（类似于音频包络）动态变化的方式会更好。但也有人认为没有必要，因为在初始令牌时，的对数几率自然很小。

关于如何优化模型，有人认为只需要像 ASL_Dev 那样设置一个简单的比例参数。而有人则认为对于思考时间非常短的模型，强制它们思考更长时间，比如让在 10K 个令牌后才出现，看看这些模型是否能开始处理非常困难的提示，或许会有新的发现。

有用户分享自己在 Mac 上运行时遇到的问题以及解决方法，但在实现过程中也遇到了一些如球消失、需要调整重力和摩擦力等情况。

同时，也有用户对设置的合理性提出疑问，认为两个仅改变单个值的参数而不是一个参数，让人感到有些困惑。

总的来说，这次关于 QwQ 高思维努力设置解决弹球问题的讨论，充分展现了大家在技术探索道路上的思考和实践，为相关领域的发展提供了有价值的参考和思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#