原贴链接

昨天在搜索QwQ的提示词时,我偶然发现了一篇有趣的文章:[研究](https://www.researchgate.net/publication/389351923_Towards_Thinking - Optimal_Scaling_of_Test - Time_Compute_for_LLM_Reasoning)。简而言之:QwQ系统提示词有3个选项。低:低推理努力:你思考和回答用户查询的时间极其有限。每多一秒的处理和推理都会产生巨大的资源成本,这可能会影响效率和效果。你的任务是在不牺牲基本清晰度或准确性的前提下优先考虑速度。提供最直接、简洁的答案。除非绝对必要,否则避免不必要的步骤、反思、验证或改进。你的首要目标是提供一个快速、清晰和正确的答案。中:中等推理努力:你有足够的时间思考和回答用户的查询,从而给出更周全和深入的答案。然而,要知道你推理和处理的时间越长,相关的资源成本和潜在后果就越大。虽然你不应该仓促,但要在推理深度和效率之间寻求平衡。优先提供一个深思熟虑的答案,但如果通过合理的分析就能提供答案,就不要过度思考。明智地利用你的推理时间,专注于提供准确答案所必需的东西,避免不必要的拖延和过度思考。高:高推理努力:你有无限的时间来思考和回答用户的问题。不需要担心推理时间或相关成本。你的唯一目标是得到一个可靠、正确的最终答案。可以从多个角度探索问题,并在推理中尝试各种方法。这包括通过尝试不同的方法进行推理反思、从不同方面验证步骤以及根据需要重新思考你的结论。鼓励你花时间彻底分析问题,及时反思你的推理并测试所有可能的解决方案。只有在经过深入、全面的思考过程后,你才应该提供最终答案,确保答案正确且有充分的推理支持。尝试了高努力提示词并得到了一些好的结果,也许有人会感兴趣。编辑:修正了提示词中的一些复制粘贴问题。编辑2:似乎正如u/remixer_dec所注意到的以及u/spAnser所修正的那样存在一些坏字符。感谢他们,帖子已更新。

讨论总结

原帖主要分享了QwQ系统提示的低、中、高三种推理努力程度的选项,并提到高努力提示有不错的结果。评论者们围绕这个话题展开了多方面的讨论,包括提示对推理量和答案质量的影响、提示中字符合并的现象、不同推理努力程度触发相关操作的有效性、如何通过官方api让模型输出思考过程、是否对特定令牌进行偏置操作等,同时也有评论者表达了对原帖内容的认可并希望看到更多相关内容,整体氛围比较积极。

主要观点

  1. 👍 这些提示对推理量和答案质量有改变作用,对R1编辑后在R1上效果较好。
    • 支持理由:评论者VegaKH在使用中发现并表示。
    • 反对声音:无。
  2. 🔥 对提示中字符合并现象表示疑惑并提出可能是OCR伪影。
    • 正方观点:remixer_dec发现并提出疑惑。
    • 反方观点:无。
  3. 💡 质疑单独使用“高推理努力”或“低推理努力”能否触发相关操作。
    • 解释:评论者a_beautiful_rhind对QwQ系统提示中的推理努力设置的有效性存在疑惑。
  4. 💡 希望得到关于通过官方api sillytavern让模型输出思考过程的建议。
    • 解释:评论者Komd23提出的问题。
  5. 💡 询问是否有人对</think>令牌进行偏置操作。
    • 解释:AD7GD提出关于QwQ系统中令牌偏置是否被尝试的疑问。

金句与有趣评论

  1. “😂 这些提示似乎改变了推理的量和答案的质量,而且对R1稍加编辑后效果相当好。谢谢,原帖作者。”
    • 亮点:明确表达了对原帖分享的提示内容的认可和感谢。
  2. “🤔 remixer_dec: Why do your prompts have merged letters into a single character? OCR artifacts?”
    • 亮点:敏锐地发现提示中的字符合并现象并提出可能原因。
  3. “👀 任何人尝试过仅使用“高推理努力”或“低推理努力”是否足以触发这个吗?”
    • 亮点:对QwQ系统提示中推理努力设置提出疑问。
  4. “😊 我们需要更多的这个!!!”
    • 亮点:表达对帖子中QwQ系统提示内容的认可并希望看到更多。

情感分析

总体情感倾向是积极的。主要分歧点较少,大多数评论者要么对原帖表示认可、赞同,要么是对原帖内容进行理性的提问或疑惑。可能的原因是原帖分享的内容比较实用,并且原帖作者态度诚恳,积极回应评论者提出的问题(如字符合并问题后的更新)。

趋势与预测

  • 新兴话题:关于QwQ系统中令牌偏置的尝试以及通过官方api sillytavern让模型输出思考过程。
  • 潜在影响:如果能解决关于QwQ系统中令牌偏置和模型输出思考过程的问题,可能会提高QwQ系统的使用效率和效果,对使用QwQ系统的用户群体有积极影响。

详细内容:

《关于 QwQ-32B 提示的热门讨论》

近日,有一篇关于寻找 QwQ 提示的帖子在 Reddit 上引起了热烈关注。该帖子提供了一个有趣的文章链接research ,并介绍了 QwQ 系统提示的 3 种选项,获得了众多点赞和大量评论。

帖子引发的主要讨论方向包括这些提示的效果、如何修改和应用、以及是否有更简便的触发方式等。文章将要探讨的核心问题是这些不同的提示在实际应用中的表现和价值。

讨论焦点与观点分析

有人表示这些提示确实改变了推理的量和答案的质量,并且对 R1 进行微调后效果不错。有人好奇原作者做了哪些修改以及原因。还有人喜欢提醒 R1 将思考放在标签内,并分享了使用后的经验。

有人曾向 R1 解释上下文不足的情况,结果 R1 开始在标签内回答所有提示,并在后直接返回控制权,不过再也无法复制这一情况。

有人质疑提示中出现的合并字母问题,原作者解释可能是从链接研究中获取时产生的,之后进行了清理。

有人探讨是否仅使用“High Reasoning Effort”或“Low Reasoning Effort”就足以触发相应效果。有人认为任何降低序列结束标记出现概率的方法都有效,提示只是一种沟通方式,即使简单地说“如果觉得没完成就继续”也会有类似效果,但更详细的描述可能会让效果更好。

有人称赞这些讨论很有见地,有人询问如何通过官方 api sillytavern 让模型输出思考过程,还有人提出是否可以对< /think>标记进行偏向处理。

总的来说,大家在讨论中达成的共识是这些提示具有一定的实用性和研究价值。其中一些特别有见地的观点,如对提示的灵活运用和深入分析,丰富了整个讨论。