原贴链接

Denny Zhou最近的一次演讲（https://dennyzhou.github.io/LLM-Reasoning-Berkeley.pdf）涵盖了多种提高LLM推理的技术。在演讲中，他提到了Google Deepmind最近的一篇论文《无需提示的思维链推理》（https://arxiv.org/abs/2402.10200）。

这篇论文的关键思想是，现有模型可以通过一种新的解码策略进行CoT风格的逐步推理。我在optillm中实现了他们的方法 - https://github.com/codelion/optillm/blob/main/optillm/cot_decoding.py，因为我找不到任何像样的开源实现。

我还使用最新的开源Qwen 2.5（0.5B）模型复制了他们的核心思想。我在GSM8K基准测试中使用cot解码，发现性能提升了+9.55分（从22.82提升到32.37）。因此，cot解码是一种有趣的方法，可以在不明确提示的情况下从现有LLM中引出推理。

请记住，在optillm中，你不能将cot解码与代理一起使用，因为该技术不能仅通过LLM API工作，你需要访问模型。你可以使用这个Google Colab笔记本测试HF中的任何模型 - https://colab.research.google.com/drive/1SpuUb8d9xAoTh32M-9wJsB50AOH54EaH?usp=sharing

讨论总结

本次讨论主要围绕“Chain-of-Thought Reasoning without Prompting”技术展开，探讨了其对大型语言模型（LLM）推理能力的提升。参与者讨论了该技术在不同模型（如Qwen 2.5）和任务（如GSM8K基准测试）中的应用效果，并对其性能提升和潜在问题进行了深入分析。讨论中涉及了技术实现细节、置信度评分、数据污染、成本效益等多个方面，总体氛围积极，技术讨论深入。

主要观点

👍 新解码策略显著提升LLM推理能力
- 支持理由：在GSM8K基准测试中，使用CoT解码策略的Qwen 2.5模型性能提升了+9.55分。
- 反对声音：有评论者质疑置信度评分的可靠性，认为换行符的高置信度可能导致生成的答案过长。
🔥 CoT解码策略无需显式提示即可激发模型推理
- 正方观点：该技术通过新的解码策略，在不使用显式提示的情况下，激发模型进行逐步推理。
- 反方观点：有评论者质疑该策略在实际应用中的成本效益，认为其比传统方法更昂贵。
💡 置信度评分在RLHF中的应用潜力
- 解释：有评论者提出，可以利用CoT解码策略生成的置信度评分作为强化学习人类反馈（RLHF）中的奖励信号。
👀 数据污染问题引发对新基准的讨论
- 解释：有评论者指出GSM8K数据集可能存在数据污染问题，强调了新基准的重要性。
🤔 CoT解码策略与问题分解的比较
- 解释：有评论者质疑CoT解码策略是否比问题分解更有效，回复者通过具体例子展示了CoT解码的效果。

金句与有趣评论

“😂 It looks like almost free-lunch! Thank you for sharing this! I’ll give it a try soon.”
- 亮点：评论者对新技术的积极态度和对尝试的期待。
“🤔 We can actually use this confidence score from this approach as a reward signal in RLHF. Agree?”
- 亮点：评论者提出了一个创新的技术应用设想。
“👀 The problem is that the confidence score of the generated output is skewed by the newline tokens.”
- 亮点：评论者指出了技术实现中的一个潜在问题。
“😂 This is very interesting, thank you!”
- 亮点：评论者对帖子内容的积极反馈。
“🤔 If the model’s data limitation is the reason for its lack of judgment, how does the model judge the persuasiveness of each argument?”
- 亮点：评论者提出了一个关于模型判断力的深刻问题。

情感分析

讨论的总体情感倾向积极，参与者对新技术表示了浓厚的兴趣和赞赏。主要分歧点在于技术的可靠性和成本效益，部分评论者对置信度评分的准确性和技术的高成本提出了质疑。这些分歧可能源于对技术细节的理解差异和对实际应用效果的不同预期。

趋势与预测

新兴话题：CoT解码策略在不同模型和任务中的进一步应用和优化。
潜在影响：该技术可能对大型语言模型的推理能力和性能提升产生深远影响，尤其是在需要复杂推理的任务中。同时，如何解决技术的高成本和置信度评分的可靠性问题，将是未来研究的重点。

详细内容：

标题：探索 LLM 中的 CoT 解码，引发 Reddit 热议

近期，Reddit 上一个关于“CoT Decoding - Eliciting Reasoning from LLMs”的帖子引起了广泛关注。该帖（https://dennyzhou.github.io/LLM-Reasoning-Berkeley.pdf）介绍了 Denny Zhou 涵盖的多项提升 LLM 推理能力的技术，还提及了谷歌 Deepmind 的一篇论文“Chain-of-Thought Reasoning without Prompting”（https://arxiv.org/abs/2402.10200）。作者在 optillm 中实现了相关方法，并使用 Qwen 2.5 （0.5B）模型进行测试，在 GSM8K 基准测试中发现得分提高了超过 9.55 点。此帖获得了众多点赞和大量评论，引发了关于 CoT 解码的深入讨论。

讨论焦点与观点分析：有人表示这看起来几乎是“免费午餐”，并打算尝试。有人提到可以通过运行 OpenAI API 兼容服务器来操作，但也有人指出 CoT 解码不能通过代理实现。有人分享了自己的实验观察，认为这种方法通过生成多个输出并选择置信度最高的来工作，但存在问题，比如换行符总是具有高置信度，导致生成的输出受其影响，从而质疑这种方法的可靠性。有人认为可以将这种方法的置信度得分用作 RLHF 中的奖励信号。对于如何处理换行符，有人建议直接忽略，还有人指出答案标记很少包含换行符，所以换行符的高置信度影响不大。有人询问该方法与其他类似技术的区别，有人对其在不同模型和场景中的应用表现出兴趣。

在这场讨论中，大家对于 CoT 解码的效果、应用范围和潜在问题各抒己见，既有对其前景的期待，也有对可能存在问题的担忧。

总之，关于 CoT 解码的讨论仍在继续，它为提升 LLM 的推理能力带来了新的思路和探索方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#