原贴链接

我看到很多研究提示大语言模型（LLMs）做出分类决策或其他类型的决策并报告一个置信分数——例如，“提供一个从1（低）到10（高）的分数来评定你对这个分类的信心”。大语言模型会遵循指令，但实际的分数有意义吗？这意味着模型有元认知来评估它们的决策。这在ChatGPT的新推理层下可能是可行的。然而，基于模型预测单词的方式，这个置信评级似乎更多是大语言模型工作方式的产物，而不是真正有意义的。

讨论总结

这个讨论围绕LLMs的置信度分数是否有意义展开。不同的评论者从各自的角度出发，如LLMs的工作原理、语言的特性、实验探索以及不同的应用场景等方面，提出了各种观点，有的认为有意义，有的认为意义不大，整体讨论氛围较为理性和专业。

主要观点

👍 LLMs的置信度评分基于对其选择标记方式的误解。
- 支持理由：Linkpharm2指出其选择标记基于概率（受温度影响而增加），模型实际不知这些概率，估计可能偏离。
- 反对声音：部分评论者认为置信分数有一定意义并非完全基于误解。
🔥 LLMs的置信分数有意义不是随机的，但不应过度相信其精确评分。
- 正方观点：通过实验发现评分至少在方向上是正确的。
- 反方观点：有评论者认为单个分数无意义，不能反映模型真正的认知。
💡 在分类方面对数概率不可解释，但给模型生成空间或让其输出百分比数组时模型分类表现较好。
- 解释：liminite等通过相关讨论得出这一结论，表明模型在特定条件下在分类任务中的表现差异。
💡 运行LLM是模拟人类任务，LLM的信心分类是在模拟中的模拟里进行，所以信心分数没太多意义。
- 解释：从模拟人类执行任务的角度出发，内部世界模型的复杂程度影响信心分数的意义。
💡 单个LLMs置信分数无意义，但分数的分布可能是有意义的。
- 解释：考虑到语言具有流动性以及单词与含义之间的多种协方差和关系，从整体分布看分数可能存在意义。

金句与有趣评论

“😂 It works somewhat, but it’s based of a misunderstanding on how they choose tokens.”
- 亮点：直接指出LLMs置信度评分的问题所在，是基于对选择标记方式的误解。
“🤔 So, by running an LLM you’re emulating a human doing a task.”
- 亮点：从模拟人类任务的角度看待LLM，为理解置信分数的意义提供新视角。
“👀 语言是一种具有多种协方差和关系的流动事物，所以单个分数是没有意义的，但分数的分布可能是有意义的。”
- 亮点：从语言特性出发探讨置信分数的意义，提出了不同的思考方向。
“😎 It can even articulate why it gives a low confidence score which can be helpful for refining the prompt.”
- 亮点：指出LLM能阐述低信心分数的原因对优化提示词有帮助，这是置信分数的一个潜在作用。
“🤨 My casual experimenting on this suggests it’s directionally right at least.”
- 亮点：通过自己的实验表明置信分数在方向上是正确的，为置信分数有意义提供了证据。

情感分析

总体情感倾向较为理性中立。主要分歧点在于LLMs的置信度分数是否有意义。产生分歧的原因包括对LLMs工作原理的不同理解、从不同的任务场景（如分类任务、模拟人类任务等）去考量，以及从语言本身特性角度出发的不同解读等。

趋势与预测

新兴话题：组织人员对LLMs置信分数进行研讨以及探索更多的研究方法。
潜在影响：如果能够明确置信分数的意义，可能会对LLMs在各个领域的应用（如分类任务、信息判断等）产生影响，帮助人们更好地利用LLMs的输出结果。

详细内容：

标题：LLM 的置信分数是否有意义？在 Reddit 引发热烈讨论

最近，Reddit 上一篇关于“LLM 的置信分数是否有意义”的帖子引起了广泛关注。该帖子指出，在众多研究中让 LLM 做出分类决策并报告置信分数，但这种分数是否真的有意义值得探讨。此帖获得了众多点赞和大量评论。

讨论的焦点主要集中在以下几个方面：有人认为其有一定作用，但基于对令牌选择的误解，估算可能准确也可能有偏差。例如，有人说：“在 sillytavern 中，你可以看到令牌的几率。示例值可能像‘我认为’，‘是（47%）’‘否（22%）’‘可能（2%）’等。但这只是示例值，实际情况中它们并不能实时知晓这些。” 也有人觉得虽然不是完全随机，但也不可靠。比如有人尝试询问抛硬币等随机情况，有时会得到高达 99%的结果。还有人指出，这是基于权重，若训练数据创建的权重在特定情境下产生了该令牌，就不一定是随机的。有人提出，通过运行 LLM 是在模拟人类执行任务，让 LLM 对置信度进行分类是在模拟中的另一个层面，所以置信分数意义不大，使用对数几率来衡量置信度是更好的主意。有人通过实践发现，参数更多的 LLM 在这方面表现更好，且取决于提示，指令越少效果越好，甚至能解释给出低置信分数的原因，有助于优化提示。

讨论中也存在一些共识，比如认为虽然置信分数不是完全随机，但也不能过于相信其精确评级，至少在方向上是正确的。

特别有见地的观点如：语言是多变且复杂的，单个分数无意义但分数分布可能有意义；让模型多次回答并量化取最常见答案等方式或许可行。

总的来说，关于 LLM 的置信分数是否有意义，大家观点各异，仍有待进一步探讨和研究。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#