原贴链接

我看到很多研究提示大语言模型(LLMs)做出分类决策或其他类型的决策并报告一个置信分数——例如,“提供一个从1(低)到10(高)的分数来评定你对这个分类的信心”。大语言模型会遵循指令,但实际的分数有意义吗?这意味着模型有元认知来评估它们的决策。这在ChatGPT的新推理层下可能是可行的。然而,基于模型预测单词的方式,这个置信评级似乎更多是大语言模型工作方式的产物,而不是真正有意义的。

讨论总结

这个讨论围绕LLMs的置信度分数是否有意义展开。不同的评论者从各自的角度出发,如LLMs的工作原理、语言的特性、实验探索以及不同的应用场景等方面,提出了各种观点,有的认为有意义,有的认为意义不大,整体讨论氛围较为理性和专业。

主要观点

  1. 👍 LLMs的置信度评分基于对其选择标记方式的误解。
    • 支持理由:Linkpharm2指出其选择标记基于概率(受温度影响而增加),模型实际不知这些概率,估计可能偏离。
    • 反对声音:部分评论者认为置信分数有一定意义并非完全基于误解。
  2. 🔥 LLMs的置信分数有意义不是随机的,但不应过度相信其精确评分。
    • 正方观点:通过实验发现评分至少在方向上是正确的。
    • 反方观点:有评论者认为单个分数无意义,不能反映模型真正的认知。
  3. 💡 在分类方面对数概率不可解释,但给模型生成空间或让其输出百分比数组时模型分类表现较好。
    • 解释:liminite等通过相关讨论得出这一结论,表明模型在特定条件下在分类任务中的表现差异。
  4. 💡 运行LLM是模拟人类任务,LLM的信心分类是在模拟中的模拟里进行,所以信心分数没太多意义。
    • 解释:从模拟人类执行任务的角度出发,内部世界模型的复杂程度影响信心分数的意义。
  5. 💡 单个LLMs置信分数无意义,但分数的分布可能是有意义的。
    • 解释:考虑到语言具有流动性以及单词与含义之间的多种协方差和关系,从整体分布看分数可能存在意义。

金句与有趣评论

  1. “😂 It works somewhat, but it’s based of a misunderstanding on how they choose tokens.”
    • 亮点:直接指出LLMs置信度评分的问题所在,是基于对选择标记方式的误解。
  2. “🤔 So, by running an LLM you’re emulating a human doing a task.”
    • 亮点:从模拟人类任务的角度看待LLM,为理解置信分数的意义提供新视角。
  3. “👀 语言是一种具有多种协方差和关系的流动事物,所以单个分数是没有意义的,但分数的分布可能是有意义的。”
    • 亮点:从语言特性出发探讨置信分数的意义,提出了不同的思考方向。
  4. “😎 It can even articulate why it gives a low confidence score which can be helpful for refining the prompt.”
    • 亮点:指出LLM能阐述低信心分数的原因对优化提示词有帮助,这是置信分数的一个潜在作用。
  5. “🤨 My casual experimenting on this suggests it’s directionally right at least.”
    • 亮点:通过自己的实验表明置信分数在方向上是正确的,为置信分数有意义提供了证据。

情感分析

总体情感倾向较为理性中立。主要分歧点在于LLMs的置信度分数是否有意义。产生分歧的原因包括对LLMs工作原理的不同理解、从不同的任务场景(如分类任务、模拟人类任务等)去考量,以及从语言本身特性角度出发的不同解读等。

趋势与预测

  • 新兴话题:组织人员对LLMs置信分数进行研讨以及探索更多的研究方法。
  • 潜在影响:如果能够明确置信分数的意义,可能会对LLMs在各个领域的应用(如分类任务、信息判断等)产生影响,帮助人们更好地利用LLMs的输出结果。

详细内容:

标题:LLM 的置信分数是否有意义?在 Reddit 引发热烈讨论

最近,Reddit 上一篇关于“LLM 的置信分数是否有意义”的帖子引起了广泛关注。该帖子指出,在众多研究中让 LLM 做出分类决策并报告置信分数,但这种分数是否真的有意义值得探讨。此帖获得了众多点赞和大量评论。

讨论的焦点主要集中在以下几个方面: 有人认为其有一定作用,但基于对令牌选择的误解,估算可能准确也可能有偏差。例如,有人说:“在 sillytavern 中,你可以看到令牌的几率。示例值可能像‘我认为’,‘是(47%)’‘否(22%)’‘可能(2%)’等。但这只是示例值,实际情况中它们并不能实时知晓这些。” 也有人觉得虽然不是完全随机,但也不可靠。比如有人尝试询问抛硬币等随机情况,有时会得到高达 99%的结果。 还有人指出,这是基于权重,若训练数据创建的权重在特定情境下产生了该令牌,就不一定是随机的。 有人提出,通过运行 LLM 是在模拟人类执行任务,让 LLM 对置信度进行分类是在模拟中的另一个层面,所以置信分数意义不大,使用对数几率来衡量置信度是更好的主意。 有人通过实践发现,参数更多的 LLM 在这方面表现更好,且取决于提示,指令越少效果越好,甚至能解释给出低置信分数的原因,有助于优化提示。

讨论中也存在一些共识,比如认为虽然置信分数不是完全随机,但也不能过于相信其精确评级,至少在方向上是正确的。

特别有见地的观点如:语言是多变且复杂的,单个分数无意义但分数分布可能有意义;让模型多次回答并量化取最常见答案等方式或许可行。

总的来说,关于 LLM 的置信分数是否有意义,大家观点各异,仍有待进一步探讨和研究。