它们几乎从来不会表现出‘我真不知道该怎么办’。当然，有时候它们会吐出像‘我的训练数据截止于……’这样的样板话术。但考虑到海量的训练数据，肯定有很多情况的数据是‘不知道’的。

讨论总结

原帖提出大型语言模型（LLMs）总是很自信，即便训练数据中应该存在很多表示“不知道”的情况。评论者们从多个角度进行讨论，主要围绕训练数据的构成和性质、模型自身机制、人类对回答的反应等方面展开，总体氛围是在理性探讨这一现象背后的原因。

主要观点

👍 LLMs的训练数据倾向于包含那些自认为知道答案的人的回答，所以很少显示“不知道”。
- 支持理由：以人们在网上回答问题的习惯为例，知道或自认为知道答案的人才会回复，LLMs基于这样的数据训练。
- 反对声音：无
🔥 LLMs总是很自信的现象源于训练数据结构，多为“自信且有用”的答案，使模型的回答也很自信。
- 正方观点：训练数据结构导致模型学到的是自信回答的模式。
- 反方观点：无
💡 LLM没有基本事实数据库或运行时测试，无法知晓自己不知道。
- 解释：输出逻辑值受限制，采样器选择概率最高结果，所以它从不知道自己不知道。
💡 大型语言模型总是自信可能是由于基于reddit用户数据训练。
- 解释：reddit用户很少表达“不知道”的态度，可能导致模型如此。
💡 需要新的训练范式（如强化学习）来判断高层次想法的确定性，让模型了解自身。
- 解释：LLMs没有学会判断自身想法质量，存在不确定性，但成因复杂，强化学习有助于改进。

金句与有趣评论

“😂 当有人在网上发布问题时，人们不会点进帖子然后说“我不知道”。知道或者自认为知道的人会发布回复。这就是它们（LLMs）所接受的训练内容。”
- 亮点：形象地解释了LLMs训练数据与自信表现的关系。
“🤔 Great question!”
- 亮点：对原帖问题的肯定，表明这个问题值得探讨。
“👀 It comes from the way training data is structured.”
- 亮点：简洁地指出LLMs总是很自信与训练数据结构有关。

情感分析

总体情感倾向是中性的，主要是在理性探讨LLMs总是很自信这一现象。分歧点在于对造成这种现象的原因有不同看法，有的认为是训练数据的问题，有的认为是模型机制的问题，还有的从人类反应等方面进行解释。可能的原因是大家从不同的专业背景或思考角度出发，同时LLMs是一个复杂的技术话题，存在多种影响因素。

趋势与预测

新兴话题：如何通过新的训练技术或策略改善LLMs总是很自信的情况，如强化学习、创建特殊训练集等方法。
潜在影响：如果能够改善LLMs的这种情况，将提高其回答的准确性和可信度，在自然语言处理、人工智能交互等相关领域产生积极影响，例如在智能客服、信息检索等应用场景下，能提供更符合实际情况的回答。

详细内容：

《为何语言模型总是如此自信？》

在 Reddit 上，一篇题为“为何 LLMs 总是如此自信？”的帖子引发了热烈讨论。该帖子指出，语言模型（LLMs）几乎从不表示“我真不知道该怎么做”，尽管训练数据量巨大，其中必然有很多“我不知道”的情况。此帖获得了众多关注，引发了大量的评论和深入探讨。

讨论的焦点主要集中在以下几个方面：

有人认为，当人们在网上提问时，往往是知道答案或自认为知道的人才会回复，这是语言模型所训练的模式。也有人指出，在一些平台上，如 Stack Exchange，存在着不确定或“我不知道”的回答，但模型可能更多训练于排名较高的回答，而非这些不确定的回答。

还有观点认为，语言模型无法像人类一样进行自我认知和判断，不知道自己是否知道。例如，有用户分享道：“Transformer 无法知道自己不知道某些东西。不存在真实的数据库或对裸语言模型的运行时测试。输出的对数概率总是被塞进[0,1]分布中，然后由采样器选择顶部的结果。在任何时候，裸语言模型都不知道自己不知道。”

一些有趣的观点也不断涌现。比如，有人提出语言模型能否在构建回答时给出一个置信分数，或者在回答中添加类似“但我对我的回答只有 50%的把握”这样的表述。

对于语言模型为何总是自信这一问题，存在多种见解。有的认为是训练数据的结构所致，有的认为是模型本身的机制限制。同时，也有人认为通过新的训练范式和强化学习，可能会改善这一情况。

总之，关于语言模型的自信问题，Reddit 上的讨论丰富多样，从不同角度深入剖析了这一现象，为我们理解语言模型的行为和特点提供了多元的视角。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#