做了一个元评估,让大型语言模型(LLMs)根据几个标准对其他LLMs进行评分。这些输出不应被视为直接的质量衡量标准,而应被视为观察内在偏差的一种方式。首先,它收集“介绍卡片”,在这些卡片中LLMs尝试评估自己的智力、幽默感、创造力并提供一些关于其母公司的信息。然后,其他LLMs根据它们对第一个LLM的了解以及在介绍卡片中看到的内容,在几个类别中对第一个LLM进行评分。每个评分重复5次,并计算上述表格中所有评分和类别的平均值。原始结果也可在HuggingFace上获取:[https://huggingface.co/datasets/av - codes/llm - cross - grade](https://huggingface.co/datasets/av - codes/llm - cross - grade)。观察结果:表格中有一些明显的异常值,如对我个人来说最大的惊喜是没有对角线;Llama 3.3 70B有明显的正向偏差,phi - 4也有但程度较轻;gpt - 4o为其他LLMs生成最受欢迎的输出(可能是大多数新LLMs基于GPT输出进行训练的副产品);Claude 3.7 Sonnet对自己的评价相当低,因为它总是回复自己是由Open AI创建的,但随后又意识到错误;Qwen 2.5 7B非常犹豫给任何模型评分;Gemini 2.0 Flash是一个相当苛刻的评判者,我们可以推测原因在于其训练语料与其他模型不同;LLMs倾向于将其他LLMs评为偏向自己(可能是因为“营销”输出);LLMs倾向于将其他LLMs的智力标记为“高于平均水平”——可能由于与上述相同的原因。还有一些相关图片链接。
讨论总结
原帖作者开展了一项针对大型语言模型(LLMs)的元评估工作,让LLMs对其他LLMs按一些标准进行评分,结果不代表直接质量测量而是观察内置偏差,原帖还给出了部分观察结果。评论者们主要进行了肯定、提问、补充说明以及分享相关技术等操作,整个讨论热度较低,氛围比较和谐。
主要观点
- 👍 原帖工作非常酷
- 支持理由:这是一种创新的对LLMs进行评估的方式。
- 反对声音:无。
- 💡 对是否忽略评判输出所用提示语表示疑惑并寻求论文链接
- 正方观点:实验应该严谨对待提示语且应有论文支撑。
- 反方观点:无。
- 🔥 gpt - 4o在模型中的平均评分最高
- [解释]:原帖实验结果显示gpt - 4o在模型相互评估中有最高的平均评分。
- 🤔 模型的思考或推理量与自我怀疑程度有关
- [解释]:评论者观察到模型越“思考”越容易表现出自我怀疑。
- 💡 非gpt - 4o模型准确性提升更显著
- [解释]:在评论者公司的幻觉检测系统中,非gpt - 4o模型在准确性提升方面表现更明显。
金句与有趣评论
- “😂 anotclevername: Very cool work.”
- 亮点:简洁地表达了对原帖工作的肯定。
- “🤔 Am I overlooking the prompts used to produce the outputs the llms judged. Is there a paper link?”
- 亮点:提出了实验严谨性方面的疑问。
- “👀 The second image shows gpt - 4o with highest average grade by model at 6.83”
- 亮点:补充了原帖中关于gpt - 4o评分的结果。
- “😉 It seems that the more a model “thinks” or reasons, the more self - doubt it shows.”
- 亮点:对模型特性提出了有趣的观点。
- “🤓 The resulting accuracy gains are consistently greater for non gpt - 4o models in our experience, perhaps due to the same phenomenon…”
- 亮点:分享了在技术应用中的独特发现。
情感分析
总体情感倾向是正面的,评论者大多对原帖作者的工作表示肯定和赞赏。主要分歧点较少,仅在对实验严谨性方面存在一些疑问,但未形成强烈的对立观点。可能的原因是原帖只是一个初步的探索性项目,还未引起大规模的争议性讨论。
趋势与预测
- 新兴话题:利用LLM评估其他LLM输出以提升准确性的相关技术可能会引发后续讨论。
- 潜在影响:对LLM的开发和优化有着积极的潜在影响,有助于提升LLM的准确性和性能。
详细内容:
《关于 LLMs 输出的热门讨论》
在 Reddit 上,一则关于 LLMs 输出的帖子引发了广泛关注。原帖作者进行了一项元评估,让 LLMs 对其他 LLMs 的几个标准进行评级,指出结果不应被直接视为质量衡量,而是观察内置偏差的一种方式。该帖子还提供了原始结果在 HuggingFace 上的链接:https://huggingface.co/datasets/av-codes/llm-cross-grade 。此帖获得了众多点赞和评论,大家围绕着这一话题展开了热烈讨论。
讨论的焦点集中在多个方面。有人认为 Llama 3.3 70B 具有明显的积极性偏差,phi-4 也有但程度较轻。有人指出 gpt-4o 为其他 LLMs 产生了最受欢迎的输出,可能是由于大多数新的 LLMs 是基于 GPT 输出进行训练的副产品。还有人发现 Claude 3.7 Sonnet 对自己的估计很差,Qwen 2.5 7B 对任何模型的估计都很犹豫,Gemini 2.0 Flash 是相当严厉的评判者。
有人分享道:“The second image shows gpt-4o with highest average grade by model at 6.83”。还有用户提出:“It seems that the more a model ‘thinks’ or reasons, the more self - doubt it shows. For example, models like Sonnet and Gemini often hedge with phrases like ‘wait, I might be wrong’ during their reasoning process—perhaps because they’re inherently trained to be cautious. On the other hand, many models are designed to give immediate answers, having mostly seen correct responses during training. In contrast, GRPO models make mistakes and learn from them, which might lead non - GRPO models to score lower in some evaluations. these differences simply reflect their training methodologies and inherent design choices.”
有用户提到:“Interesting! My company offers a hallucination - detection system that also uses any LLM to eval responses from any other LLM (plus additional uncertainty - estimation techniques): [https://cleanlab.ai/blog/llm - accuracy/](https://cleanlab.ai/blog/llm - accuracy/) We use our system to auto - boost LLM accuracy, using the same LLM to eval its own outputs. The resulting accuracy gains are consistently greater for non gpt - 4o models in our experience, perhaps due to the same phenomenon…”
在讨论中,大家对于各种模型的特点和表现存在不同的看法,同时也对模型的训练方法和设计选择进行了深入探讨,形成了一定的共识,即这些差异在很大程度上取决于模型的训练和设计。但关于如何更准确地评估和改进 LLMs 的性能,仍存在许多争议和需要进一步研究的问题。
感谢您的耐心阅读!来选个表情,或者留个评论吧!