原贴链接

我在一家韩国小创业公司工作，试图利用人工智能帮助律师。我们有自己的评估集，例如给出2个不同的法律查询，询问大型语言模型（LLM）这些查询是否在同一语境下。几个月前，这个评估集还有意义。例如Llama 3比Llama 2表现好得多，GPT - 4比Llama表现好。但昨天，我听说Llama 3.3发布了，想看看它是否比Llama 3.1好。我进行了评估，然后突然意识到整个评估都没用了。Claude 3.5和GPT - 4o得到了90 - 95%，Llama 3.1得到了85%，Llama 3.3得到了88%。Llama 3.3比Llama 3.1好，但坦白说，所有模型都表现得非常好……编辑：sonnet得到90.1%，4o得到90.1%，Llama 3.1得到83.6%，Llama 3.3得到88.3%

讨论总结

原帖作者表示在评估用于帮助律师的AI模型时，发现随着模型发展，原有的评估方式变得难以区分模型好坏，觉得评估失去意义。评论者们针对此展开多方面讨论，包括对LLM测试方式的质疑、如何设定基准、对原帖中百分比理解的不同看法、分享特定模型的评分和表现等，整体讨论氛围积极，大家都在尝试从不同角度分析模型评估这一主题。

主要观点

👍 目前LLM的测试方式存在不足。
- 支持理由：如像询问单词中的字母等测试手段蹩脚，代码基准易被设置困难，测试应取决于明确对LLM的需求。
- 反对声音：无。
🔥 原帖作者对百分比工作原理存在误解。
- 正方观点：通过举例阐述百分比接近100%时，微小变化会带来结果上大差异，在生产环境中更是如此。
- 反方观点：原帖作者未回应。
💡 特定任务使用者应创建自己的基准。
- 解释：不同使用场景下需求不同，应根据自身需求创建基准，例如解释笑话、代入故事角色等可作为测试基准。
💡 个人测试提示已过时。
- 解释：现代模型能力提升，原有的测试提示已不能很好满足评估需求，需要提升提示技巧。
💡 最新一代LLMs在实际应用中超越了评估基准。
- 解释：通用评估大多已达极限，30B模型现在能轻易超越之前70B模型都无法触及的成果。

金句与有趣评论

“😂 这就引出了一个很好的问题，对大型语言模型（LLM）来说，什么才是真正的测试？”
- 亮点：直接指出讨论的核心问题之一，引发大家对LLM测试本质的思考。
“🤔 大多数情况下，每个将LLM用于特定任务的人都应该创建（或与类似用户合作开发）自己的基准。”
- 亮点：强调针对特定任务创建基准的必要性。
“👀 我的个人测试提示考虑到大多数现代模型都能出色应对，变得有些过时了。”
- 亮点：表明随着模型发展，测试提示也需要更新。
“😎 The point is that 50% and 95% are a lot closer to each other than 95% and 99% when it comes to outcomes.”
- 亮点：从结果角度阐述百分比之间关系，改变人们对百分比差异的常规理解。
“💡 模型对人类95%的小任务已足够好，追求99%（考虑到其难度）有何意义？”
- 亮点：提出关于模型准确率追求意义的哲学思考。

情感分析

总体情感倾向为积极探索。主要分歧点在于原帖作者对百分比的理解，可能原因是原帖作者从简单数字差异看待百分比，而反驳者从实际结果影响角度考虑。

趋势与预测

新兴话题：利用LLM设计更好的测试套件、混合使用不同模型用于特定场景。
潜在影响：对LLM在各行业的应用评估方式产生影响，促使企业重新思考如何根据自身需求评估模型，以达到最佳使用效果。

详细内容：

标题：评估语言模型的困境与多样观点

在 Reddit 上，有一篇关于评估语言模型难度增大的热门讨论。原帖作者称在一家韩国小型初创公司工作，试图利用 AI 帮助律师，他们有自己的评估集，但最近发现整个评估变得无用。帖子获得了众多关注和大量评论。

主要讨论方向集中在如何建立有效的语言模型评估标准。有人认为对于大型语言模型，真正的测试是什么是个难题，好的基准应取决于想从模型中得到什么。也有人表示每个将语言模型用于特定任务的人都应创建自己的基准，通用基准可能不适用。还有人提出应根据自己的用例进行测试，为关心的问题创建私人评估数据集。

有人认为让语言模型解释笑话是总体上最好的基准之一，因为笑话通常微妙，需要深刻的文化洞察力和“读懂言外之意”的能力。

有用户分享道：“正如我之前在这个论坛上写的，我认为让 LLM 解释笑话是总体上最好的基准之一。笑话通常非常微妙，需要深刻的文化洞察力才能完全理解。它们经常涉及人类很少直接谈论的禁忌话题，所以即使理解一个笑话的背景也可能需要‘读懂言外之意’。而且按照普遍的惯例，人类通常不会解释笑话，所以在标准训练数据集中相对较少有笑话解释。”

对于评估标准，存在不同观点。有人认为百分比的微小差异在实际效果上可能有巨大差别，有人则对小模型在韩语任务中的表现不佳表示遗憾。但也有人认为最新一代的语言模型已经好到在实际应用中打败了基准测试。

讨论中的共识是为特定任务创建专门的评估集非常重要。独特的观点如用解释笑话作为基准，丰富了讨论内容，让人们从更多角度思考语言模型的评估方法。

总之，关于语言模型评估的讨论仍在继续，如何建立科学、有效的评估标准仍有待探索。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#