原贴链接

来自另一个话题:

双子座(Gemini)的快速思考在聊天机器人竞技场(Chatbot Arena)中表现很棒。但为什么会这样呢?在人们跟风说‘聊天机器人竞技场很糟糕’之前,必须要理解在那里测试的是什么。很多人说是‘人类偏好’,但我认为有点不同。

很可能在聊天机器人竞技场中,人们用相对简单的问题来测试大型语言模型(LLM),类似于‘告诉我如何用X编写一个函数’,而不是‘这个函数不起作用,修复它’。

聊天机器人竞技场(至少就整体类别而言)对于判断‘哪个模型适合日常使用而不是搜索网络’是很有用的。

而且我认为一些公司,比如谷歌,正是为此进行优化的。因此聊天机器人竞技场对他们来说是相关的。他们希望拥有能够替代或补充其搜索引擎的模型。

在Reddit上,人们常常抱怨克劳德(Claude)或其他模型在聊天机器人竞技场(再次强调,是整体类别)中表现不佳,因此认为这个基准测试很糟糕。但这是因为那些人使用大型语言模型(LLM)的方式与聊天机器人竞技场的投票者不同。

要求大型语言模型(LLM)帮助解决一个小众(即在互联网上不常见的)编码或调试问题,比‘我使用大型语言模型(LLM)而不是搜索’的请求要困难得多。因此,一些模型在严格的基准测试中表现良好,但在最终衡量‘替代搜索引擎回答常见问题’指标的基准测试中表现较差。

因此,‘我感觉所有这些模型发布时使用的当前评估都离实际工作/生活场景太远了’这一观点有些正确。如果一个模型针对聊天机器人竞技场/搜索引擎使用进行优化,那么它当然不太可能被训练来持续解决小众问题。

而且,即使有一个与用例更相关的基准测试(比如:aider、livebench等等)。如果有一个大型语言模型(LLM)只有60%的正确率,那么人们仍然有很多工作要做来填补差距。

这也取决于提示语 - 我过去发现过一些文章对提示语进行比较,有些提示语确实能从大型语言模型(LLM)中提取信息。这些提示语在‘临时’基准测试中是标准化和优化的。在聊天机器人竞技场中,提示语可能很糟糕,因此再次说明,这里测试的是‘人们在基于大型语言模型(LLM)的搜索引擎中会输入什么’。

在我看来,LMSYS的人员提供的基于人类的严格基准测试包括:

  • 一般情况下的严格提示语类别
  • 一般情况下较长查询的类别(在我看来,大多数无意义的提示语都是简短的)
  • (这里不太确定)多轮对话类别。在一对一使用中,我们在与一个模型的同一次对话中会问很多问题。在聊天机器人竞技场中,人们大多对一次性问题进行投票,到此为止。这也是与个人使用大型语言模型(LLM)的一个巨大差异。
  • 对于编码,在WebDev竞技场排行榜上 - 到目前为止,克劳德(Claude)遥遥领先。10月24日的克劳德3.5(Claude 3.5)有1250分的Elo评分,深析(Deepseek)R1为1210分,o3 mini - high为1161分,下一个非思考型模型,双子座(Gemini)实验版为1206分,有1025分。克劳德3.5与双子座实验版之间的差距超过200分,差距很大,因此我认为实际上克劳德(Claude)是‘会思考的’,至少在某些领域是这样。它不可能在没有思考的情况下如此强大。
  • 如果聊天机器人竞技场能为每个特定子类别添加‘严格提示语’就好了。例如‘数学严格提示语’、‘编码严格提示语’等等。但我猜这会使投票过于分散,每周也需要太多分类工作。

这就是说,我认为如果从正确的角度来看,即主要是‘搜索引擎/Stack Overflow替代品’的角度,聊天机器人竞技场是非常有用的。

讨论总结

主题围绕Chatbot Arena基准测试的价值。一些人认为Chatbot Arena在评估LLMs回答常见搜索类问题、衡量替代搜索引擎性能方面有价值,像Gemini这样注重日常可用性的模型在此表现不错;但也有人指出如果使用场景不是获取搜索引擎答案时Chatbot Arena就无用,且结果呈现方式有问题。还有人提出很多领域难以进行质量定量评估,Chatbot Arena是从人类视角评估的意义,以及存在公司针对lmsys基准过度拟合的情况,甚至有人极端地认为LLMs无用。总体氛围是既有理性探讨也有极端否定,存在一定争议。

主要观点

  1. 👍 Chatbot Arena适合评估LLMs回答常见搜索类查询
    • 支持理由:可衡量模型在类似搜索引擎查询方面的表现,反映替代网页搜索场景。
    • 反对声音:当使用场景不是获取搜索引擎答案时,Chatbot Arena无用。
  2. 🔥 很多领域难以进行质量定量评估
    • 正方观点:像情感感知、创意写作等艺术范畴无法自动测量且无正确答案。
    • 反方观点:无(未涉及明显反方观点)
  3. 💡 公司存在针对lmsys基准过度拟合的情况
    • 解释:从lmsys竞赛能看出所提问题有趋势且少数强力用户有影响。

金句与有趣评论

  1. “😂这里是来自R1的要点总结:Chatbot Arena基准测试对于评估LLMs回答常见、类似搜索引擎的查询(例如,“如何在X中编写一个函数?”)而非复杂或小众任务(例如,调试晦涩的代码)是有价值的。”
    • 亮点:清晰指出Chatbot Arena在评估LLMs回答特定类型查询方面的价值。
  2. “🤔There are a huge number of different fields where it is very difficult to introduce a quantitative assessment of quality.”
    • 亮点:概括很多领域难以定量评估质量这一现象。
  3. “👀It’s completely useless when your use isn’t search engine answers from an assistant.”
    • 亮点:明确表达Chatbot Arena在非搜索引擎答案场景下无用的观点。

情感分析

总体情感倾向较为复杂,有正面肯定Chatbot Arena价值的,也有负面批评甚至完全否定LLMs价值的。主要分歧点在于Chatbot Arena是否有用以及LLMs的价值。可能的原因是大家对Chatbot Arena的测试目的理解不同,以及对LLMs应用场景和价值判断的差异。

趋势与预测

  • 新兴话题:可能会进一步探讨如何改善Chatbot Arena的结果呈现方式以及如何避免公司过度拟合基准。
  • 潜在影响:如果对Chatbot Arena的改进得以实现,可能会影响LLMs在搜索引擎替代方面的发展方向和评估标准,也可能影响公众对LLMs价值的认知。

详细内容:

《关于 Chatbot Arena 基准的热门讨论》

在 Reddit 上,一个关于 Chatbot Arena 基准的话题引起了广泛关注,获得了众多点赞和大量评论。原帖认为 Chatbot Arena 基准并非毫无用处,而是被误解了,它主要是对“假如大型语言模型为搜索引擎回答常见查询会怎样”的一种测试。

这场讨论的焦点主要集中在 Chatbot Arena 基准的价值和适用范围。有人指出,该基准对于评估大型语言模型回答常见的类似搜索引擎的查询(如“如何写一个 X 函数”)很有价值,而不是复杂或特定领域的任务。比如,谷歌的 Gemini 等模型在日常可用性方面表现出色,因为该基准反映了用户用大型语言模型替代网络搜索的场景。但也有人认为,如果使用需求并非搜索引擎式的回答,那么这个基准就毫无用处。

有人分享道:“Chatbot Arena 基准是有价值的,用于评估大型语言模型如何回答常见的、类似搜索引擎的查询,而不是复杂或特定领域的任务。模型如谷歌的 Gemini 在这里表现出色,因为该基准反映了用户用大型语言模型替代网络搜索的场景。批评往往产生于用户期望它测试专业或更难的任务,但这并非其设计目的。比如 Claude 在特定的编码基准(如 WebDev Arena)中占主导地位,但在一般的 Chatbot Arena 中可能落后。该基准的优势在于其背景:衡量‘搜索引擎替代’的性能,而非通用能力。对于更难的任务,特定领域的基准更相关。”

也有人提出:“任何大型语言模型都是没用的,就像电子游戏——很刺激但总是浪费时间。”

还有人认为:“在很多不同的领域,引入质量的定量评估是非常困难的。这通常被称为艺术而非科学。推理不适用于艺术,它不能被自动测量,而且往往没有正确答案。这是与感知和解释情感、创意写作等相关的问题,这是物理学家与抒情诗人、技术人员与人文学者、男人与女人的经典困境。”

讨论中存在共识,即 Chatbot Arena 基准在特定情境下有其价值,但对于不同的使用场景和需求,其适用性存在差异。特别有见地的观点是指出了不同模型在不同领域和任务中的表现差异,丰富了对该基准的理解。

总的来说,关于 Chatbot Arena 基准是否有用的讨论反映了人们对大型语言模型评估标准的思考和争议。