为什么GPT-4o mini在LMSys上胜过Claude 3.5 Sonnet

原贴链接

在LMSys Chatbot Arena发布了GPT-4o mini的评分后，包括我在内的许多人都在想，GPT-4o mini在哪些问题上击败了普遍认为是最聪明的LLM——Claude 3.5 Sonnet。

为此，LMSys发布了一组1000个随机选择的实际用户提示，比较了GPT-4o mini与其他LLM的回答，你可以在这里查看。（Twitter公告）

我阅读并比较了GPT-4o mini击败Sonnet 3.5的提示，GPT-4o mini获胜的主要原因可以归结为拒绝、回答长度和格式。通过这些结果，我学到了很多关于Arena偏好的特定LLM特征。

有些人推测奇怪的排名是因为普通人不再聪明到能准确区分正确答案，但这肯定不是这里的情况（因为人们不太可能问他们不知道如何判断的问题）。我认为大多数GPT-4o的获胜回答都是公平判断的，因为它们在至少一个方面主观上更好，符合提示的要求。

主要收获：

GPT-4o mini vs Sonnet 3.5

GPT-4o mini的格式明显更好，善于利用标题、字体大小、加粗、空白等来结构化输出，使其回答更容易阅读且更具视觉吸引力。Claude的输出样式应用较少。
Claude 3.5倾向于保持输出简洁，只提供所需的细节，而4o mini倾向于过度提供信息。
- 在氛围上，我会形容Claude是那个聪明、道德上严格遵守工作描述的人，不多做任何事。GPT-mini则是那个总是付出额外努力、更愿意接受不寻常请求的人。

LMSys用户提示

有些用户提供提示，试图通过编码、数学和推理问题等困难任务来压力测试LLM，但大多数用户只是使用LMSys进行日常任务或娱乐（例如“写一份报告”，“告诉我这个”，“这个命令是什么？”）。
- 这些提示大多相当简单，意味着GPT-4o mini和Claude 3.5都足够聪明，能给出正确答案。在这些情况下，4o通常会通过不拒绝或格式更美观而获胜。
- 我还认为，随着GPT-4o和Claude Sonnet 3.5免费开放，LMSys的难度可能会增加，而在很长一段时间内，LMSys是人们无需付费就能访问比GPT-3.5更强的LLM的唯一地方。
旁注： 非英语提示在英语数据集中出现的频率惊人地高。似乎包含英语单词的提示即使请求的输出是另一种语言，也会被分类为英语。这意味着英语排行榜目前偏向于强大的多语言LLM。

我还提供了一些GPT-4o mini因不同原因击败Sonnet 3.5的示例提示。你可以通过将提示复制并粘贴到“选择问题”中来查看回答。

拒绝示例提示：

将这一段歌词翻译成英文，给我三个例子[副歌]燃烧，燃烧，宝贝，燃烧，让火焰回归！我们即将点燃
你对哪些流行文化角色有足够的理解，以至于你相信你能忠实地在对话中体现他们
继续这个场景并添加对话：Christian Devereux，一个35岁的英国大亨，自信且自

回答长度示例提示：

给我所有关于韩国外交的文件
宇智波带土的性格、说话风格、语言模式、对话示例、特质、怪癖、缺点等

格式/风格示例提示：

在git中，是否可以还原特定提交引入的更改，即使它不是最近的提交？
请写一份关于：社交媒体、关键健康素养和公共卫生传播的提案社交媒体越来越

TLDR： GPT-4o mini在LMSys上的排名高于Sonnet 3.5，因为它拒绝的次数更少，写出的答案更长，且格式更好。这些属性对普通LMSys用户来说比纯粹的问题解决能力更重要。

讨论总结

GPT-4o mini在LMSys Chatbot Arena的表现超过Claude 3.5 Sonnet，主要原因包括拒绝率低、回答长度更长以及格式化更优。这些特点使得GPT-4o mini在用户中更受欢迎，尤其是在处理日常任务和娱乐性提示时。评论者普遍认为，尽管Claude 3.5在某些技术领域表现更优，但GPT-4o mini的灵活性和用户友好性使其在LMSys上占据优势。此外，讨论中还涉及了LMSys用户提示的多样性、多语言处理问题以及未来挑战难度的预测。

主要观点

👍 GPT-4o mini拒绝率低
- 支持理由：用户更喜欢不频繁拒绝的模型，这提高了用户体验。
- 反对声音：Claude 3.5的拒绝策略被认为过于谨慎，影响了实用性。
🔥 GPT-4o mini回答更长
- 正方观点：详细回答满足用户对信息的需求，尤其是在日常任务中。
- 反方观点：过长的回答可能导致信息过载，影响阅读效率。
💡 GPT-4o mini格式化更优
- 解释：良好的格式化使得输出更易读，提高了视觉吸引力。
🌟 多语言处理能力
- 解释：GPT-4o mini在处理非英语提示时表现较好，尽管存在分类问题。
🚀 新模型初期表现优异
- 解释：新模型通常在发布初期因其新颖性而获得较高评价，但长期表现需观察。

金句与有趣评论

“😂 GPT-4o mini is insanely good for agentic workflows.”
- 亮点：强调了GPT-4o mini在处理复杂任务时的效率和能力。
“🤔 Who cares how smart a model is if it refuses to help you?”
- 亮点：提出了模型实用性比智能程度更重要的观点。
“👀 The refusals are quite important as well. Nobody loves an "Assistant" that does not follow instructions.”
- 亮点：指出了拒绝策略对用户体验的直接影响。

情感分析

讨论的总体情感倾向偏向积极，用户对GPT-4o mini的灵活性和用户友好性表示赞赏。主要分歧点在于模型的拒绝策略和回答长度，部分用户认为Claude 3.5的过度谨慎和简洁回答影响了实用性，而GPT-4o mini的详细和格式化回答更受欢迎。

趋势与预测

新兴话题：未来LMSys的挑战难度可能会增加，因为更多高级模型变得可免费访问。
潜在影响：模型的多语言处理能力和格式化输出将成为用户选择的重要因素，影响模型在不同市场的竞争力。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测