我看到了这个:[https://aider.chat/docs/leaderboards/],但我不知道它多久更新一次或者有多可靠。是否存在一个人们信任的编码排名的‘首选’排行榜?甚至是包含像图像生成这种创造性内容以及编码的排行榜?我很好奇是否存在一个Reddit上很多人都认可的金标准。
讨论总结
这个讨论围绕着LLMs在编码任务中的排行榜展开。原帖询问有哪些值得信任的排行榜,包括是否有涵盖编码与创意的综合排行榜。评论者们给出了不同的看法,包括推荐自己信任的排行榜如Livebench和aider,也有人对特定排行榜如Aider存在的问题提出质疑,还有人不信任任何现有的排行榜而选择自己测试,同时也涉及到了LLMs在特定编码库中的性能测试以及成本效益等相关话题。
主要观点
- 👍 存在个人关注的用于编码任务的LLM基准测试。
- 支持理由:如SomeOddCodeGuy有自己关注的多个基准测试。
- 反对声音:无。
- 🔥 排行榜存在信任度和方法合理性的问题。
- 正方观点:MusicTait指出排行榜存在信任度问题。
- 反方观点:无明确反对,但有人推荐具体排行榜侧面表示有可靠的。
- 💡 好奇其他LLM基准测试。
- 解释:swapripper表达了对其他基准测试的好奇。
- 💡 质疑特定基准测试使用GPT4作为评判的公正性。
- 解释:Ralph_mao质疑ProLLM使用GPT4评判可能对OpenAI模型有优势。
- 💡 认为Aider在个人经验中更一致。
- 解释:knvn8表示Aider与自己经验相符。
金句与有趣评论
- “😂 SomeOddCodeGuy:I keep a text file of various LLM benchmarks that Im constantly peeking at.”
- 亮点:体现个人有专门关注LLM基准测试的方式。
- “🤔 MusicTait:IMHO there is a big problem out there with leader boards.”
- 亮点:直接指出排行榜存在较大问题。
- “👀 Ralph_mao:proLLM is using gpt4 as the judge, will this gives openai models an advantage since it may prefer models trained with similar data/preference?”
- 亮点:对特定基准测试公正性提出很有针对性的疑问。
情感分析
总体情感倾向比较理性客观。主要分歧点在于对不同排行榜的评价,有的人信任某些排行榜,有的人则不信任。可能的原因是大家使用LLMs的场景、需求以及对排行榜评判标准的理解不同,例如有人从开源社区活跃性判断Aider排行榜可靠,而有人认为Aider存在对模型上下文把握不足等问题而不可靠。
趋势与预测
- 新兴话题:LLMs在特定编码库中的性能提升与成本降低的可能性。
- 潜在影响:如果LLMs性能如预期提升且成本降低,可能会在更多领域如支付行业安全加密系统编程等得到更广泛应用。
详细内容:
《关于编码任务中 LLM 排名的热门讨论》
在 Reddit 上,有一篇题为“ What leaderboard do you trust for ranking LLMs in coding tasks? ”的帖子引起了广泛关注。该帖提供了一个链接https://aider.chat/docs/leaderboards/,但发帖人对其更新频率和可靠性表示存疑,并询问是否存在大家都信任的用于编码排名的“首选”排行榜,或者是否有同时涵盖编码和像图像生成这样的创意领域的榜单。此帖获得了众多的评论和讨论。
在讨论中,各种观点纷至沓来。有人列举了自己一直关注的各种 LLM 基准的文本文件,包括 Aider、Livebench、ProLLM 和 Dubesor 等,并附上了相应的链接。有人认为 Aider 和 Livebench 不错,也有人质疑 ProLLM 使用 GPT4 作为评判是否会给 OpenAI 模型带来优势。还有人觉得 Aider 更符合自己的经验,甚至超过 arena。
有人指出目前在排行榜方面存在很大问题,难以找到使用良好方法的值得信赖的排行榜。有人认为 Aider 不错是因为其背后的开发者在开源社区非常活跃和投入,新模型发布后通常能很快更新基准。但也有人表示喜欢 Aider 的基准不能仅仅因为喜欢开发者及其工作。
有用户分享说自己拥有一个包含众多复杂挑战的专有编码库,在其中没有 LLM 能超过 40%的成绩,目前最好的是 o1 取得 37%的成绩,但对 o1 的表现感到满意,认为到 2025 年底有望达到 80%的性能。
有人表示不信任现有的基准,而是自己进行测试。有人认为每个人都有自己的需求,排行榜只能反映一方面,比如提示就是一个影响因素。
总之,关于编码任务中 LLM 排名的可靠排行榜,大家各抒己见,尚未形成统一的共识。有人信赖某些特定的排行榜,有人则更倾向于自己进行测试评估。这反映了在这一领域中,对于如何准确评估 LLM 在编码任务中的表现,仍存在诸多争议和探索的空间。
感谢您的耐心阅读!来选个表情,或者留个评论吧!