原贴链接

哪个是最佳编程排行榜?

几乎所有编程排行榜都认同前两名(GPT-4o和Claude Sonnet 3.5),但在开放模型上存在分歧。

例如,在Lmsys编程最佳开放权重模型中,Athene-70b(Llama 3微调)是最佳开放权重模型,但在Hugging Face Open Llm排行榜中按编程排序时甚至没有列出。

此外,Gemma 2 27b在Lmsys编程排行榜中几乎是最佳开放权重模型,但其HumanEval得分远低于在Lmysys中排名较低的竞争对手。(Gemma 2 27b:51.8 vs Llama 3 70b:81.7)

那么,如果不是Lmsys排行榜,如果不是Hugging Face Open Llm排行榜,如果不是HumanEval基准,那么是什么?

对于编程的开放模型,有什么一致的排名方法?

讨论总结

本次讨论主要围绕“最佳编程排行榜”的主题,探讨了不同排行榜对开源模型的评价差异。参与者关注排行榜的一致性和准确性,以及开发者实际需求。讨论中提到了Lmsys、Hugging Face Open Llm、HumanEval和ProLLM等排行榜,并质疑这些排行榜的可靠性和适用性。此外,讨论还涉及编程辅助的不同方面,如自动补全和代码聊天,以及开发者使用的工具和模型。总体上,讨论氛围较为活跃,参与者寻求更一致和准确的评价方法来排名开源编程模型。

主要观点

  1. 👍 当前的编程排行榜未能准确反映开发者的实际需求。
    • 支持理由:开发者需要的是能够协助日常任务、提供软件设计和解决方案建议的编程伙伴。
    • 反对声音:大多数排行榜测试的是一次性生成代码解决定义明确问题的能力。
  2. 🔥 不同的编程排行榜在开放模型上的排名存在分歧。
    • 正方观点:Lmsys排行榜中Athene-70b排名较高,但在Hugging Face Open Llm排行榜中未被列出。
    • 反方观点:Gemma 2 27b在Lmsys排行榜中排名接近最佳,但其HumanEval分数低于其他排名较低的模型。
  3. 💡 编程辅助可以分为自动补全和代码聊天两个方面。
    • 解释:有些框架/工具允许为不同的编程辅助用途设置不同的模型。
  4. 👍 ProLLM排行榜专注于软件开发者编码助手任务,并支持多种编程语言的过滤。
    • 支持理由:该排行榜是目前看到的最好的编码排行榜之一,用户对其表现表示满意。
    • 反对声音:某些模型如Athene-70b在某些排行榜中未被提及。
  5. 🔥 需要一种一致的方法来评估和排名开源编程模型。
    • 正方观点:不同编程排行榜对开源模型的排名存在差异,HumanEval基准的可靠性受到质疑。
    • 反方观点:有评论者分享了一个新的排行榜链接,但其他评论者对其可靠性表示怀疑。

金句与有趣评论

  1. “😂 anzzax:I feel like these leaderboards don’t represent what most software developers need: a coding buddy who can help with routine tasks, brainstorm software design and technical solutions, and possess good knowledge of APIs, SDKs, languages, etc.”
    • 亮点:强调了排行榜未能反映开发者实际需求的观点。
  2. “🤔 anzzax:So what are you looking for in coding LLMs? Autonomous coding, code completion, or technical assistance and analysis?”
    • 亮点:提出了开发者对编程大型语言模型的具体需求。
  3. “👀 ethertype:Some frameworks/tools allow you to set up different models for each purpose.”
    • 亮点:指出了编程辅助的不同方面和工具的灵活性。
  4. “😂 nidhishs:I am the maintainer of the ProLLM leaderboard, which covers software developer coding assistant tasks: code implementation, debugging, optimisation and conceptual questions from StackOverflow.”
    • 亮点:介绍了ProLLM排行榜的特点和覆盖范围。
  5. “🤔 ResearchCrafty1804:Actually this is very nice. Although, it misses a few popular models such as Athene-70b.”
    • 亮点:指出了ProLLM排行榜的不足之处。

情感分析

讨论的总体情感倾向较为积极,参与者对现有排行榜的准确性和一致性表示质疑,并寻求更合适的评价方法。主要分歧点在于不同排行榜对开源模型的排名差异,以及开发者实际需求的满足程度。可能的原因包括排行榜的方法论不够完善,以及开发者对编程辅助的不同需求。

趋势与预测

  • 新兴话题:寻找更一致和准确的评价方法来排名开源编程模型。
  • 潜在影响:改进排行榜的评价方法可能会提高开发者对编程辅助工具的满意度,进而推动相关工具和框架的发展。