原贴链接

https://preview.redd.it/yyp5vve7uofd1.png?width=966&format=png&auto=webp&s=089de3f0d6acc861243a87c2ef44e9072a391c58

https://chat.lmsys.org/?leaderboard

1_ gpt-4

1_ LLama 400

2_ LLama 70b

3_ Sonnet

4_ Athene-70b

9_ LLama 3.0 70b

讨论总结

本次讨论主要聚焦于Llama 400和70在英语排行榜上的表现,以及英语类别与整体排行榜的差异。评论中提出了对lmsys基准测试可靠性的质疑,特别是关于Mistral Large被其他模型超越的情况。此外,讨论还涉及英语类别的查询占比和非英语内容的排除情况。

主要观点

  1. 👍 英语类别与整体排行榜存在差异
    • 支持理由:英语类别占查询总量的60%,非英语内容和非语言内容不包含在内。
    • 反对声音:无明确反对声音,但有对分类标准的疑问。
  2. 🔥 质疑lmsys基准测试的可靠性
    • 正方观点:Mistral Large被CMDR+和其他8B模型超越,证明基准测试存在问题。
    • 反方观点:无明确反方观点,但有对Mistral Large性能的正面评价。
  3. 💡 对Mistral Large的正面评价
    • 解释:评论者对Mistral Large的表现持正面态度,认为其性能良好。

金句与有趣评论

  1. “😂 de4dee:how is English category different than the overall?”
    • 亮点:提出了对英语类别与整体排行榜差异的疑问,引发讨论。
  2. “🤔 Kako05:Mistral Large is beaten by CMDR+ and some 8B models.”
    • 亮点:指出了Mistral Large在基准测试中的表现问题,引发对基准测试可靠性的质疑。
  3. “👀 danielcar:Mistral Large has performed well for me.”
    • 亮点:提供了对Mistral Large性能的正面评价,与质疑声音形成对比。

情感分析

讨论的总体情感倾向较为中性,既有对英语类别和排行榜差异的疑问,也有对基准测试可靠性的质疑。主要分歧点在于对Mistral Large性能的评价,部分评论者认为其表现良好,而另一部分则质疑基准测试的准确性。

趋势与预测

  • 新兴话题:对lmsys基准测试的可靠性可能引发更多讨论和验证。
  • 潜在影响:对基准测试的质疑可能促使相关机构进行改进和澄清,影响未来模型的评价标准和排行榜的公正性。