Llama 400和70在英语排行榜上位列第一和第二

1_ gpt-4

1_ LLama 400

2_ LLama 70b

3_ Sonnet

4_ Athene-70b

9_ LLama 3.0 70b

本次讨论主要聚焦于Llama 400和70在英语排行榜上的表现，以及英语类别与整体排行榜的差异。评论中提出了对lmsys基准测试可靠性的质疑，特别是关于Mistral Large被其他模型超越的情况。此外，讨论还涉及英语类别的查询占比和非英语内容的排除情况。

👍 英语类别与整体排行榜存在差异
- 支持理由：英语类别占查询总量的60%，非英语内容和非语言内容不包含在内。
- 反对声音：无明确反对声音，但有对分类标准的疑问。
🔥 质疑lmsys基准测试的可靠性
- 正方观点：Mistral Large被CMDR+和其他8B模型超越，证明基准测试存在问题。
- 反方观点：无明确反方观点，但有对Mistral Large性能的正面评价。
💡 对Mistral Large的正面评价
- 解释：评论者对Mistral Large的表现持正面态度，认为其性能良好。

“😂 de4dee：how is English category different than the overall?”
- 亮点：提出了对英语类别与整体排行榜差异的疑问，引发讨论。
“🤔 Kako05：Mistral Large is beaten by CMDR+ and some 8B models.”
- 亮点：指出了Mistral Large在基准测试中的表现问题，引发对基准测试可靠性的质疑。
“👀 danielcar：Mistral Large has performed well for me.”
- 亮点：提供了对Mistral Large性能的正面评价，与质疑声音形成对比。

讨论的总体情感倾向较为中性，既有对英语类别和排行榜差异的疑问，也有对基准测试可靠性的质疑。主要分歧点在于对Mistral Large性能的评价，部分评论者认为其表现良好，而另一部分则质疑基准测试的准确性。