https://chat.lmsys.org/?leaderboard
1_ gpt-4
1_ LLama 400
2_ LLama 70b
3_ Sonnet
4_ Athene-70b
9_ LLama 3.0 70b
讨论总结
本次讨论主要聚焦于Llama 400和70在英语排行榜上的表现,以及英语类别与整体排行榜的差异。评论中提出了对lmsys基准测试可靠性的质疑,特别是关于Mistral Large被其他模型超越的情况。此外,讨论还涉及英语类别的查询占比和非英语内容的排除情况。
主要观点
- 👍 英语类别与整体排行榜存在差异
- 支持理由:英语类别占查询总量的60%,非英语内容和非语言内容不包含在内。
- 反对声音:无明确反对声音,但有对分类标准的疑问。
- 🔥 质疑lmsys基准测试的可靠性
- 正方观点:Mistral Large被CMDR+和其他8B模型超越,证明基准测试存在问题。
- 反方观点:无明确反方观点,但有对Mistral Large性能的正面评价。
- 💡 对Mistral Large的正面评价
- 解释:评论者对Mistral Large的表现持正面态度,认为其性能良好。
金句与有趣评论
- “😂 de4dee:how is English category different than the overall?”
- 亮点:提出了对英语类别与整体排行榜差异的疑问,引发讨论。
- “🤔 Kako05:Mistral Large is beaten by CMDR+ and some 8B models.”
- 亮点:指出了Mistral Large在基准测试中的表现问题,引发对基准测试可靠性的质疑。
- “👀 danielcar:Mistral Large has performed well for me.”
- 亮点:提供了对Mistral Large性能的正面评价,与质疑声音形成对比。
情感分析
讨论的总体情感倾向较为中性,既有对英语类别和排行榜差异的疑问,也有对基准测试可靠性的质疑。主要分歧点在于对Mistral Large性能的评价,部分评论者认为其表现良好,而另一部分则质疑基准测试的准确性。
趋势与预测
- 新兴话题:对lmsys基准测试的可靠性可能引发更多讨论和验证。
- 潜在影响:对基准测试的质疑可能促使相关机构进行改进和澄清,影响未来模型的评价标准和排行榜的公正性。
感谢您的耐心阅读!来选个表情,或者留个评论吧!