大家好,r/LocalLLaMA!我想分享一些我一直在研究的新评估工具和结果。
ZebraLogicBench评估工具
我为ZebraLogicBench数据集创建了一个新的评估工具,你可以在OpenRouter-ZebraLogicBench找到它。
我制作这个工具的原因:
- 原始实现仅支持Linux
- 评估方法不是很清晰
特点:
- 适用于任何兼容OpenAI的API
- 单个Python文件实现
- 易于使用和修改
Mistral大型2性能
我在Mistral大型上进行了一些评估,结果非常令人印象深刻!在Mistral的官方API上运行(费用昂贵,但由于非商业许可证,没有其他人托管它)。
ZebraLogicBench结果
我选择ZebraLogicBench是因为它测试推理能力,不像MMLU-Pro(我认为它适合一般的性能评分,尽管它不涵盖诸如语调和拒绝等方面的内容)。
Mistral大型2在温度采样下表现大约在GPT-4o水平(目前只完成了大约200个,完成后我会更新帖子)。
{
"model": "mistralai/mistral-large",
"num_puzzles": 208,
"num_valid_solutions": 208,
"num_invalid_solutions": 0,
"puzzle_accuracy_percentage": 27.884615384615387,
"easy_puzzle_accuracy_percentage": 87.5,
"hard_puzzle_accuracy_percentage": 10.0,
"cell_accuracy_percentage": 58.117654914529915,
"no_answer_percentage": 0.0,
"solved_puzzles": 58,
"solved_percentage": 27.884615384615387,
"num_easy_puzzles": 48,
"num_hard_puzzles": 160
}
以下是Claude-3-Haiku的比较结果样本:
{
"model": "anthropic/claude-3-haiku:beta",
"num_puzzles": 999,
"puzzle_accuracy_percentage": 13.91,
"easy_puzzle_accuracy_percentage": 45.35,
"hard_puzzle_accuracy_percentage": 1.73,
"cell_accuracy_percentage": 45.77,
"solved_percentage": 13.41
}
[ZebraLogicBench性能热力图]([图片描述: 这张图片是一张热力图,展示了不同模型在各种任务上的表现。热力图通常用于显示数据值的变化,通过颜色的深浅来表示数值的大小。图中列出了多个模型名称,如“Claude 3.5 Sonnet”、“Llama-3.1-405B-Instruct-Turbo”等,以及它们在不同任务上的得分,如“Puzzle Acc”、“Easy Puzzle Acc”、“Hard Puzzle Acc”、“Cell Acc”和“No answer”。每个任务的得分都用不同的颜色表示,从红色到蓝色,分别代表较高的得分到低分。
例如,“Claude 3.5 Sonnet”在“Puzzle Acc”任务上获得了87.5000的高分,用红色表示;而在“Easy Puzzle Acc”任务上获得了12.4000的分,用浅蓝色表示。这种对比鲜明的颜色使得模型在各个任务上的表现一目了然。
整体来看,这张热力图提供了关于不同模型在不同任务上的性能比较,有助于分析和理解各模型的优缺点。])
MMLU Pro评估
我还在Mistral大型2上进行了MMLU Pro评估。以下是与MMLU-Pro排行榜上顶级模型相比的每个学科的Level 2正则表达式准确性表格:
Subject | Mistral Large | Claude-3.5-Sonnet | GPT-4o | Gemini-1.5-Pro | Claude-3-Opus | Qwen2-72B-Chat | GPT-4-Turbo |
---|---|---|---|---|---|---|---|
Overall | 0.6980 | 0.7612 | 0.7255 | 0.6903 | 0.6845 | 0.6438 | 0.6371 |
Biology | 0.8452 | 0.8856 | 0.8675 | 0.8466 | 0.8507 | 0.8107 | 0.8243 |
Business | 0.7288 | 0.8023 | 0.7858 | 0.7288 | 0.7338 | 0.6996 | 0.6730 |
Chemistry | 0.7173 | 0.7730 | 0.7393 | 0.7032 | 0.6930 | 0.5989 | 0.5592 |
Computer Science | 0.7610 | 0.7976 | 0.7829 | 0.7293 | 0.6902 | 0.6488 | 0.6854 |
Economics | 0.7820 | 0.8246 | 0.8080 | 0.7844 | 0.7980 | 0.7589 | 0.7476 |
Engineering | 0.5212 | 0.6153 | 0.5500 | 0.4871 | 0.4840 | 0.6724 | 0.3591 |
Health | 0.7274 | 0.7531 | 0.7212 | 0.7274 | 0.6845 | 0.4603 | 0.7078 |
History | 0.6430 | 0.7585 | 0.7007 | 0.6562 | 0.6141 | 0.6781 | 0.6772 |
Law | 0.4986 | 0.6385 | 0.5104 | 0.5077 | 0.5349 | 0.4587 | 0.5123 |
Math | 0.6765 | 0.7683 | 0.7609 | 0.7276 | 0.6957 | 0.7098 | 0.6277 |
Philosophy | 0.6754 | 0.7475 | 0.7014 | 0.6172 | 0.6352 | 0.5892 | 0.6433 |
Physics | 0.7098 | 0.7667 | 0.7467 | 0.7036 | 0.6966 | 0.6089 | 0.6097 |
Psychology | 0.7845 | 0.8221 | 0.7919 | 0.7720 | 0.7631 | 0.7669 | 0.7832 |
Other | 0.7013 | 0.7846 | 0.7748 | 0.7251 | 0.6991 | 0.6652 | 0.7186 |
[MMLU-Pro的雷达图]([图片描述: 这是一个关于不同模型在各个领域表现的雷达图,标题为“Model Performance Across Various Categories”。图中展示了多个模型,如Mistral Large、Claude-3.5-Sonnnet等,以及它们在计算机科学、化学、经济学等领域的表现。每个模型都有一个特定的颜色,并在相应的领域周围形成了一个圆环,表示其性能水平。])
[MMLU-Pro的热力图]([图片描述: 这张图片是一张热力图,显示了不同模型在各个学科上的表现得分。图中列出了多个模型名称,如“Mistral Large”、“Claude-3.5-Sonnet”等,以及不同的学科领域,如“Overall”、“Biology”、“Business”等。每个模型在每个学科领域的得分都用不同的颜色表示,颜色越深代表得分越高。此外,图片右侧还有一个颜色梯度条,用于解释颜色的含义。])
这使得Mistral Large:
- 略低于GPT-4o
- 高于Gemini 1.5 Pro
- 与405B模型相当,但参数少4倍
方法论
Mistral大型2配置:
- 温度:0.0
response_format: {'type": "json_format"}
- 无
max_tokens
总成本:大约$100*2的信用额度用于ZebraLogicBench和MMLU-Pro
讨论总结
本次讨论主要围绕新发布的ZebraLogicBench评估工具和Mistral Large模型的性能结果展开。讨论中涉及了模型标签的准确性、性能比较、错误可能性等多个方面。用户对Mistral Large模型在ZebraLogicBench上的表现表示赞赏,同时也提出了一些疑问和建议,如模型标签的混淆问题、性能数据的准确性等。整体讨论氛围较为积极,用户对新工具和结果表示了兴趣和感谢。
主要观点
- 👍 模型标签的准确性
- 支持理由:统一使用 “Mistral Large 2” 标签可以避免混淆。
- 反对声音:帖子中对Mistral Large模型的标签使用不明确,可能导致误解。
- 🔥 Mistral Large模型的性能
- 正方观点:Mistral Large模型在ZebraLogicBench上的表现接近GPT-4o水平,优于所有GPT-4变体。
- 反方观点:Mistral Large在简单和困难题目上的得分高于GPT-4,但总体得分却较低,可能存在计算错误。
- 💡 模型的可访问性
- 评论者认为Mistral Large模型提高了模型的可访问性,是首个在某些任务上超越其他最先进模型的开放模型。
金句与有趣评论
- “😂 Kazoomas:At this point I’m not 100% sure what all the "Mistral Large" labels mean, since they can refer to either the newly released model ("Mistral Large 2") or the original "Mistral Large" model.”
- 亮点:指出了模型标签使用的混淆问题。
- “🤔 Snail_Inference:Mistral-Large-2 在 ZebraLogic 基准测试中表现优异,优于所有 GPT-4 变体。”
- 亮点:强调了Mistral Large模型在基准测试中的优异表现。
- “👀 thereisonlythedance:Interesting results. In use, it feels like the first (accessible) local model to genuinely go toe to toe with the likes of Opus for me.”
- 亮点:表达了Mistral Large模型在实际使用中的可访问性和性能优势。
情感分析
讨论的总体情感倾向较为积极,用户对新发布的评估工具和Mistral Large模型的性能结果表示了兴趣和赞赏。主要分歧点在于模型标签的准确性和性能数据的准确性,部分用户提出了疑问和建议。
趋势与预测
- 新兴话题:模型标签的准确性和性能数据的准确性可能会引发后续讨论。
- 潜在影响:新发布的ZebraLogicBench评估工具和Mistral Large模型的性能结果可能会对模型评估和选择产生影响,提高模型的可访问性和实用性。
感谢您的耐心阅读!来选个表情,或者留个评论吧!