原贴链接

大家好，r/LocalLLaMA！我想分享一些我一直在研究的新评估工具和结果。

ZebraLogicBench评估工具

我为ZebraLogicBench数据集创建了一个新的评估工具，你可以在OpenRouter-ZebraLogicBench找到它。

我制作这个工具的原因：

原始实现仅支持Linux
评估方法不是很清晰

特点：

适用于任何兼容OpenAI的API
单个Python文件实现
易于使用和修改

Mistral大型2性能

我在Mistral大型上进行了一些评估，结果非常令人印象深刻！在Mistral的官方API上运行（费用昂贵，但由于非商业许可证，没有其他人托管它）。

ZebraLogicBench结果

我选择ZebraLogicBench是因为它测试推理能力，不像MMLU-Pro（我认为它适合一般的性能评分，尽管它不涵盖诸如语调和拒绝等方面的内容）。

Mistral大型2在温度采样下表现大约在GPT-4o水平（目前只完成了大约200个，完成后我会更新帖子）。

 {
   "model": "mistralai/mistral-large",
   "num_puzzles": 208,
   "num_valid_solutions": 208,
   "num_invalid_solutions": 0,
   "puzzle_accuracy_percentage": 27.884615384615387,
   "easy_puzzle_accuracy_percentage": 87.5,
   "hard_puzzle_accuracy_percentage": 10.0,
   "cell_accuracy_percentage": 58.117654914529915,
   "no_answer_percentage": 0.0,
   "solved_puzzles": 58,
   "solved_percentage": 27.884615384615387,
   "num_easy_puzzles": 48,
   "num_hard_puzzles": 160
 }

以下是Claude-3-Haiku的比较结果样本：

{
  "model": "anthropic/claude-3-haiku:beta",
  "num_puzzles": 999,
  "puzzle_accuracy_percentage": 13.91,
  "easy_puzzle_accuracy_percentage": 45.35,
  "hard_puzzle_accuracy_percentage": 1.73,
  "cell_accuracy_percentage": 45.77,
  "solved_percentage": 13.41
}

[ZebraLogicBench性能热力图]([图片描述: 这张图片是一张热力图，展示了不同模型在各种任务上的表现。热力图通常用于显示数据值的变化，通过颜色的深浅来表示数值的大小。图中列出了多个模型名称，如“Claude 3.5 Sonnet”、“Llama-3.1-405B-Instruct-Turbo”等，以及它们在不同任务上的得分，如“Puzzle Acc”、“Easy Puzzle Acc”、“Hard Puzzle Acc”、“Cell Acc”和“No answer”。每个任务的得分都用不同的颜色表示，从红色到蓝色，分别代表较高的得分到低分。

例如，“Claude 3.5 Sonnet”在“Puzzle Acc”任务上获得了87.5000的高分，用红色表示；而在“Easy Puzzle Acc”任务上获得了12.4000的分，用浅蓝色表示。这种对比鲜明的颜色使得模型在各个任务上的表现一目了然。

整体来看，这张热力图提供了关于不同模型在不同任务上的性能比较，有助于分析和理解各模型的优缺点。])

MMLU Pro评估

我还在Mistral大型2上进行了MMLU Pro评估。以下是与MMLU-Pro排行榜上顶级模型相比的每个学科的Level 2正则表达式准确性表格：

Subject	Mistral Large	Claude-3.5-Sonnet	GPT-4o	Gemini-1.5-Pro	Claude-3-Opus	Qwen2-72B-Chat	GPT-4-Turbo
Overall	0.6980	0.7612	0.7255	0.6903	0.6845	0.6438	0.6371
Biology	0.8452	0.8856	0.8675	0.8466	0.8507	0.8107	0.8243
Business	0.7288	0.8023	0.7858	0.7288	0.7338	0.6996	0.6730
Chemistry	0.7173	0.7730	0.7393	0.7032	0.6930	0.5989	0.5592
Computer Science	0.7610	0.7976	0.7829	0.7293	0.6902	0.6488	0.6854
Economics	0.7820	0.8246	0.8080	0.7844	0.7980	0.7589	0.7476
Engineering	0.5212	0.6153	0.5500	0.4871	0.4840	0.6724	0.3591
Health	0.7274	0.7531	0.7212	0.7274	0.6845	0.4603	0.7078
History	0.6430	0.7585	0.7007	0.6562	0.6141	0.6781	0.6772
Law	0.4986	0.6385	0.5104	0.5077	0.5349	0.4587	0.5123
Math	0.6765	0.7683	0.7609	0.7276	0.6957	0.7098	0.6277
Philosophy	0.6754	0.7475	0.7014	0.6172	0.6352	0.5892	0.6433
Physics	0.7098	0.7667	0.7467	0.7036	0.6966	0.6089	0.6097
Psychology	0.7845	0.8221	0.7919	0.7720	0.7631	0.7669	0.7832
Other	0.7013	0.7846	0.7748	0.7251	0.6991	0.6652	0.7186

[MMLU-Pro的雷达图]([图片描述: 这是一个关于不同模型在各个领域表现的雷达图，标题为“Model Performance Across Various Categories”。图中展示了多个模型，如Mistral Large、Claude-3.5-Sonnnet等，以及它们在计算机科学、化学、经济学等领域的表现。每个模型都有一个特定的颜色，并在相应的领域周围形成了一个圆环，表示其性能水平。])

[MMLU-Pro的热力图]([图片描述: 这张图片是一张热力图，显示了不同模型在各个学科上的表现得分。图中列出了多个模型名称，如“Mistral Large”、“Claude-3.5-Sonnet”等，以及不同的学科领域，如“Overall”、“Biology”、“Business”等。每个模型在每个学科领域的得分都用不同的颜色表示，颜色越深代表得分越高。此外，图片右侧还有一个颜色梯度条，用于解释颜色的含义。])

这使得Mistral Large：

略低于GPT-4o
高于Gemini 1.5 Pro
与405B模型相当，但参数少4倍

方法论

Mistral大型2配置：

温度：0.0
response_format: {'type": "json_format"}
无max_tokens

总成本：大约$100*2的信用额度用于ZebraLogicBench和MMLU-Pro

讨论总结

本次讨论主要围绕新发布的ZebraLogicBench评估工具和Mistral Large模型的性能结果展开。讨论中涉及了模型标签的准确性、性能比较、错误可能性等多个方面。用户对Mistral Large模型在ZebraLogicBench上的表现表示赞赏，同时也提出了一些疑问和建议，如模型标签的混淆问题、性能数据的准确性等。整体讨论氛围较为积极，用户对新工具和结果表示了兴趣和感谢。

主要观点

👍 模型标签的准确性
- 支持理由：统一使用 “Mistral Large 2” 标签可以避免混淆。
- 反对声音：帖子中对Mistral Large模型的标签使用不明确，可能导致误解。
🔥 Mistral Large模型的性能
- 正方观点：Mistral Large模型在ZebraLogicBench上的表现接近GPT-4o水平，优于所有GPT-4变体。
- 反方观点：Mistral Large在简单和困难题目上的得分高于GPT-4，但总体得分却较低，可能存在计算错误。
💡 模型的可访问性
- 评论者认为Mistral Large模型提高了模型的可访问性，是首个在某些任务上超越其他最先进模型的开放模型。

金句与有趣评论

“😂 Kazoomas：At this point I’m not 100% sure what all the "Mistral Large" labels mean, since they can refer to either the newly released model ("Mistral Large 2") or the original "Mistral Large" model.”
- 亮点：指出了模型标签使用的混淆问题。
“🤔 Snail_Inference：Mistral-Large-2 在 ZebraLogic 基准测试中表现优异，优于所有 GPT-4 变体。”
- 亮点：强调了Mistral Large模型在基准测试中的优异表现。
“👀 thereisonlythedance：Interesting results. In use, it feels like the first (accessible) local model to genuinely go toe to toe with the likes of Opus for me.”
- 亮点：表达了Mistral Large模型在实际使用中的可访问性和性能优势。

情感分析

讨论的总体情感倾向较为积极，用户对新发布的评估工具和Mistral Large模型的性能结果表示了兴趣和赞赏。主要分歧点在于模型标签的准确性和性能数据的准确性，部分用户提出了疑问和建议。

趋势与预测

新兴话题：模型标签的准确性和性能数据的准确性可能会引发后续讨论。
潜在影响：新发布的ZebraLogicBench评估工具和Mistral Large模型的性能结果可能会对模型评估和选择产生影响，提高模型的可访问性和实用性。

ZebraLogicBench评估工具#

MMLU Pro评估#

方法论#

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#