原贴链接

大家好,r/LocalLLaMA!我想分享一些我一直在研究的新评估工具和结果。

ZebraLogicBench评估工具

我为ZebraLogicBench数据集创建了一个新的评估工具,你可以在OpenRouter-ZebraLogicBench找到它。

我制作这个工具的原因:

  • 原始实现仅支持Linux
  • 评估方法不是很清晰

特点:

  • 适用于任何兼容OpenAI的API
  • 单个Python文件实现
  • 易于使用和修改

Mistral大型2性能

我在Mistral大型上进行了一些评估,结果非常令人印象深刻!在Mistral的官方API上运行(费用昂贵,但由于非商业许可证,没有其他人托管它)。

ZebraLogicBench结果

我选择ZebraLogicBench是因为它测试推理能力,不像MMLU-Pro(我认为它适合一般的性能评分,尽管它不涵盖诸如语调和拒绝等方面的内容)。

Mistral大型2在温度采样下表现大约在GPT-4o水平(目前只完成了大约200个,完成后我会更新帖子)。

 {
   "model": "mistralai/mistral-large",
   "num_puzzles": 208,
   "num_valid_solutions": 208,
   "num_invalid_solutions": 0,
   "puzzle_accuracy_percentage": 27.884615384615387,
   "easy_puzzle_accuracy_percentage": 87.5,
   "hard_puzzle_accuracy_percentage": 10.0,
   "cell_accuracy_percentage": 58.117654914529915,
   "no_answer_percentage": 0.0,
   "solved_puzzles": 58,
   "solved_percentage": 27.884615384615387,
   "num_easy_puzzles": 48,
   "num_hard_puzzles": 160
 }

以下是Claude-3-Haiku的比较结果样本:

{
  "model": "anthropic/claude-3-haiku:beta",
  "num_puzzles": 999,
  "puzzle_accuracy_percentage": 13.91,
  "easy_puzzle_accuracy_percentage": 45.35,
  "hard_puzzle_accuracy_percentage": 1.73,
  "cell_accuracy_percentage": 45.77,
  "solved_percentage": 13.41
}

[ZebraLogicBench性能热力图]([图片描述: 这张图片是一张热力图,展示了不同模型在各种任务上的表现。热力图通常用于显示数据值的变化,通过颜色的深浅来表示数值的大小。图中列出了多个模型名称,如“Claude 3.5 Sonnet”、“Llama-3.1-405B-Instruct-Turbo”等,以及它们在不同任务上的得分,如“Puzzle Acc”、“Easy Puzzle Acc”、“Hard Puzzle Acc”、“Cell Acc”和“No answer”。每个任务的得分都用不同的颜色表示,从红色到蓝色,分别代表较高的得分到低分。

例如,“Claude 3.5 Sonnet”在“Puzzle Acc”任务上获得了87.5000的高分,用红色表示;而在“Easy Puzzle Acc”任务上获得了12.4000的分,用浅蓝色表示。这种对比鲜明的颜色使得模型在各个任务上的表现一目了然。

整体来看,这张热力图提供了关于不同模型在不同任务上的性能比较,有助于分析和理解各模型的优缺点。])

MMLU Pro评估

我还在Mistral大型2上进行了MMLU Pro评估。以下是与MMLU-Pro排行榜上顶级模型相比的每个学科的Level 2正则表达式准确性表格:

SubjectMistral LargeClaude-3.5-SonnetGPT-4oGemini-1.5-ProClaude-3-OpusQwen2-72B-ChatGPT-4-Turbo
Overall0.69800.76120.72550.69030.68450.64380.6371
Biology0.84520.88560.86750.84660.85070.81070.8243
Business0.72880.80230.78580.72880.73380.69960.6730
Chemistry0.71730.77300.73930.70320.69300.59890.5592
Computer Science0.76100.79760.78290.72930.69020.64880.6854
Economics0.78200.82460.80800.78440.79800.75890.7476
Engineering0.52120.61530.55000.48710.48400.67240.3591
Health0.72740.75310.72120.72740.68450.46030.7078
History0.64300.75850.70070.65620.61410.67810.6772
Law0.49860.63850.51040.50770.53490.45870.5123
Math0.67650.76830.76090.72760.69570.70980.6277
Philosophy0.67540.74750.70140.61720.63520.58920.6433
Physics0.70980.76670.74670.70360.69660.60890.6097
Psychology0.78450.82210.79190.77200.76310.76690.7832
Other0.70130.78460.77480.72510.69910.66520.7186

[MMLU-Pro的雷达图]([图片描述: 这是一个关于不同模型在各个领域表现的雷达图,标题为“Model Performance Across Various Categories”。图中展示了多个模型,如Mistral Large、Claude-3.5-Sonnnet等,以及它们在计算机科学、化学、经济学等领域的表现。每个模型都有一个特定的颜色,并在相应的领域周围形成了一个圆环,表示其性能水平。])

[MMLU-Pro的热力图]([图片描述: 这张图片是一张热力图,显示了不同模型在各个学科上的表现得分。图中列出了多个模型名称,如“Mistral Large”、“Claude-3.5-Sonnet”等,以及不同的学科领域,如“Overall”、“Biology”、“Business”等。每个模型在每个学科领域的得分都用不同的颜色表示,颜色越深代表得分越高。此外,图片右侧还有一个颜色梯度条,用于解释颜色的含义。])

这使得Mistral Large:

  • 略低于GPT-4o
  • 高于Gemini 1.5 Pro
  • 与405B模型相当,但参数少4倍

方法论

Mistral大型2配置:

  • 温度:0.0
  • response_format: {'type": "json_format"}
  • max_tokens

总成本:大约$100*2的信用额度用于ZebraLogicBench和MMLU-Pro

讨论总结

本次讨论主要围绕新发布的ZebraLogicBench评估工具和Mistral Large模型的性能结果展开。讨论中涉及了模型标签的准确性、性能比较、错误可能性等多个方面。用户对Mistral Large模型在ZebraLogicBench上的表现表示赞赏,同时也提出了一些疑问和建议,如模型标签的混淆问题、性能数据的准确性等。整体讨论氛围较为积极,用户对新工具和结果表示了兴趣和感谢。

主要观点

  1. 👍 模型标签的准确性
    • 支持理由:统一使用 “Mistral Large 2” 标签可以避免混淆。
    • 反对声音:帖子中对Mistral Large模型的标签使用不明确,可能导致误解。
  2. 🔥 Mistral Large模型的性能
    • 正方观点:Mistral Large模型在ZebraLogicBench上的表现接近GPT-4o水平,优于所有GPT-4变体。
    • 反方观点:Mistral Large在简单和困难题目上的得分高于GPT-4,但总体得分却较低,可能存在计算错误。
  3. 💡 模型的可访问性
    • 评论者认为Mistral Large模型提高了模型的可访问性,是首个在某些任务上超越其他最先进模型的开放模型。

金句与有趣评论

  1. “😂 Kazoomas:At this point I’m not 100% sure what all the "Mistral Large" labels mean, since they can refer to either the newly released model ("Mistral Large 2") or the original "Mistral Large" model.”
    • 亮点:指出了模型标签使用的混淆问题。
  2. “🤔 Snail_Inference:Mistral-Large-2 在 ZebraLogic 基准测试中表现优异,优于所有 GPT-4 变体。”
    • 亮点:强调了Mistral Large模型在基准测试中的优异表现。
  3. “👀 thereisonlythedance:Interesting results. In use, it feels like the first (accessible) local model to genuinely go toe to toe with the likes of Opus for me.”
    • 亮点:表达了Mistral Large模型在实际使用中的可访问性和性能优势。

情感分析

讨论的总体情感倾向较为积极,用户对新发布的评估工具和Mistral Large模型的性能结果表示了兴趣和赞赏。主要分歧点在于模型标签的准确性和性能数据的准确性,部分用户提出了疑问和建议。

趋势与预测

  • 新兴话题:模型标签的准确性和性能数据的准确性可能会引发后续讨论。
  • 潜在影响:新发布的ZebraLogicBench评估工具和Mistral Large模型的性能结果可能会对模型评估和选择产生影响,提高模型的可访问性和实用性。