GPQA（研究生水平的谷歌无法解决的问答基准测试）：它评估大语言模型回答生物、物理和化学领域极具挑战性的研究生水平问题的能力。这些问题被设计为‘谷歌无法解决的’，这意味着需要深入、专业的理解和推理，无法通过简单的网络搜索轻易找到答案。其关键特性包括：难度方面，问题被精心设计得极其困难，专家的准确率约为65%；领域专长方面，测试模型处理复杂的特定领域问题的能力；实际应用方面，对于人工智能系统需要提供超出人类能力的可靠信息的可扩展监督实验很有用。
MMLU（大规模多任务语言理解）：它评估大语言模型在57个学科（从小学数学到法律和伦理等专业领域）的一般知识和解决问题的能力，测试世界知识和推理技能。其关键特性包括：广度方面，涵盖广泛的主题，是对大语言模型理解能力的全面测试；粒度方面，在零次和少量提示设置下评估模型，模拟模型必须在最少上下文下执行的现实场景；评分方面，根据模型回答多项选择题的准确性进行评分。
MMLU - Pro：这是MMLU的增强版本，引入了更具挑战性、以推理为重点的问题，并将答案选项数量从四个增加到十个，使任务更加复杂。其关键特性包括：增加复杂性方面，更多推理密集型问题，减少了随机猜测答对的机会；稳定性方面，在不同提示下表现出更高的稳定性，对提示变化的敏感性较低；性能下降方面，与MMLU相比，准确性显著下降，突出了其增加的难度。
MATH：该基准测试评估大语言模型解决从高中到竞赛水平数学复杂问题的能力。其关键特性包括：问题类型方面，包括代数、几何、概率和微积分问题；逐步解决方案方面，每个问题都有详细的解决方案，允许评估推理步骤；实际应用方面，对于准确高效解决问题至关重要的教育应用很有用。
HumanEval：它关注大语言模型生成代码的功能正确性。它由编程挑战组成，模型必须生成能通过提供的单元测试的代码。其关键特性包括：代码生成方面，测试模型从文档字符串理解并生成功能代码的能力；评估指标方面，使用pass@k指标，生成‘k’个不同的解决方案，如果任何解决方案通过所有测试，则模型被视为成功；现实世界编码方面，模拟在现实世界中可能多次尝试解决问题的编码场景。
MMMU（大规模多学科多模态理解与推理）：它评估多模态模型在需要大学水平学科知识和跨学科审慎推理（包括视觉理解）的任务上的表现。其关键特性包括：多模态方面，结合文本和图像，测试模型理解图表等视觉格式的任务；专家级方面，问题来源于大学水平的材料，确保高难度；全面性方面，涵盖六个核心学科的183个以上子领域，提供广泛的评估。
MathVista：它评估视觉环境中的数学推理，结合来自不同数学和图形任务的挑战。其关键特性包括：视觉上下文方面，要求模型在数学问题的同时理解和推理视觉信息；基准组成方面，源自现有数据集，并包括用于特定视觉推理任务的新数据集；性能差距方面，突出了大语言模型能力与人类在视觉密集型数学推理方面的表现差距。
DocVQA（文档视觉问答）：它评估模型基于文档图像回答问题的能力，测试文本和视觉理解能力。其关键特性包括：文档理解方面，评估模型解释文本、表格和图表等各种文档元素的能力；现实世界场景方面，模拟理解上下文和布局至关重要的现实世界文档分析任务；评估指标方面，使用平均归一化莱文斯坦相似度（ANLS）等指标来衡量性能。
HELM（语言模型整体评估）：它从多个角度评估大语言模型，提供其性能的全面视图。它评估准确性、在各种任务中的表现，并整合定性评价以捕捉模型响应中的细微差别。其关键特性包括：整体方法方面，使用已建立的数据集评估准确性和性能，同时进行定性评价以获得细致的理解；错误分析方面，进行详细的错误分析以确定模型存在困难的特定领域；任务多样性方面，涵盖从文本分类到机器翻译的广泛任务，提供对模型能力的广泛评估。
GLUE（通用语言理解评估）：它为评估大语言模型的通用语言理解能力提供基线。它包括情感分析、问答和文本蕴含等任务。其关键特性包括：全面性方面，包含各种自然语言处理任务，使其成为通用语言理解的强大基准；公开可用方面，数据集公开可用，允许广泛使用和比较；排行榜方面，GLUE维护一个排行榜，根据模型在其任务中的表现对模型进行排名。
BIG - Bench Hard（BBH）：它通过从更大的BIG - Bench基准测试中选择特别具有挑战性的任务，关注大语言模型的局限性和失效模式。其关键特性包括：难度方面，由23个任务组成，之前没有模型超过平均人类评分者的分数，突出了模型不足之处；重点评估方面，通过专注于当前模型难以完成的任务来突破模型能力的界限；现实世界相关性方面，任务旨在反映模型需要展示高级推理和理解能力的现实世界挑战。
MT - Bench：它评估模型进行连贯、信息丰富和引人入胜的对话的能力，重点关注对话流程和遵循指令的能力。其关键特性包括：多轮方面，包含80个问题和后续问题，模拟现实世界的对话场景；大语言模型作为评判者方面，使用像GPT - 4这样强大的大语言模型评估模型响应的质量，提供客观评估；人类偏好方面，由具有领域专长的研究生对响应进行注释，确保相关性和质量。
FinBen：它被设计用于评估大语言模型在金融领域的表现，涵盖信息提取、文本分析、问答等任务。其关键特性包括：特定领域方面，专注于金融任务，为金融应用提供专门的基准；广泛任务覆盖方面，包括七个金融领域24个任务的36个数据集，提供全面评估；现实世界应用方面，评估模型在实际金融任务（包括股票交易）上的表现，突出其在金融服务中的实用性。
LegalBench：它评估大语言模型的法律推理能力，使用来自各种法律领域的数据集。其关键特性包括：法律推理方面，测试模型在需要法律知识和推理的任务上的表现，这对法律应用至关重要；协作开发方面，通过协作开发，确保涵盖广泛的法律任务；现实世界场景方面，模拟模型必须解释和应用法律原则的现实世界法律场景。

讨论总结

原帖详细介绍了多种LLM的基准测试，包括各基准测试的测量内容、关键特性等。评论者的反应较为多样，一些人对原帖表示感谢，认为内容有价值或满足了自己的需求；还有不少人提出了关于LLM基准的疑问，例如评分方式、是否使用LLM - as - a - judge判定答案正确性、模型是否针对多基准训练、是否存在测试通用世界知识的基准等；也有评论者对某些产品或LLM测试本身表示怀疑。总体氛围比较平和，不过讨论热度较低。

主要观点

👍 原帖内容提供有价值的见解
- 支持理由：多个评论者表达感谢并认为内容满足需求或很有信息量
- 反对声音：无
🔥 询问LLM基准的评分方式
- 正方观点：了解评分方式有助于深入理解LLM基准，是很重要的信息
- 反方观点：无
💡 怀疑模型会针对多个基准训练以获取高分
- 支持理由：如果只是针对基准训练获取高分，可能无法反映实际应用能力
- 反对声音：无
💡 对iask.ai产品因未展示多基准测试结果表示怀疑
- 支持理由：只展示一项领先分数而无其他结果，产品可信度存疑
- 反方观点：无
💡 怀疑LLM测试使用训练数据无法真正测试智能
- 支持理由：训练数据庞大可能导致无法用训练数据外内容测试，不能真正体现智能
- 反方观点：无

金句与有趣评论

“😂 Limezzje: Thanks for the insight. Is there a way to see HOW they are scored? Do those benchmarks use LLM - as - a - judge? Or how is it determined if an answer is "correct" in open questions?”
- 亮点：提出了关于LLM基准评分方式的多个关键问题。
“🤔 KronosN4：Thanks for your explanation. I found that I had confused GPQA and MMLU before.”
- 亮点：表明原帖对纠正概念混淆有帮助。
“👀 我知道有些模型为了在特定基准上得分而训练，但它们会为了在多个基准上获得高分而训练吗？”
- 亮点：对模型训练策略提出思考。
“😉 非常有趣！一个朋友正在使用https://iask.ai，他们声称领先GPQA分数，但没有展示我更熟悉的其他基准测试的任何结果。老实说，在我看来有点可疑。”
- 亮点：对特定产品在LLM基准测试结果展示方面提出怀疑。
“🤨 i some how have this feeling that they are testing the llm with the training data. in this case the training data is so huge that you cannot find something outside of it but that is not the test of intelligence.”
- 亮点：对LLM测试是否使用训练数据及能否真正测试智能提出质疑。

情感分析

总体情感倾向较为积极，多数评论者对原帖表示肯定和感谢。主要分歧点在于对LLM测试相关的疑问和怀疑，如模型训练方式、产品的可信度、测试是否真正能衡量智能等。可能的原因是原帖关于LLM基准的内容激发了评论者进一步思考，而评论者对于LLM测试在不同方面有着自己的关注点和担忧。

趋势与预测

新兴话题：可能会出现关于如何建立更合理的LLM基准测试的讨论，以解决评论者提出的疑问，如避免使用训练数据测试、如何更好地测试通用世界知识等。
潜在影响：如果能建立更合理的LLM基准测试，将有助于提高LLM在实际应用中的可靠性，也能增强用户对LLM产品的信任度。

详细内容：

《深入解读 LLM 基准测试：一场热门的 Reddit 讨论》

在 Reddit 上，一篇关于“LLM 基准测试实际测量内容（直观解释）”的帖子引发了众多关注。该帖子详细介绍了 14 种 LLM 基准测试，包括 GPQA、MMLU、MMLU-Pro 等，涵盖了从生物、物理、化学等学科的知识问答，到数学问题解决、代码生成、多模态理解等多个领域。此帖获得了大量的点赞和众多评论。

讨论的焦点集中在多个方面。有人对这些基准测试的评分方式提出疑问，比如怎样判断开放问题的答案是否正确，是否使用 LLM 作为评判。还有人希望分享更多课程幻灯片，也有人在比较不同基准测试的特点，如之前混淆了 GPQA 和 MMLU。有人好奇模型是否能在多个基准测试中都取得高分，还有人质疑某些模型训练是否使用了训练数据进行测试，甚至怀疑 AI 存在猫腻。也有人询问是否存在针对一般世界知识的测试。

例如，有用户分享道：“我总感觉他们在用训练数据测试 LLM，在这种情况下，训练数据如此庞大，以至于找不到训练数据之外的东西，但这并非对智能的测试。注意：我可能完全错了，但我偷偷怀疑这个 AI 东西完全是骗人的。”

大家在讨论中存在一定的共识，即希望这些基准测试能够更加公正、全面地评估 LLM 的能力。一些独特的观点，如对模型训练方式的质疑，丰富了讨论的深度。

总之，这场关于 LLM 基准测试的讨论，让我们更深入地思考如何科学有效地评估 LLM 的性能和能力。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#