原贴链接

我在TIGER - Lab的MMLU - Pro基准测试中发现了这个神秘的RRD2.5 - 9B模型，它的得分为0.6184。我们在哪里能找到它呢？谷歌没有提到它。在Grok 3、Perplexity和ChatGPT中也没有找到。它是Recurrent Gemma 2.5吗？如果这个分数是真实的，那真的很令人印象深刻。这是一个最先进的32B模型和Llama - 3.1 - 405B模型的分数。你可以自己查看：[MMLU - Pro排行榜 - TIGER - Lab的Hugging Face空间](https://huggingface.co/spaces/TIGER - Lab/MMLU - Pro)

讨论总结

原帖发现一个在MMLU - Pro基准测试中取得高分的神秘RRD2.5 - 9B模型，在各种搜索引擎都查找不到。评论中有人觉得如果分数真实很令人印象深刻，也有人怀疑模型可能过度拟合数据，甚至质疑MMLU - Pro排行榜的可信度，还有人开玩笑称这个模型是自己瞎弄的结果，也有评论者分享自己硬件下的最佳模型选择及相关模型表现等情况，整体氛围好奇又充满质疑。

主要观点

👍 找不到RRD2.5 - 9B模型相关信息。
- 支持理由：在谷歌、Grok 3、Perplexity和其他搜索引擎上均查找无果。
- 反对声音：无。
🔥 若该模型的分数真实则非常令人印象深刻。
- 正方观点：该分数达到32B模型以及Llama - 3.1 - 405B的水平。
- 反方观点：有评论者对分数真实性存疑，认为可能过度拟合数据。
💡 认为RRD2.5 - 9B模型可能过度拟合数据。
- 解释：虽然分数看似很高，但可能是过度拟合数据导致的。
🤔 认为MMLU - Pro排行榜不可信。
- 解释：以internlm3 8b和Llama 3.1 70b为例，8b模型在排行榜上比70b模型表现还好，不符合常理。
😂 模型是评论者瞎弄的产物。
- 支持理由：评论者Thrumpwart承认是自己在瞎弄。
- 反对声音：有其他评论者表示怀疑。

金句与有趣评论

“😂我们有一个真正的LocalLlama之谜！”
- 亮点：生动地表达出RRD2.5 - 9B模型的神秘性。
“🤔如果那是真实的分数，那真的很令人印象深刻。”
- 亮点：指出模型分数如果真实则很厉害。
“👀This board is BS - internlm3 8b is not smarter than Llama 3.1 70b.”
- 亮点：通过具体模型比较来说明MMLU - Pro排行榜的不合理之处。
“😉61% is SOTA for 32b? :P”
- 亮点：以调侃的方式表达对RRD2.5 - 9B模型得分的怀疑。
“🤣Thrumpwart: That was me just messing around. Please ignore.”
- 亮点：揭示了模型可能是玩笑产物。

情感分析

总体情感倾向为怀疑。主要分歧点在于RRD2.5 - 9B模型的真实性、其分数的可信度以及MMLU - Pro排行榜的可信度。可能的原因是这个模型比较神秘，在常见搜索引擎中找不到相关信息，而且其分数与其他模型对比显得异常。

趋势与预测

新兴话题：可能会引发关于如何判断模型分数真实性以及模型基准测试合理性的进一步讨论。
潜在影响：如果MMLU - Pro排行榜的可信度持续受到质疑，可能会影响人们对基于此排行榜的模型评价体系的信任，促使相关机构重新审视模型评价标准。

详细内容：

标题：神秘模型 RRD2.5-9B 现身 MMLU-Pro 基准测试，引发热议

在 Reddit 上，有一篇题为“我在 TIGER-Lab 的 MMLU-Pro 基准测试中发现了这个神秘的 RRD2.5-9B 模型，它的得分是 0.6184。是谁构建了它？”的帖子引起了广泛关注。该帖子获得了众多的点赞和评论。

原帖主要探讨了在 MMLU-Pro 基准测试中出现的一个未知来源的模型 RRD2.5-9B，作者表示在常见的搜索引擎和其他模型中都未找到相关信息，并对其高分感到惊讶。帖子还提供了查看相关信息的链接：MMLU-Pro Leaderboard - a Hugging Face Space by TIGER-Lab。

这一话题引发的主要讨论方向包括对该模型来源的猜测、对其得分真实性的质疑，以及与其他模型的比较。文章将要探讨的核心问题是这个神秘模型的出处以及其高分的可信度。

在讨论中，主要观点如下：有人认为这是一个真正的本地 llama 之谜。有人戏称这是一个传奇模型。有人在多个搜索引擎上搜索都未找到相关信息。有人认为该模型可能过度拟合数据。有人表示这个排行榜是无意义的，认为 internlm3 8b 并不比 Llama 3.1 70b 更聪明。有人称只是在开玩笑，并非认真的。

有用户分享道：“对于在尽可能多的领域的整体得分，我目前找不到比 Phi-4 更适合我硬件的了。我可以快速运行 14b 模型，但 24b 对我的耐心水平来说太慢了，除非我选择一个会牺牲很多准确性的量化。我只是真的找不到让 Phi-4 听起来不那么机械的最佳系统提示和温度范围。如果有人有同样的问题但已经解决了，我将非常感激您的智慧。” 有人回应称总是认为那些模型过度拟合了基准测试，无法从中获得良好的效果，并询问对方使用这些模型的用途。对方则表示诚实地说，只是在试图找到日常助理工作的最佳通用模型，认为其推理能力不错，但在调整温度时感到困惑，承认可能是自己的用户错误。并提到一个任务，即从一篇短文中提取关键点，它通常做得不错，但 Qwen 和 Llama 在表达上做得更好。有人质疑 61%的得分是否真的是 32b 模型的最先进水平。

讨论中的共识在于大家都对这个神秘模型充满好奇和疑问。特别有见地的观点是关于不同模型在实际应用中的表现和用户体验的分享，丰富了对模型评价的多维度思考。

总的来说，这个神秘模型的出现引发了 Reddit 用户们的热烈讨论，各种观点的碰撞让人们对模型的评估和应用有了更深入的思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#