原贴链接

上周我让所有Deepseek - R1的提炼模型通过“苹果”基准测试，只有70b的模型通过了“写10个以‘苹果’结尾的句子”测试，10个句子全部正确。我也测试了许多其他较新的开源模型（所有主要的模型，Qwen、Phi - 、Llama、Gemma、Command - R等），但在70b以下没有模型能成功将10个句子全部写对……直到Mistral Small 3 24b出现。它是我发现的第一个也是唯一一个低于70b参数且能通过这个测试的模型。恭喜Mistral团队！！

讨论总结

原帖作者发现Mistral Small 3 24b这个70b以下的模型通过了“apple”测试，本以为70b以上的模型才能通过。评论者们围绕这个事件展开讨论，涉及LLM测试方式是否合理，基准测试是否有用，不同模型在不同任务（如德语相关任务、代码审查任务等）中的表现，还对原帖作者判定模型好坏的方式提出质疑，整体氛围热烈且充满不同观点。

主要观点

👍 目前对LLM的测试受分词器或采样参数影响，需要更现实的测试。
- 支持理由：目前的测试存在受分词器弱点或采样参数影响的情况，不能很好地反映模型真实能力。
- 反对声音：无（未在评论中体现）
🔥 基准测试无用，不应被信任。
- 正方观点：认为基准测试存在问题，不能准确反映模型的实际能力，可能对LLM有损害。
- 反方观点：部分人未明确反对，有人认为特定测试可反映模型在某些方面的能力。
💡 原帖作者不了解所用工具的工作原理。
- 解释：原帖只看模型通过测试就下结论，未考虑参数设置对结果的影响。
💡 Mistral Small 3 24b是70B以下较好的模型。
- 解释：有多个评论者认可其在不同任务中的表现，如在意大利语写作方面。
💡 不同的人有不同的模型使用场景。
- 解释：不同人在不同任务（如德语的文本生成和RAG）中对模型有不同需求。

金句与有趣评论

“😂 Thing is, people are still testing LLM on tests that typically fall under either (1) the tokenizer’s weaknesses or (2) the sampling parameters’ fault (e.g. repetition penalty here). We need more realistic tests.”
- 亮点：指出目前LLM测试存在的问题，呼吁更现实的测试。
“🤔 Benchmarks are completely useless and we should never trust them!”
- 亮点：非常直白地表达对基准测试的否定态度。
“👀 Are you just so ignorant of how the tools you use work?”
- 亮点：对原帖作者的一种质疑，言辞较为犀利。
“😂 I keep hearing this, but Phi 4 is consistently the best model for real world, day - to - day tasks for me.”
- 亮点：通过个人体验强调Phi 4在日常任务中的良好表现。
“🤔 Mistral Small 3 24b is good, it’s really good, it’s best model, probably, up to 70B.”
- 亮点：对Mistral Small 3 24b的正面评价。

情感分析

总体情感倾向较为复杂，既有对Mistral Small 3 24b通过测试表示惊喜和赞赏的积极情感，也有对原帖作者判定模型好坏方式的质疑、批评等消极情感，还有对基准测试有效性等问题的争议性情感。主要分歧点在于对原帖结论的认可程度、对基准测试的看法以及对不同模型性能的评价。可能的原因是大家对模型的评判标准不同，对不同测试方式的理解和重视程度不同，以及各自在不同任务场景下对模型的使用体验有差异。

趋势与预测

新兴话题：可能会引发对如何设计更合理的LLM测试方式的进一步讨论，以及对不同模型在更多特殊任务（如多语言写作、特定逻辑任务等）中的性能研究。
潜在影响：对LLM的研发方向和评估标准可能产生影响，如果大家逐渐认同某些观点（如需要更现实的测试），可能会促使开发者改进测试方法，优化模型以适应新的评估标准。

详细内容：

《关于 Mistral Small 3 24b 模型的热门讨论》

近日，Reddit 上一则关于 Mistral Small 3 24b 模型的帖子引发了广泛关注。该帖子称，经过“apple”基准测试，这是第一个在 70b 以下参数通过该测试的模型，获得了众多点赞和大量评论。

讨论的焦点主要集中在以下几个方面：有人认为当前对大语言模型（LLM）的测试存在问题，如可能涉及分词器的弱点或采样参数的缺陷，需要更现实的测试。也有人直言基准测试对 LLM 造成了很大损害。不过，也有用户表示 Phi 4 模型在实际日常任务中表现出色，是很好的全能模型。

还有不少用户分享了自己的使用经历和观点。比如，有人对 Mistral 24B 的表现感到惊喜，但认为其上下文长度不足；有人在德语语言的文本生成和 RAG 任务中，认为 Mistral 和 Nemotron 表现较好，而 Qwen 和 R1 表现较差。

有人提出不同模型的最优设置来源问题，有回复称可以在 hugging face 查找，或者查看模型的 config.json。

关于 Mistral Small 3 24b 模型，有人称赞其优秀，认为可能是 70B 以下最好的模型；但也有人认为测试可能恰好符合该模型的学习标记，70b 模型仍有更多深度。还有人指出模型的表现与参数设置密切相关，不能简单地认为某个模型最好，而应根据具体任务调整参数。

这场讨论反映出人们对不同模型的性能和适用场景存在多样的看法，也展现了大家对优化模型使用的深入思考。究竟如何客观评价模型的性能，如何找到最适合具体任务的模型和参数设置，仍有待进一步探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#