你们大多数人可能都熟悉臭名昭著的大型语言模型(LLM)‘苹果’测试基准。如果不知道的话,如下所述,给一个LLM以下看似简单的指令提示:写10个以‘苹果’结尾的句子。遗憾的是,大多数开源(甚至很多前沿的)模型在这项任务上表现糟糕。我了解到这与标记预测的工作方式有很大关系,但有些模型实际上能轻松通过这个测试。我测试过的通过和未通过这个测试的模型:通过‘苹果’测试的LLM: - Llama 3.3:70b(Q4KM) - Athene - V2(Q4KM) - Nemotron(Q4KM) - Qwen 2.5:72b(Q4KM)未通过‘苹果’测试(大多数是较新的模型): - Phi - 4 14b(FP16) - InternLM3(FP16) - Falcon 3 10b(FP16) - Granite 3 Dense(FP16) - QwQ 32b(Q_8) - GLM - 4 8b(FP16) - Command - R(Q4KM) - MiniCPM 8b v2.6(FP16) - Mistral Small 22b(Q4KM) - Nemotron Mini 4b(FP16) - Qwen 2.5 7b(FP16) - WizardLM2 7b(FP16)未通过但值得一提的: - Olmo2 14b(FP16) - 这个模型速度极快,10个句子中能稳定答对8个,并且在第二次尝试时能够纠正错误(大多数模型多次尝试也不会更好)。这项任务对于70b以下的模型似乎具有挑战性。即使是具有更高测试时间计算能力的新推理模型似乎也表现不佳。 - 为什么随着时间推移,新模型在这项任务上没有变得更好? - 标记预测的底层机制是否仍然阻碍成功? - 能通过测试的模型是否只是通过针对特定基准进行训练来作弊?是否有人发现一个70b以下能稳定通过‘苹果’测试的开源模型?
讨论总结
原帖对不同LLM进行“苹果测试”,列出通过和未通过的模型,质疑新模型未在该任务上进步的原因。评论主要在分享不同模型测试结果、分析失败原因、探讨指令调整效果、讨论模型能力(如规划能力)以及与测试相关概念(如标记化)等,大家在积极交流各自的发现和看法。
主要观点
- 👍 70B可能是高质量“推理”的最低要求
- 支持理由:部分评论者根据测试结果发现70B以下模型完成任务较困难,如“苹果测试”中很多70B以下模型失败。
- 反对声音:有模型虽低于70B也通过了测试,如Llama 3.2 3B。
- 🔥 模型受限于预测下一个标记概率分布难以提前规划出特定结尾句子
- 正方观点:从模型的工作原理出发,模型只能预测下一个标记的概率分布,如LagOps91的观点。
- 反方观点:Evening_Ad6637认为模型能够提前规划,神经网络有超叠加概念。
- 💡 指令微调后效果有一定改善,但多数模型仍困难
- 解释:指令从“Write 10 sentences that end in the word “apple””改为“Write 10 sentences that end with the word “apple””,有一定效果但多数模型还未轻松应对。
- 💡 结果可能与模型所依据的LLM输出训练有关
- 解释:假设测试中使用相同令牌采样设置,模型训练数据集可能经过采样以减少重复,影响测试结果。
- 💡 标记化不是导致问题的唯一原因
- 解释:指令示例体现标记化的局限性,但也有其他情况导致任务失败。
金句与有趣评论
- “😂 Skill issue.”
- 亮点:以简洁且调侃的方式回应原帖,暗示表现不佳的模型是能力问题。
- “🤔 70B仍然是高质量“推理”的最低要求吗?”
- 亮点:提出对70B与模型推理能力关系的疑问,引发对模型性能的思考。
- “👀 I find that ‘Write 10 sentences that end with the word “apple”’ seems to work a little better.”
- 亮点:提供了一种指令调整的尝试及效果反馈。
- “😎 Llama 3.3 70B still passes at Q3_K_M. I only get ~3t/s on my binned M4 Pro/48GB, but the tokens are high quality and smell like Apple.”
- 亮点:幽默地描述Llama 3.3 70B在特定条件下通过测试的情况,提到生成的tokens“有苹果的味道”。
- “🤯 Here’s an expert saying they can’t plan or reason: https://x.com/ylecun/status/1702027572077326505"
- 亮点:引入专家观点说明模型不能计划或推理。
情感分析
总体情感倾向为中性偏理性探索。主要分歧点在于模型能否提前规划,一方认为模型受限于预测下一个标记概率分布难以提前规划,另一方则认为模型能够提前规划。可能的原因是大家对模型能力的理解角度不同,一方从模型的基本工作机制出发,另一方则考虑到神经网络的超叠加等复杂概念。
趋势与预测
- 新兴话题:字节潜在标记化的应用以及语言模型若未接受分解标记至字母或思维链训练会挣扎的情况可能会引发后续讨论。
- 潜在影响:对LLM的发展有一定的启示作用,如在模型训练、提升推理能力、优化指令设计等方面。
详细内容:
标题:关于语言模型“苹果测试”的热门讨论
在 Reddit 上,一个题为“The ‘apple’ test - Why aren’t newer reasoning models doing better on this basic benchmark?”的帖子引发了广泛关注。该帖子获得了众多点赞和大量评论,主要探讨了语言模型在“苹果测试”这一基准任务中的表现。
原帖指出,让语言模型根据指令“Write 10 sentences that end in the word ‘apple’.”生成句子,多数开源模型甚至许多前沿模型都表现不佳。能通过该测试的模型如 Llama 3.3:70b 等,而像 Phi-4 14b 等很多较新的模型则失败了。这引发了一系列疑问:为何新模型未随时间在该任务上表现更好?是令牌预测机制仍在阻碍成功吗?通过测试的模型是否是因为专门训练过该基准?是否存在能始终通过该测试的小于 70b 的开源模型?
讨论焦点与观点分析: 有人认为 70B 似乎是能保证“推理”质量的最小规模,也许这就是目前的情况。也有人询问模型失败的具体方式,是句子数量不够,还是句子结尾不是“apple”,亦或是句子结尾是“apple”但没有意义。还有用户尝试了 Gemma2-9B 等模型,发现其表现不错但也存在作弊情况。有人指出,如果让模型多次运行并避免重复之前的句子,不知道有多少能通过测试,这或许表明任务本身不难遵循,只是模型在输出接近尾声时会忽略部分要求。有人认为 Deepseek v3 和 MiniMax - 01 在指出错误后能改进,但仍常失败。还有人提出不同模型在相同测试中的表现可能与训练数据有关。
对于模型能否提前规划,存在不同观点。有人认为模型无法提前规划,因为它只是预测下一个令牌的概率分布;但也有人认为神经网络能实现所谓的“叠加”,模型能学习超出预期的概念和元概念。
这场讨论揭示了语言模型在处理特定任务时的复杂性和不确定性,让人们对其能力和局限性有了更深入的思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!