原贴链接

嗨，大家好，我是来自Hugging Face（HF）的VB。HF的SmolLM团队进行了一些训练消融实验，利用高质量的数学标记来提升模型性能。结果，仅使用1600亿个高质量的商业许可标记，持续预训练的Llama 3.2 3B在GSM8K上得分提高了2倍，在MATH上提高了3倍，在MMLU - Pro上性能仅有极小下降，在HellaSwag上没有下降。我们用于使用Nano tron持续训练的脚本可在smollm的github仓库获取，同时还有用于重现训练和消融研究的所有内容！今天就去体验这个模型吧！ - 模型：https://huggingface.co/HuggingFaceTB/FineMath - Llama - 3B - 数据集：https://huggingface.co/datasets/HuggingFaceTB/finemath - 重现训练/消融：https://github.com/huggingface/smollm/tree/main/pre - training/continual - pretraining

讨论总结

这个讨论围绕着Hugging Face对Llama 3.2 3B的预训练展开。主要话题包括预训练结果在不同基准测试中的表现、预训练概念的理解、模型运行环境及价格、模型的指令遵循能力以及可能存在的过度拟合问题等。整体氛围是大家对该预训练成果进行多角度探究，有疑问、有质疑，也有对模型未来改进的期望。

主要观点

👍 对Hugging Face预训练结果中的MMLU - Pro性能改进存疑。
- 支持理由：帖子提到在GSM8K和MATH方面有提升，但对MMLU - Pro性能改进描述简略，评论者想要确切了解。
- 反对声音：无。
🔥 认为continual - pre - training是继续预训练而非小数据集微调。
- 正方观点：Llama已进行大量训练，现在只是继续用额外标记训练，所以是继续预训练。
- 反方观点：无。
💡 关注模型在除数学任务外的指令遵循能力的重要性。
- 该模型在数学任务有提升，但在实际多步场景中的指令遵循能力更关键，尤其对于小模型。
- 模型重点在于提升数学基准成绩，这方面也有价值。
💡 怀疑预训练结果是在特定基准上过度拟合。
- 预训练在MATH上有2 - 3倍提升，可能存在针对特定基准过度拟合的情况。
- 无反对声音，只是提出怀疑。
💡 希望模型构建者能让模型学会处理骰子相关事务。
- 现有模型在处理骰子相关事务时存在问题，如72b QvQ模型处理1d100骰子时出错。
- 无反对声音，只是一种期望。

金句与有趣评论

“🤔 Kathane37: Could you explain to me what is continual - pre - training?”
- 亮点：直接提出对continual - pre - training概念的疑问，开启了一个有深度的讨论话题。
“👀 这是相当酷的，但IFEval或指令遵循的影响如何呢？一个3B的模型，能够在从搜索代理到13级奥术师的驱动AI等广泛的多步场景中保持性能，将比一个在教科书数学问题上表现出色的模型更具实际意义。”
- 亮点：强调模型在多步场景中的指令遵循能力的重要性，与仅关注数学性能形成对比。
“😂 EL5, sorry for stupid. Would CICD with a focus on the continuous deployment be a good analogy for continuous training?”
- 亮点：以一种自谦的方式提出一个有趣的类比问题，关于CICD和持续训练的关系。
“😉 希望，模型构建者某天会教模型如何处理骰子。”
- 亮点：提出对模型处理特殊事务（骰子相关）的期望，比较独特。
“🙄 So…overfitting on a specific benchmark?”
- 亮点：简洁地提出对预训练结果可能存在过度拟合的怀疑。

情感分析

总体情感倾向为探究性和质疑性。主要分歧点在于对模型预训练成果的看法，一部分人关注模型在数学性能提升方面的积极意义，另一部分人则质疑这种提升是否存在过度拟合、在其他方面（如指令遵循、MMLU - Pro性能）是否真的有改进等。可能的原因是大家从不同的角度（如学术研究、实际应用等）看待这个预训练成果，并且对模型性能的期望和关注点不同。

趋势与预测

新兴话题：模型在处理特殊事务（如骰子相关）方面的改进可能会引发后续讨论，以及关于模型在多步推理场景下的性能提升探讨。
潜在影响：如果模型在指令遵循能力和多步推理能力方面得到提升，将对其在实际应用中的通用性产生积极影响；对预训练可能存在的过度拟合问题的深入研究，有助于改进预训练方法，提高模型质量。

详细内容：

标题：Hugging Face 对 Llama 3.2 3B 持续预训练在数学任务上的显著提升

在 Reddit 上，一篇关于 Hugging Face 对 Llama 3.2 3B 进行持续预训练的帖子引起了广泛关注。该帖子称，仅使用 1600 亿高质量的商业许可令牌对其进行持续预训练后，在 GSM8K 上得分提高了 2 倍，在 MATH 上提高了 3 倍，同时在 MMLU-Pro 上性能仅有极小下降，在 HellaSwag 上没有下降。此帖获得了众多点赞和大量评论。

讨论的焦点集中在多个方面。有人询问在 MMLU-Pro 上是否有改进；有人对持续预训练的概念提出疑问，有用户解释这意味着继续模型的预训练，而非使用小数据集进行微调，就像 Llama 3 已训练了 15 万亿令牌，此次是继续用额外的 1600 亿令牌训练。还有关于这是否属于自监督或无监督训练的讨论。

有用户认为，如果不是 X 帖或 YouTube 链接，自己就会点击，尤其是关于 HF 模型的。有人指出该模型卡表明此模型是基于英语数学数据训练的，并非指令调优，适用于英语文本补全。有人觉得此模型重点在于数据集提升了数学基准，而对于 MMLU 得分可能不会有改善。也有人认为对于基础模型，指令跟随映射到基于示例的隐式模式延续，模型越聪明越好，对于知识有限的小模型尤为重要。

还有用户将持续训练类比为聚焦于持续部署的 CICD，询问这是否恰当，以及为何“数据更新”会对 MMLU-Pro 这样的基准产生负面影响。有人分享了使用 720 亿 QvQ 模型时的个人经历，称其在处理骰子相关问题时表现不佳。

此次讨论反映出大家对模型持续预训练的效果、应用范围以及潜在问题的关注和思考。但关于模型在不同任务中的表现和改进方向，仍存在诸多争议和待探索的空间。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#