这是我们的第三个模型发布:Lite-Oute-2-Mamba2Attn-250M(基础和指令变体)。
这些模型基于新的 Mamba2 架构,包含 4 个注意力层,占总共 32 层的 12.5%。
对于这个模型,我进一步精炼了数据集,特别是指令数据集,与早期的 Lite Oute 1 和 Lite Mistral 模型相比,响应质量显著提高。
如果你对技术细节感兴趣,我写了一篇博客,涵盖了训练、性能和架构:https://www.outeai.com/blog/lite-oute-2-mamba2attn
模型下载(Safetensors):
https://huggingface.co/OuteAI/Lite-Oute-2-Mamba2Attn-250M-Instruct
https://huggingface.co/OuteAI/Lite-Oute-2-Mamba2Attn-250M-Base
模型权重已转换为与 Hugging Face 兼容,由于缺乏对 Mamba2 注意力层的官方支持,包含了自定义建模文件。
注意力层实现来自:这个 PR。
快速总结:
- 训练:300 亿个令牌,DCLM-baseline-1.0 和 FineWeb-Edu 各占 50%
- 调优:通过监督微调(SFT)和直接偏好优化(DPO)训练指令模型
- 性能:与之前的模型相比,在各种基准测试中提高了上下文任务的处理能力和准确性
- 硬件:在单个 NVIDIA H100 和 NVIDIA 4090 GPU 上训练
为什么使用注意力层?
根据“An Empirical Study of Mamba-based Language Models”论文:
加入注意力层解决了自然语言处理任务中的关键挑战,特别是那些需要上下文学习和复杂信息路由的任务。
在基于 Mamba2 的模型中加入少量注意力层显著提高了准确性。他们的混合 Mamba-Transformer 模型在常见的 NLP 任务中显示了比纯 Transformer 模型平均 2.65 点的准确性提升。
讨论总结
本次讨论主要围绕Lite-Oute-2-Mamba2Attn-250M模型的训练和性能展开,涉及数据集质量、损失曲线、混合模型优势等多个方面。用户们对模型的训练细节、性能提升以及潜在的技术问题进行了深入探讨,同时也关注了模型的多语言支持和代码贡献。整体氛围较为技术导向,用户们对新模型的发布表示了肯定,并提出了一些建设性的意见和问题。
主要观点
- 👍 30亿个训练令牌对于小型模型来说是一个合理的数量,关键在于数据集的质量。
- 支持理由:OuteAI详细描述了损失曲线从0到150亿令牌的显著下降,以及从150亿到300亿令牌的平稳波动。
- 反对声音:LiquidGunay询问30亿个训练令牌是否较少。
- 🔥 混合模型应比纯 Mamba 模型更高效。
- 正方观点:grimjim认为混合模型在性能上应有所提升。
- 反方观点:无明显反对声音。
- 💡 新模型在批量生成方面存在一些问题,特别是在左填充方面。
- 解释:Not_Vasquez指出模型在批量生成时存在问题,需要进一步修复。
金句与有趣评论
- “😂 LiquidGunay:30 billion is a fairly small number of tokens right? How does the loss curve look?”
- 亮点:LiquidGunay对训练令牌数量提出疑问,引发了对数据集质量的讨论。
- “🤔 grimjim:Hybrid should be more performant than pure mamba.”
- 亮点:grimjim对混合模型的性能提升表示肯定,并提出了使用KPO进行训练的可能性。
- “👀 Not_Vasquez:"Very cool to see some smaller models :)"”
- 亮点:Not_Vasquez对新模型的发布表示赞赏,并愿意在批量生成修复方面提供帮助。
情感分析
讨论的总体情感倾向较为积极,用户们对新模型的发布表示了肯定,并提出了一些建设性的意见和问题。主要分歧点在于模型的训练细节和性能表现,用户们对数据集质量、损失曲线和混合模型的优势进行了深入探讨。
趋势与预测
- 新兴话题:混合模型在长上下文处理等传统劣势领域的表现可能会引发更多技术讨论。
- 潜在影响:新模型的发布可能会对相关领域的技术发展产生积极影响,尤其是在提升模型性能和解决技术问题方面。
详细内容:
标题:Lite-Oute-2-Mamba2Attn-250M 新模型引发 Reddit 热议
近日,Reddit 上一则关于 Lite-Oute-2-Mamba2Attn-250M 模型的帖子引起了广泛关注。该帖子介绍了这一新型的轻量化 Mamba2 混合模型,其拥有注意力层,并详细阐述了模型的架构、训练过程、性能表现等方面的内容。此帖获得了众多用户的积极参与,评论数众多。
帖子主要讨论方向包括模型的参数规模、训练时长、适用语言以及与其他模型的比较等。
文章将要探讨的核心问题或争议点在于:模型的训练数据量是否足够,模型在不同任务中的性能表现,以及其与纯 Mamba 模型和纯注意力模型的差异。
在讨论中,有人提出 30 亿的训练tokens数量相对较少,并询问损失曲线的情况。对此,发帖者回应称,30 亿tokens的数量是否足够取决于数据集的质量,对于较小的模型而言,若数据精心整理也能很扎实。并进一步说明从 0 到 15 亿tokens,损失显著下降,从 15 亿到 30 亿tokens,损失趋于平稳。
有用户询问训练所需的时长,发帖者表示使用 4090 和 H100 GPU 的混合设备训练大约需要 5 天。
有人认为混合模型应比纯 Mamba 模型性能更优,并询问在训练的指导阶段是否尝试过 KPO,还提到同事使用 magpie 风格的数据集进行指导训练取得了良好效果。
有用户好奇近期的混合模型浪潮显著的原因,以及 Mamba/注意力混合模型在长上下文等传统劣势领域击败纯注意力模型的假设。
还有用户对模型的规模和语言适用范围发表了看法,有人认为 250M 的参数数量较少,也有人询问该模型是仅适用于英语还是多语言的,发帖者回应称主要聚焦于英语。
总体而言,这次关于 Lite-Oute-2-Mamba2Attn-250M 模型的讨论展现了大家对新技术的关注和探索,不同观点的交流也有助于更全面地理解这一新型模型。
感谢您的耐心阅读!来选个表情,或者留个评论吧!