原贴链接

Zamba2-small:

  • 2.7B Mamba2/Attention 混合模型
  • 在 3T 令牌上预训练 + 在 100B 高质量令牌上退火
  • 模型在 HuggingFace 和独立 PyTorch 上发布
  • SOTA 评估性能和卓越的推理效率。

Zamba2-2.7B 具有 SOTA 评估性能的原因:

  1. 共享的 transformer 块允许在 Mamba2 主干中使用更多参数。
  2. 反过来,一些注意力弥补了 SSM 在 ICL 和长距离依赖方面的困难
  3. 由 Zyda + 开放数据集组成的 3T 数据集
  4. 在 100B 高质量令牌上的独立“退火”阶段。

Zamba2-2.7B 具有卓越推理性能的原因:

  1. Mamba2 块的吞吐量比等参数的 transformer 块高约 4 倍
  2. Mamba2 不需要 KV 缓存,因此我们只需要为注意力调用存储 KV 状态
  3. Zamba 块大小选择为在 GPU SM 或 CPU 核心上非常可并行化

https://www.zyphra.com/zamba2-small

https://huggingface.co/Zyphra/Zamba2-2.7B

https://github.com/Zyphra/Zamba

^(()^(来源)^())

https://preview.redd.it/31iwbwv3ypfd1.png?width=2500&format=png&auto=webp&s=1e56c7190bdf8940b544247d61de67a944149409

https://preview.redd.it/g8ky3ksnrpfd1.png?width=2500&format=png&auto=webp&s=05d81723aedf165f5261d00683fb939c5efcb757

讨论总结

本次讨论围绕Zamba2-2.7B模型展开,该模型被宣称在性能上超越了Phi2 2.7B、Danube3 4B和StableLM 3B。讨论内容涵盖了模型的技术架构、预训练数据量、发布平台(如HuggingFace和PyTorch)以及用户的期待和疑问。用户对模型的性能表示认可,同时也提出了关于模型支持、测试地点和未来发展的疑问和期待。

主要观点

  1. 👍 Zamba2-2.7B模型在性能上超越了Phi2 2.7B、Danube3 4B和StableLM 3B
    • 支持理由:模型采用了Mamba2/Attention混合架构,预训练数据量大,发布在多个平台。
    • 反对声音:有用户对模型的性能表示怀疑,特别是与Gemma 2B模型的比较。
  2. 🔥 Zamba2-2.7B超越的是较旧的Phi2版本,而非更新后的Phi3.1版本
    • 正方观点:Phi3.1在MMLU上的得分为70.9,性能优于Zamba2-2.7B。
    • 反方观点:Phi3.1-mini-4k-instruct是一个3.8B模型,性能优于Zamba2-2.7B。
  3. 💡 用户对Zamba2-2.7B模型的支持情况和测试地点表示好奇
    • 解释:用户询问关于llamacpp的支持和unsloth的微调能力,以及模型的测试地点。

金句与有趣评论

  1. “😂 JawGBoi:Outperforms the original Phi-2, or the updated (IMO "Phi-2.5") Phi-2? That makes a big difference really”
    • 亮点:强调了模型版本的重要性,对性能比较的影响。
  2. “🤔 celsowm:where I can test it?”
    • 亮点:直接表达了用户对模型测试地点的好奇和需求。
  3. “👀 Feztopia:I just want them to outperform gemma 2 9b.”
    • 亮点:简洁表达了用户对模型性能提升的期待。

情感分析

讨论的总体情感倾向较为积极,用户对Zamba2-2.7B模型的性能表示认可和期待。主要分歧点在于模型的版本比较和性能怀疑,可能的原因是用户对新旧版本模型的性能差异和发布信息的更新不够了解。

趋势与预测

  • 新兴话题:用户对模型支持情况和测试地点的关注可能引发后续讨论。
  • 潜在影响:Zamba2-2.7B模型的性能提升和技术支持可能对相关领域或社会产生积极影响。