原贴链接

在过去几周里,我一直在使用稀疏 dropout 对 llama 进行实验,并且有一些发现让我非常兴奋想要分享。

首先,我想感谢昨天我了解到的一些相关工作:TEAL,它看起来有加速激活稀疏性的硬件实现!事实上,我的工作与它的唯一区别在于我选择哪些激活进行丢弃的方式。据我了解,这项工作对中间激活进行阈值丢弃,而我直接从门激活中进行丢弃。我的直觉是,通过使用门激活,你实际上是在丢弃 llama 不想要的数据,本质上是在去噪。

现在谈谈结果!第一个令人惊讶的发现是,随着 dropout 阈值的增加,Wikitext 文章的困惑度 下降,并且在总模型稀疏度约为 50% 时性能最佳!我最初测试时使用的是百分比 dropout,但发现中间层可以更加稀疏,因此采用了阈值方法。 Wikitext 图表

第二个令人惊讶的发现是在 GSM8k 上。我使用 lm-eval 复制了 vLLMs 在 Llama-3.1-405B-FP8 上的发现,得到了 0.9591 的分数。同样,随着稀疏度的增加,准确性也随之提高。在峰值性能时,我得到了与未量化 405B 模型相同的性能。令人惊讶的是,这与 Wikitext 最佳性能的阈值值相同,显示出一些一致性。 GSM8k 数据

非常令人兴奋的是,较小的模型(70b 和 8b)也显示了相同的效果,这意味着你可以期待 Llama-3.1-405B-FP16 的准确性有所提高,同时可能使推理速度翻倍。我已经联系了 Cerebras 试图获得一些托管,并联系了聊天机器人竞技场试图获得一些基准测试,但都没有得到回复。

展望未来,我希望将 TEAL 内核集成到 vLLM 中,为社区提供准确性和速度的提升,并可调节阈值以平衡速度和准确性。如果你对此感兴趣,请与我联系!

tl;dr: 从 Llama 的 SwiGLU 门中丢弃值可以提高准确性和速度。

讨论总结

本次讨论主要聚焦于作者对Llama模型中稀疏dropout技术的实验结果,展示了该技术如何提高模型的准确性和推理速度。评论者们对这一发现表示了浓厚的兴趣,并提出了关于温度参数调整、模型优化、以及社区参与的建议和疑问。整体氛围积极,社区成员期待这一技术能带来更高效、更经济的模型应用。

主要观点

  1. 👍 稀疏dropout技术提高模型性能
    • 支持理由:实验结果显示,随着稀疏度的增加,模型在Wikitext和GSM8k数据集上的表现都有所提升。
    • 反对声音:部分评论者对GSM8k作为通用基准表示复杂感受,认为需要更多验证。
  2. 🔥 温度参数在提高准确性后效果更好
    • 正方观点:codys12认为温度参数在提高准确性后效果更好。
    • 反方观点:CockBrother质疑调整温度参数的效果。
  3. 💡 社区参与和代码共享
    • 支持理由:评论者建议上传代码以便社区进行测试,并提到exllamav2框架的内存效率。
    • 反对声音:无明显反对声音,社区普遍期待更多参与和资源共享。
  4. 🚀 成本降低和API改进
    • 支持理由:评论者期待稀疏dropout技术能带来更便宜和更好的Llama 405B API服务。
    • 反对声音:无明显反对声音,普遍认为技术进步将带来成本降低。
  5. 🌟 TEAL集成的可能性
    • 支持理由:作者对未来TEAL集成的可能性表示期待,这可能进一步提高准确性和速度。
    • 反对声音:无明显反对声音,社区普遍对技术集成持积极态度。

金句与有趣评论

  1. “😂 So you’re just dropping gates below a certain threshold at inference time? Not profiling it on data or anything?
    • 亮点:提出了对实验方法的具体疑问,引发了对实验细节的讨论。
  2. “🤔 Actually, temperature works a little better when accuracy is increased!
    • 亮点:提供了关于温度参数调整的新见解,增加了讨论的深度。
  3. “👀 Oooh hopefully that means even cheaper and better Llama 405B API.
    • 亮点:表达了社区对技术进步带来成本降低和性能提升的期待。

情感分析

讨论的总体情感倾向积极,社区成员对稀疏dropout技术在Llama模型中的应用表示兴奋和期待。主要分歧点在于对GSM8k作为通用基准的看法,以及对温度参数调整效果的不同意见。这些分歧主要源于对实验细节和技术应用的不同理解。

趋势与预测

  • 新兴话题:稀疏dropout技术在不同模型和数据集上的一致性表现,以及TEAL集成的可能性。
  • 潜在影响:该技术可能带来模型性能的显著提升,降低成本,并促进社区更多参与和资源共享。

详细内容:

标题:Llama 405B 稀疏性带来的惊喜发现

在 Reddit 上,有一篇关于 Llama 405B 稀疏性实验的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。原帖作者表示,过去几周一直在进行有关稀疏 dropout 对 llama 的实验,并分享了令人兴奋的发现。

帖子中提到,作者要感谢一些相关工作,如TEAL,其有用于加速激活稀疏性的硬件实现。作者的工作与它的区别在于选择丢弃激活的方式,作者认为通过使用门激活进行丢弃,本质上是在去噪。

实验结果十分惊喜,在 Wikitext 文章上,随着 dropout 阈值的增加,困惑度降低,在总模型稀疏度约 50%时性能最佳。在 GSM8k 上,随着稀疏性增加,准确性也提高了,在峰值性能时,能达到与未量化的 405B 模型相同的性能。较小的模型(70b 和 8b)也有相同效果,这意味着 Llama-3.1-405B-FP16 有望提高准确性并可能使推理速度翻倍。

讨论焦点与观点分析: 有人询问是否只是在推理时丢弃低于特定阈值的门,而不是根据数据进行分析。作者回复表示确实如此,并以 GSM8k 作为下游测试基准,即使是多轮思维少样本的情况,仍有显著提升。有人猜测改变温度可能不会有预期的效果,但作者表示当准确性提高时,温度反而效果更好。还有人提到自己因推理速度从 Llama 70b 转向 Llama 8,想知道能否让 70b 更快,降低 VRAM 要求,得到了一些建议,如考虑 KTransformers 利用 MoE 和 CPU 卸载,或尝试其他量化方式。有人询问是否有 GitHub 仓库能查看代码或 HF 链接来试用“稀疏化”模型,作者提供了https://github.com/Codys12/vllm。有人好奇作者的模型加载设置以及选择特定量化的原因,作者表示没有额外训练。有人期待这意味着更便宜和更好的 Llama 405B API,还有人称赞作者工作出色,对其未来发展充满期待。

总的来说,这次关于 Llama 405B 稀疏性的讨论,不仅展示了技术上的创新和突破,也引发了大家对未来发展的热烈期待。