在过去几周里,我一直在使用稀疏 dropout 对 llama 进行实验,并且有一些发现让我非常兴奋想要分享。
首先,我想感谢昨天我了解到的一些相关工作:TEAL,它看起来有加速激活稀疏性的硬件实现!事实上,我的工作与它的唯一区别在于我选择哪些激活进行丢弃的方式。据我了解,这项工作对中间激活进行阈值丢弃,而我直接从门激活中进行丢弃。我的直觉是,通过使用门激活,你实际上是在丢弃 llama 不想要的数据,本质上是在去噪。
现在谈谈结果!第一个令人惊讶的发现是,随着 dropout 阈值的增加,Wikitext 文章的困惑度 下降,并且在总模型稀疏度约为 50% 时性能最佳!我最初测试时使用的是百分比 dropout,但发现中间层可以更加稀疏,因此采用了阈值方法。 Wikitext 图表
第二个令人惊讶的发现是在 GSM8k 上。我使用 lm-eval 复制了 vLLMs 在 Llama-3.1-405B-FP8 上的发现,得到了 0.9591 的分数。同样,随着稀疏度的增加,准确性也随之提高。在峰值性能时,我得到了与未量化 405B 模型相同的性能。令人惊讶的是,这与 Wikitext 最佳性能的阈值值相同,显示出一些一致性。 GSM8k 数据
非常令人兴奋的是,较小的模型(70b 和 8b)也显示了相同的效果,这意味着你可以期待 Llama-3.1-405B-FP16 的准确性有所提高,同时可能使推理速度翻倍。我已经联系了 Cerebras 试图获得一些托管,并联系了聊天机器人竞技场试图获得一些基准测试,但都没有得到回复。
展望未来,我希望将 TEAL 内核集成到 vLLM 中,为社区提供准确性和速度的提升,并可调节阈值以平衡速度和准确性。如果你对此感兴趣,请与我联系!
tl;dr: 从 Llama 的 SwiGLU 门中丢弃值可以提高准确性和速度。
讨论总结
本次讨论主要聚焦于作者对Llama模型中稀疏dropout技术的实验结果,展示了该技术如何提高模型的准确性和推理速度。评论者们对这一发现表示了浓厚的兴趣,并提出了关于温度参数调整、模型优化、以及社区参与的建议和疑问。整体氛围积极,社区成员期待这一技术能带来更高效、更经济的模型应用。
主要观点
- 👍 稀疏dropout技术提高模型性能
- 支持理由:实验结果显示,随着稀疏度的增加,模型在Wikitext和GSM8k数据集上的表现都有所提升。
- 反对声音:部分评论者对GSM8k作为通用基准表示复杂感受,认为需要更多验证。
- 🔥 温度参数在提高准确性后效果更好
- 正方观点:codys12认为温度参数在提高准确性后效果更好。
- 反方观点:CockBrother质疑调整温度参数的效果。
- 💡 社区参与和代码共享
- 支持理由:评论者建议上传代码以便社区进行测试,并提到exllamav2框架的内存效率。
- 反对声音:无明显反对声音,社区普遍期待更多参与和资源共享。
- 🚀 成本降低和API改进
- 支持理由:评论者期待稀疏dropout技术能带来更便宜和更好的Llama 405B API服务。
- 反对声音:无明显反对声音,普遍认为技术进步将带来成本降低。
- 🌟 TEAL集成的可能性
- 支持理由:作者对未来TEAL集成的可能性表示期待,这可能进一步提高准确性和速度。
- 反对声音:无明显反对声音,社区普遍对技术集成持积极态度。
金句与有趣评论
- “😂 So you’re just dropping gates below a certain threshold at inference time? Not profiling it on data or anything?”
- 亮点:提出了对实验方法的具体疑问,引发了对实验细节的讨论。
- “🤔 Actually, temperature works a little better when accuracy is increased!”
- 亮点:提供了关于温度参数调整的新见解,增加了讨论的深度。
- “👀 Oooh hopefully that means even cheaper and better Llama 405B API.”
- 亮点:表达了社区对技术进步带来成本降低和性能提升的期待。
情感分析
讨论的总体情感倾向积极,社区成员对稀疏dropout技术在Llama模型中的应用表示兴奋和期待。主要分歧点在于对GSM8k作为通用基准的看法,以及对温度参数调整效果的不同意见。这些分歧主要源于对实验细节和技术应用的不同理解。
趋势与预测
- 新兴话题:稀疏dropout技术在不同模型和数据集上的一致性表现,以及TEAL集成的可能性。
- 潜在影响:该技术可能带来模型性能的显著提升,降低成本,并促进社区更多参与和资源共享。
详细内容:
标题:Llama 405B 稀疏性带来的惊喜发现
在 Reddit 上,有一篇关于 Llama 405B 稀疏性实验的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。原帖作者表示,过去几周一直在进行有关稀疏 dropout 对 llama 的实验,并分享了令人兴奋的发现。
帖子中提到,作者要感谢一些相关工作,如TEAL,其有用于加速激活稀疏性的硬件实现。作者的工作与它的区别在于选择丢弃激活的方式,作者认为通过使用门激活进行丢弃,本质上是在去噪。
实验结果十分惊喜,在 Wikitext 文章上,随着 dropout 阈值的增加,困惑度降低,在总模型稀疏度约 50%时性能最佳。在 GSM8k 上,随着稀疏性增加,准确性也提高了,在峰值性能时,能达到与未量化的 405B 模型相同的性能。较小的模型(70b 和 8b)也有相同效果,这意味着 Llama-3.1-405B-FP16 有望提高准确性并可能使推理速度翻倍。
讨论焦点与观点分析: 有人询问是否只是在推理时丢弃低于特定阈值的门,而不是根据数据进行分析。作者回复表示确实如此,并以 GSM8k 作为下游测试基准,即使是多轮思维少样本的情况,仍有显著提升。有人猜测改变温度可能不会有预期的效果,但作者表示当准确性提高时,温度反而效果更好。还有人提到自己因推理速度从 Llama 70b 转向 Llama 8,想知道能否让 70b 更快,降低 VRAM 要求,得到了一些建议,如考虑 KTransformers 利用 MoE 和 CPU 卸载,或尝试其他量化方式。有人询问是否有 GitHub 仓库能查看代码或 HF 链接来试用“稀疏化”模型,作者提供了https://github.com/Codys12/vllm。有人好奇作者的模型加载设置以及选择特定量化的原因,作者表示没有额外训练。有人期待这意味着更便宜和更好的 Llama 405B API,还有人称赞作者工作出色,对其未来发展充满期待。
总的来说,这次关于 Llama 405B 稀疏性的讨论,不仅展示了技术上的创新和突破,也引发了大家对未来发展的热烈期待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!