原贴链接

在过去几周里，我一直在使用稀疏 dropout 对 llama 进行实验，并且有一些发现让我非常兴奋想要分享。

首先，我想感谢昨天我了解到的一些相关工作：TEAL，它看起来有加速激活稀疏性的硬件实现！事实上，我的工作与它的唯一区别在于我选择哪些激活进行丢弃的方式。据我了解，这项工作对中间激活进行阈值丢弃，而我直接从门激活中进行丢弃。我的直觉是，通过使用门激活，你实际上是在丢弃 llama 不想要的数据，本质上是在去噪。

现在谈谈结果！第一个令人惊讶的发现是，随着 dropout 阈值的增加，Wikitext 文章的困惑度下降，并且在总模型稀疏度约为 50% 时性能最佳！我最初测试时使用的是百分比 dropout，但发现中间层可以更加稀疏，因此采用了阈值方法。 Wikitext 图表

第二个令人惊讶的发现是在 GSM8k 上。我使用 lm-eval 复制了 vLLMs 在 Llama-3.1-405B-FP8 上的发现，得到了 0.9591 的分数。同样，随着稀疏度的增加，准确性也随之提高。在峰值性能时，我得到了与未量化 405B 模型相同的性能。令人惊讶的是，这与 Wikitext 最佳性能的阈值值相同，显示出一些一致性。 GSM8k 数据

非常令人兴奋的是，较小的模型（70b 和 8b）也显示了相同的效果，这意味着你可以期待 Llama-3.1-405B-FP16 的准确性有所提高，同时可能使推理速度翻倍。我已经联系了 Cerebras 试图获得一些托管，并联系了聊天机器人竞技场试图获得一些基准测试，但都没有得到回复。

展望未来，我希望将 TEAL 内核集成到 vLLM 中，为社区提供准确性和速度的提升，并可调节阈值以平衡速度和准确性。如果你对此感兴趣，请与我联系！

tl;dr: 从 Llama 的 SwiGLU 门中丢弃值可以提高准确性和速度。

讨论总结

本次讨论主要聚焦于作者对Llama模型中稀疏dropout技术的实验结果，展示了该技术如何提高模型的准确性和推理速度。评论者们对这一发现表示了浓厚的兴趣，并提出了关于温度参数调整、模型优化、以及社区参与的建议和疑问。整体氛围积极，社区成员期待这一技术能带来更高效、更经济的模型应用。

主要观点

👍 稀疏dropout技术提高模型性能
- 支持理由：实验结果显示，随着稀疏度的增加，模型在Wikitext和GSM8k数据集上的表现都有所提升。
- 反对声音：部分评论者对GSM8k作为通用基准表示复杂感受，认为需要更多验证。
🔥 温度参数在提高准确性后效果更好
- 正方观点：codys12认为温度参数在提高准确性后效果更好。
- 反方观点：CockBrother质疑调整温度参数的效果。
💡 社区参与和代码共享
- 支持理由：评论者建议上传代码以便社区进行测试，并提到exllamav2框架的内存效率。
- 反对声音：无明显反对声音，社区普遍期待更多参与和资源共享。
🚀 成本降低和API改进
- 支持理由：评论者期待稀疏dropout技术能带来更便宜和更好的Llama 405B API服务。
- 反对声音：无明显反对声音，普遍认为技术进步将带来成本降低。
🌟 TEAL集成的可能性
- 支持理由：作者对未来TEAL集成的可能性表示期待，这可能进一步提高准确性和速度。
- 反对声音：无明显反对声音，社区普遍对技术集成持积极态度。

金句与有趣评论

“😂 So you’re just dropping gates below a certain threshold at inference time? Not profiling it on data or anything?”
- 亮点：提出了对实验方法的具体疑问，引发了对实验细节的讨论。
“🤔 Actually, temperature works a little better when accuracy is increased!”
- 亮点：提供了关于温度参数调整的新见解，增加了讨论的深度。
“👀 Oooh hopefully that means even cheaper and better Llama 405B API.”
- 亮点：表达了社区对技术进步带来成本降低和性能提升的期待。

情感分析

讨论的总体情感倾向积极，社区成员对稀疏dropout技术在Llama模型中的应用表示兴奋和期待。主要分歧点在于对GSM8k作为通用基准的看法，以及对温度参数调整效果的不同意见。这些分歧主要源于对实验细节和技术应用的不同理解。

趋势与预测

新兴话题：稀疏dropout技术在不同模型和数据集上的一致性表现，以及TEAL集成的可能性。
潜在影响：该技术可能带来模型性能的显著提升，降低成本，并促进社区更多参与和资源共享。

详细内容：

标题：Llama 405B 稀疏性带来的惊喜发现

在 Reddit 上，有一篇关于 Llama 405B 稀疏性实验的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。原帖作者表示，过去几周一直在进行有关稀疏 dropout 对 llama 的实验，并分享了令人兴奋的发现。

帖子中提到，作者要感谢一些相关工作，如TEAL，其有用于加速激活稀疏性的硬件实现。作者的工作与它的区别在于选择丢弃激活的方式，作者认为通过使用门激活进行丢弃，本质上是在去噪。

实验结果十分惊喜，在 Wikitext 文章上，随着 dropout 阈值的增加，困惑度降低，在总模型稀疏度约 50%时性能最佳。在 GSM8k 上，随着稀疏性增加，准确性也提高了，在峰值性能时，能达到与未量化的 405B 模型相同的性能。较小的模型（70b 和 8b）也有相同效果，这意味着 Llama-3.1-405B-FP16 有望提高准确性并可能使推理速度翻倍。

讨论焦点与观点分析：有人询问是否只是在推理时丢弃低于特定阈值的门，而不是根据数据进行分析。作者回复表示确实如此，并以 GSM8k 作为下游测试基准，即使是多轮思维少样本的情况，仍有显著提升。有人猜测改变温度可能不会有预期的效果，但作者表示当准确性提高时，温度反而效果更好。还有人提到自己因推理速度从 Llama 70b 转向 Llama 8，想知道能否让 70b 更快，降低 VRAM 要求，得到了一些建议，如考虑 KTransformers 利用 MoE 和 CPU 卸载，或尝试其他量化方式。有人询问是否有 GitHub 仓库能查看代码或 HF 链接来试用“稀疏化”模型，作者提供了https://github.com/Codys12/vllm。有人好奇作者的模型加载设置以及选择特定量化的原因，作者表示没有额外训练。有人期待这意味着更便宜和更好的 Llama 405B API，还有人称赞作者工作出色，对其未来发展充满期待。

总的来说，这次关于 Llama 405B 稀疏性的讨论，不仅展示了技术上的创新和突破，也引发了大家对未来发展的热烈期待。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#