原贴链接

https://arxiv.org/abs/2409.03137

讨论总结

本次讨论主要围绕AdEMAMix优化器展开,该优化器是对AdamW的简单修改,声称在大型语言模型(LLM)训练中速度提高了95%。讨论内容涵盖了优化器的性能、内存需求、代码实现问题以及与其他优化器的比较。主要观点包括AdEMAMix并非比AdamW快95%,而是AdamW需要更多的训练令牌才能达到相同损失;AdEMAMix需要为每个模型参数存储一个额外的值,增加了内存需求;对于大型公司,训练时间比内存使用更重要;可能可以通过结合其他方法(如LoRA微调)来减少内存使用。讨论中还涉及了代码实现问题,如未定义函数和返回不存在的变量,以及学术界数据科学代码的普遍问题。总体情感倾向较为批判,尤其是对标题的“点击诱饵”性质表示不满。

主要观点

  1. 👍 AdEMAMix并非比AdamW快95%,而是AdamW需要更多的训练令牌才能达到相同损失。
    • 支持理由:评论者指出,虽然标题声称速度提升95%,但实际上是AdamW需要更多的训练令牌。
    • 反对声音:无明显反对声音,但有评论者对标题的表述方式表示不满。
  2. 🔥 AdEMAMix需要为每个模型参数存储一个额外的值,增加了内存需求。
    • 正方观点:评论者认为这对于大型公司来说可能不是问题,因为训练时间比内存使用更重要。
    • 反方观点:有评论者认为这会增加内存需求,可能影响其他应用。
  3. 💡 对于大型公司,训练时间比内存使用更重要。
    • 解释:评论者认为,对于资源丰富的大型公司,训练时间的节省比内存使用的增加更有价值。
  4. 💡 可能可以通过结合其他方法(如LoRA微调)来减少内存使用。
    • 解释:有评论者提出,结合其他方法可以减少AdEMAMix的内存需求。
  5. 💡 学术界数据科学代码普遍存在无法运行或实现其声称功能的问题。
    • 解释:评论者指出,学术界的数据科学代码往往存在实现问题,AdEMAMix的代码也存在类似问题。

金句与有趣评论

  1. “😂 他们声称AdamW需要95%更多的训练令牌才能达到相同的损失。
    • 亮点:直接指出了标题中的误导性信息。
  2. “🤔 An additional value for each param is huge lol.
    • 亮点:幽默地指出了AdEMAMix增加的内存需求。
  3. “👀 重点是几乎2倍快的收敛速度,但内存增加适中。
    • 亮点:总结了AdEMAMix的主要优势和劣势。
  4. “😂 This code cannot work, two undefined function and returning a non existing variable.
    • 亮点:直接指出了代码实现中的问题。
  5. “🤔 That’s why it’s so fast. It exits immediately!
    • 亮点:幽默地讽刺了代码无法运行的现象。

情感分析

讨论的总体情感倾向较为批判,尤其是对标题的“点击诱饵”性质表示不满。主要分歧点在于AdEMAMix的实际性能和内存需求,以及代码实现的可行性。可能的原因包括学术界数据科学代码的普遍问题,以及对标题表述方式的不满。

趋势与预测

  • 新兴话题:AdEMAMix的实际性能和内存需求,以及与其他优化器的比较。
  • 潜在影响:对优化器设计和学术代码质量的讨论可能会引发后续的深入研究和技术改进。

详细内容:

标题:AdEMAMix 优化器在 LLM 训练中的表现引发 Reddit 热议

在 Reddit 上,一则关于 AdEMAMix 优化器的帖子引起了广泛关注。该帖指出,AdEMAMix 是对 AdamW 优化器的简单修改,声称其在 LLM 训练方面具有显著优势。原帖提供了相关的链接 https://arxiv.org/abs/2409.03137 ,获得了众多用户的参与和讨论,点赞数和评论数众多。

帖子引发的主要讨论方向集中在 AdEMAMix 优化器的性能、内存使用以及实际效果等方面。核心问题在于它是否真的如所说的那样能大幅提升训练效率,以及增加的内存使用是否值得。

在讨论中,有人指出他们并非声称优化器本身快 95%,而是说 AdamW 达到相同损失所需的训练令牌比他们提出的优化器多 95%。还有人认为对于大公司,训练时间比 VRAM 使用量更重要。

有人提到或许可以制作一个 bnb 8 位版本,或者将这种新方法与 adam-mini 结合以接近原始 adam 的内存使用。也有人认为在 LoRA 微调中,优化器状态不占用太多内存,所以新的优化器可能对此有益。

然而,也有不同的声音。有人认为新算法的性能远不如 GrokFast,且 GrokFast 不会大幅增加内存使用。还有人指出相关代码存在问题,如无法运行、缺少定义的函数、返回不存在的变量等。有人尝试后表示在 YoloV8 上效果不佳,训练中的损失有所不同,但最终的召回率和精度基本相同。

总体而言,对于 AdEMAMix 优化器,讨论中存在着不同的观点和争议。有人对其充满期待,认为是算法的突破;但也有人经过测试后认为其效果不足以弥补增加的内存,更倾向于其他优化器。