原贴链接

看起来可以将量化与Lora充分结合以实现全模型训练。这样做的好处是,可以在4090(显卡)上从头到尾完整地训练一个现代的7b规模的模型。同样的方法也适用于微调(保留所有内存优势)。相关论文链接:https://arxiv.org/pdf/2405.16528,Github/预发布代码:https://github.com/sebulo/LoQT

讨论总结

原帖分享了一篇看起来令人兴奋的论文,提到可将量化与LoRA结合用于全模型训练。评论主要围绕该论文展开,包括联想到其他类似项目未被整合、对特定硬件(如3090、4090)上模型训练的疑问和期望、不同技术(如与QLoRA)的对比、模型整合相关操作以及对论文成果既有肯定又指出潜在问题等内容,整体氛围比较积极,大家对论文内容充满探索欲。

主要观点

  1. 👍 原帖内容让人联想到flora项目
    • 支持理由:两者可能在功能或潜力方面有相似之处。
    • 反对声音:无。
  2. 🔥 flora未被整合到框架中有些可惜
    • 正方观点:flora看起来很棒,整合后可能有更多作用。
    • 反方观点:无。
  3. 💡 未来LLMs能够整合各种方法到一个项目
    • 随着LLMs发展,能力会不断增强,所以有整合的潜力。
  4. 💡 希望有人能进行特定模型在3090上的训练测试
    • 有助于了解该模型在这种硬件上的性能。
    • 反对声音:无。
  5. 💡 能否用4090训练不同7B专家并组合成MOE模型存疑
    • 目前没有明确的结论表明其可行性。
    • 反对声音:无。

金句与有趣评论

  1. “😂 Downtown - Case - 1755:Another incredible looking paper/repo that absolutely no one integrated into a framework :(”
    • 亮点:表达出对flora未被整合的惋惜之情,引起共鸣。
  2. “🤔 So. Somebody please run the training script for the 60M model on a 3090 and let us know how long it takes! :P”
    • 亮点:直白地提出对特定硬件上模型训练时长的好奇。
  3. “👀 Elite_Crew:Would it be possible to use a 4090 to train several different 7B experts and then stitch them together into an MOE model?”
    • 亮点:引出关于4090训练并整合专家模型的讨论。

情感分析

总体情感倾向是积极正面的。主要分歧点较少,大家更多是在对论文相关内容进行探讨和补充。可能的原因是原帖介绍的论文成果比较新颖有吸引力,大家都抱着积极探索的态度参与讨论。

趋势与预测

  • 新兴话题:将论文中的方法应用在4090上进行预训练可能会引发后续讨论。
  • 潜在影响:如果论文中的方法可行,可能会对模型训练领域产生积极影响,如提高训练效率、降低硬件要求等。

详细内容:

标题:关于新论文的热门讨论

最近,一篇题为“This paper seems very exciting”的帖子在 Reddit 上引起了广泛关注。该帖提供了论文链接 https://arxiv.org/pdf/2405.16528 以及 Github 代码(预发布)链接:https://github.com/sebulo/LoQT 。帖子指出,似乎有可能将量化与 Lor 相结合,从而能够在 4090 上对现代 7b 大小的模型进行完整训练,同样的方法也适用于微调,并保留所有的内存优势。此帖获得了众多点赞和大量评论,引发了一系列热烈的讨论。

讨论的焦点主要集中在以下几个方面:

有人指出,这让人想起了之前的 flora:https://github.com/BorealisAI/flora-opt,这是另一个看起来很棒但却无人将其整合进框架的成果。

有人认为,最终大型语言模型(LLMs)将会足够优秀,能够浏览论文并将各种方法整合到一个项目中。

有人好奇,是否可以用 3090 运行 60M 模型的训练脚本,并想知道所需时间。

有人提出疑问,是否能用 4090 训练几个不同的 7B 专家,然后将它们拼接成一个 MOE 模型,这种方式是否已经存在。

有人指出,MOE 专家需要一起训练,虽然可以这样做,但在每个批次中切换专家在内存方面的开销似乎很大。

有人提到 mergoo 项目:https://huggingface.co/blog/alirezamsh/mergoo,称其能够可靠且透明地整合多个专家的知识,支持多种整合技术,并且合并后的 LLM 可以在下游任务上进一步微调以提供可靠的专家。

有人认为这个项目很有前景,能够使用梯度累积步骤是不错的,但长上下文仍会是个问题,速度可能也会很慢,而这往往是论文中容易忽略的部分。

有人询问关于 spiked 向量从 lora 训练与 FFT 进入模型的相关论文。

还有人探讨了这个项目与 QLoRA 的不同之处,有人表示 QLoRA 仅用于微调,还有人解释 QLoRA 是权重的量化,在训练期间是恒定的,而此项目是梯度的量化,更重要的是权重量化的更新。

在这场讨论中,大家对于新技术的应用前景、潜在问题以及与现有技术的比较各抒己见。虽然存在诸多不同的观点和疑问,但也达成了一些共识,比如对于新技术在解决一些关键问题上的期待。而那些独特且有见地的观点,如关于长上下文和速度的担忧,丰富了整个讨论,让大家对这个话题有了更全面和深入的思考。