原贴链接

r/LocalLLaMA的朋友们!你们可能听说过伊利亚·苏茨克弗(Ilya Sutskever),他是来自OpenAI的著名计算机科学家,现在在SSI工作,他说我们正处于后预训练时代。我平常不发长文,但我想分享一下我对他演讲的看法!伊利亚暗示我们需要找到其他可扩展的东西——演讲中的脑体质量比图表明人类智慧的‘扩展’比哺乳动物更好。长短期记忆网络(LSTMs)被Transformer超越,目标是‘修正’扩展定律以提高效率。进化在某种程度上首先尝试为哺乳动物扩展智能,然后为非人类灵长类动物提高了智能边界。超过700克界限的大型大象最终灭绝了。然后原始人类出现并打破了这个界限,扩展得更好。卡普兰(Kaplan)等人的扩展定律表明,如果我们增加训练算力(参数数量乘以数据的标记数量),测试损失在对数 - 对数设置下也会降低。苏茨克弗提到,我们可以通过搜索或类似O1 / QwQ等方式扩展测试时间算力,而非训练算力。首先是关于数据扩展(D),存在一个理论上的‘数据墙’,即当世界上所有数据(互联网和其他所有数据)被大型模型消耗完的时候。一旦我们到达那个点,我们必须找到方法来克服这个障碍,以使模型继续扩展。这可能意味着像苏茨克弗提到的合成数据生成,也就是使用训练好的模型来扩充数据集。问题是这是否会达到平稳期或继续扩展。另一种方法是通过更好的过滤使数据扩展更有效,FineWeb数据集就是一个例子。我们还可以通过直接偏好优化(DPO)、近端策略优化(PPO)等进行更多的强化学习(RL)和后训练,以从相同数量的标记中榨取更多性能。其次是关于参数数量(N),诀窍是转向活动参数而非总参数。像OpenAI这样的大型实验室用混合专家(MoE)层替换了密集Transformer中的多层感知机(MLP)/前馈神经网络(FFN)。我们可以巧妙地只选择几列进行乘法运算,其余的设为0,这样就能将Transformer扩展到数万亿个参数,如在Switch Transformer中那样。巧合的是,Meta发布了多篇论文,包括关于字节潜在Transformer(Byte Latent Transformers)和记忆层(Memory Layers)的论文。字节潜在Transformer通过改变数据扩展中‘标记’的定义并增加更多非嵌入参数来修正扩展定律本身。字节潜在Transformer通过一个较小的编码器学习为某些补丁组分配更优化的标记/字节数量,从而去除字节对编码(BPE)标记化。然后我们在组合补丁上运行Transformer,并使用解码器进行预测。记忆层真的很让我感兴趣!它们本质上是稀疏查找表,最初在兰普尔(Lample)等人的论文中被设计为产品密钥层,我们用一个名为V(值)的大小为(100M,d)的巨大可学习矩阵替换前馈神经网络多层感知机,然后通过softmax加权求和仅选择V的前K行(比如4行)。为了找到前4行,我们需要另一个大小为(100M,d)的矩阵K(键)来通过简单的点积得到最高索引。这本质上把密集的多层感知机转换为加权稀疏查找表。问题是找到前K行需要100M次运算,因为我们需要做(K * q)来得到索引。访问V很容易,我们可以将V卸载到随机存取存储器(RAM)。兰普尔等人论文中的诀窍是使用快速近似最近邻算法来找到前k行,但这在训练期间很难区分,所以我们用另一个诀窍——将K(100M,d)拆分为两个矩阵KA和KB,大小均为(sqrt(100M),d/2),并使用笛卡尔积。笛卡尔积的大小为(100M,d),KA的每一行(1,d/2)对应整个KB矩阵(sqrt(100M),d/2),由于KA有sqrt(100M)行,所以笛卡尔积的总大小为sqrt(100M) * (sqrt(100M,d/2 + d/2) = (100M,d)。为了得到0到N - 1的索引,我们可以简单地观察找到(a² + b²)的最大点积,先找到(a²)的最大值,再找到(b²)的最大值,然后分别组合它们。所以索引就是sqrt(N) * topK_indices(KA * q)+ topK_indices(KB * q)。这非常酷,因为我们现在可以将这些稀疏查找表扩展到大规模,并且只使用一个小的(sqrt(100M),d)额外空间。那篇论文还添加了像门控线性单元(GLU)变体中的非线性,这被称为记忆 + 层,它比混合专家层扩展得更好。最后,伊利亚说我们需要找到其他可扩展的东西。这可能是:1. 通过搜索、代理、O1风格来扩展测试时间算力;2. 通过保持训练算力不变来改变架构,如混合专家层、记忆 + 层等;3. 改变扩展定律的尺度,如字节潜在Transformer那样;4. 通过合成数据生成、强化学习、直接偏好优化、近端策略优化、过滤等打破数据墙;5. 或者其他东西!我在这里观看了伊利亚的演讲:https://www.youtube.com/watch?v=1yvBqasHLZs

讨论总结

原帖对Ilya后预训练世界的演讲进行解读,包含模型缩放等多方面内容。评论者们反应多样,部分赞同原帖观点,有人认为原帖呈现得好且对未来有思考意义,也有人提出如多模态可突破现有模型训练数据利用局限,还有对原帖内容进行纠正、质疑,以及提出荒诞设想等,整体氛围积极且有深度交流。

主要观点

  1. 👍 原帖呈现得很好且对后预训练时代的观点值得赞同
    • 支持理由:原帖逻辑清晰地阐述了后预训练世界相关概念,对Ilya演讲理解到位。
    • 反对声音:无。
  2. 🔥 字节潜在变换器(BLT)具有变革性
    • 正方观点:BLT改变数据定义等方式使其本身有变革性。
    • 反方观点:无。
  3. 💡 目前模型训练对视觉、音频和视频数据利用不足
    • 解释:这些数据未被充分用于模型训练,多模态模型有助于改进。
  4. 🌟 对TTC(测试时间计算)抱有希望
    • 解释:因其能动态分配计算资源处理难题。
  5. 🤔 原帖内容无意义
    • 解释:原评论者觉得原帖内容没意义,认为是过度解读Ilya演讲。

金句与有趣评论

  1. “😂 Well presented! I fully agree. This is thinking through for the next few years.”
    • 亮点:简洁表达对原帖的赞赏和对原帖前瞻性的认可。
  2. “🤔 BLT单独就将具有变革性(无意双关)。”
    • 亮点:明确表达对BLT的看好态度。
  3. “👀 我认为书面世界本身具有局限性,因为还有大量视觉、音频和视频数据可用,但没有被充分用于训练模型。”
    • 亮点:指出模型训练数据来源的局限性。
  4. “😉 personally have some hopes for TTC (1) because there is some logic in dynamically allocating more compute for more difficult questions.”
    • 亮点:阐述对TTC抱有希望的原因。
  5. “🙄 You won’t like my comment, but this doesn’t make any sense to me.”
    • 亮点:直接表达对原帖内容的否定态度。

情感分析

总体情感倾向为积极,多数评论者对原帖持肯定态度,或在原帖基础上积极探讨相关话题。主要分歧点在于原帖内容是否有意义以及对一些概念(如BLT的作用、TTC的前景等)的看法不同。可能原因是不同评论者的知识背景、对相关领域的理解程度以及看待问题的角度不同。

趋势与预测

  • 新兴话题:多模态模型、生物计算机等话题可能引发后续讨论。
  • 潜在影响:对机器学习、人工智能领域的研究方向可能产生影响,如促使更多研究关注数据利用方式的改进、模型架构的创新等。

详细内容:

《关于“后预训练时代”的热门讨论》

在 Reddit 的 r/LocalLLaMA 板块,有一篇关于伊利亚·苏茨克维(Ilya Sutskever)演讲“后预训练世界”的热门帖子引起了广泛关注。该帖子详细阐述了伊利亚的观点,即我们需要寻找新的方法来扩展模型,并且获得了众多的点赞和大量的评论。

帖子主要探讨了在模型训练中需要突破的几个方向,如通过改变测试时间的计算方式、调整模型架构、改进数据规模的扩展方式等。讨论中提到了诸如 LSTMs 被 transformers 超越,以及存在数据墙等问题。

讨论焦点集中在以下几个方面: 有人认为 BLT 可能会带来变革,但要注意可能出现的过拟合问题;有人提出应更多地利用多模态数据,尤其是未被充分利用的视觉、音频和视频数据;也有人认为测试时间的计算是一个有前景的扩展方向。

比如,有用户分享道:“BLT 单独来看将会是具有变革性的(并非有意双关)。” 但也有人担忧:“这在理论上听起来很棒,但如果操作不当,可能会导致严重的过拟合。”

还有用户提到:“我认为书面世界有其局限性,当有如此多的视觉、音频和视频数据可用时,它们未被充分用于训练模型。追求更基础的多模态模型可能有助于利用这些数据。”

而关于数据墙的问题,有人认为在触及数据墙之前还有很长的路要走,因为其他模态的信息尚未得到充分利用。

总之,这次关于“后预训练时代”的讨论充满了各种有价值的观点和深入的思考,为未来模型的发展方向提供了丰富的思路。