原贴链接

大语言模型(LLMs)不仅在变得更大,还在变得更密集,这意味着每个参数的效率更高。减半原则指出,每3.3个月,具有X个参数的模型在性能上将会被具有X/2个参数的更小模型所匹配。论文链接:https://arxiv.org/pdf/2412.04315。我们确定o1和o3是基于OpenAI已经预训练的4o模型。其增强的推理能力主要是通过强化学习(RL)扩展测试时计算来实现的。假设GPT - 4o是200B参数并且于2024年5月发布,如果密集化规律成立,经过16.5个月的减半后,我们将拥有一个具有相似能力的8B参数模型。这也意味着我们能够仅在笔记本电脑上运行这些具有相似推理性能的小模型。但有一个警告!Deepmind的这篇论文(https://arxiv.org/pdf/2408.03314)虽然指出专注于扩展测试时计算在优化上比扩展模型参数更好,但也表明这些方法仅适用于预训练计算比推理略高的模型,并且除了简单推理问题外,预训练数据较小的模型在思维链(CoT)提示上的收益递减。最终,仍然存在一些未经尝试的技术,他们可以仅通过扩展测试时计算而非预训练来应用这些技术。我仍然觉得看到开源项目迎头赶上是很迷人的,像Ilya这样的行业领导者已经暗示预训练时代已经结束,但Qwen的Binyuan Hui(https://x.com/huybery/status/1868204833515401676)仍然相信有方法挖掘未训练数据来改进他们的大语言模型。

讨论总结

原帖基于LLMs的密集定律预测未来模型发展,评论者们围绕这个主题从多个角度展开讨论。涉及到模型的性能对比,如70b模型与gpt 4o在文本性能上的竞争;开源模型的多模态能力不足;预训练时代是否结束;模型训练中的收益递减现象;对原帖中预测行为的质疑等方面,整体讨论氛围积极,大家各抒己见,展现出对LLMs发展的高度关注。

主要观点

  1. 👍 70b模型在文本性能上可与gpt 4o竞争
    • 支持理由:评论者的经验与测试表明其在文本性能上表现不错
    • 反对声音:无
  2. 🔥 预训练时代尚未结束
    • 正方观点:LLMs仍有提升训练效率空间,数据可能未耗尽,可以更好利用权重
    • 反方观点:部分人认为预训练时代已结束,如Ilya的观点
  3. 💡 模型训练存在收益递减
    • 解释:接近最大训练程度时模型改进速度减慢,小模型上更明显,且接近饱和时需使用fp16,4位量化会损失性能
  4. 💥 对原帖中2025年10月的预测表示怀疑
    • 解释:在LLM领域提前10个月预测不现实,预测可能是无依据猜测
  5. 🤔 “密集定律”为经验定律而非物理定律
    • 解释:只是基于已测试模型的观察结果,并非必然产生特定结果的定律

金句与有趣评论

  1. “😂 Ath47: Imagine trying to predict anything in the LLM realm from 10 months away.”
    • 亮点:以一种幽默的方式表达出在LLM领域提前预测的困难
  2. “🤔 我不认为预训练时代已经结束。”
    • 亮点:直接表明观点,在有不同观点的情况下,提出反对声音
  3. “👀 也许不存在真正的“模型饱和”点,但随着接近其最大训练程度,模型改进会减慢,而且在较小模型上可以更快地看到这种情况。”
    • 亮点:对模型饱和这一概念提出自己的思考,有一定深度
  4. “😎 对于特定领域有许多可应用于8B参数模型的技术。”
    • 亮点:从特定领域角度看待8B参数模型的应用价值
  5. “🤨 首先,这是一个“经验定律”,这仅仅意味着这是他们到目前为止在测试的模型中所观察到的,而不是必然会产生这些结果的物理定律。”
    • 亮点:准确指出“密集定律”的本质

情感分析

总体情感倾向是积极的,大多数评论者对LLMs的发展充满期待并积极参与讨论。主要分歧点在于原帖的预测是否合理,以及预训练时代是否结束等方面。可能的原因是大家对LLMs的研究和发展有不同的理解和判断,也反映出该领域的复杂性和不确定性。

趋势与预测

  • 新兴话题:智能体产生数据的循环过程以及起步发展可能会成为后续讨论的点,还有对未来更小参数模型在手机等设备上运行的期待。
  • 潜在影响:如果LLMs按照预测发展,将对人工智能相关领域如自然语言处理、软件开发等产生重大影响,可能改变开发模式和硬件需求等。

详细内容:

标题:Reddit 热议 LLM 发展趋势与参数模型预测

在 Reddit 上,一篇关于大型语言模型(LLM)发展的帖子引起了广泛关注。该帖子指出,LLM 不仅在规模上不断扩大,而且在密度上也有所提升,即每个参数的效率在提高。帖子中提到,根据所谓的“减半原则”,每过 3.3 个月,X 参数的模型在性能上会被参数为 X/2 的更小模型匹配。假设 GPT 4o 于 2024 年 5 月发布,参数为 200B,按照这个原则,到 2025 年 10 月,可能会出现性能相当但参数仅为 8B 的模型。此帖获得了大量的点赞和众多评论。

讨论的焦点主要集中在以下几个方面: 有人认为,尽管对于文本性能来说,新的 70B 模型可能与 GPT 4o 有一拼,但开源在多模态方面仍有欠缺。 有人质疑模型的通用性和简洁写作能力,比如在写关于机器学习快速发展等文章时的表现。 有观点认为预训练的时代尚未结束,LLM 仍有更高效训练的空间。 也有人指出大部分聊天日志中的数据对预训练用处不大,而高质量的多样化文本才是关键。 还有人对模型参数的估计和未来发展趋势提出了各种看法。

例如,有人表示:“我不认为预训练的时代已经结束。我们可能还没有用尽数据(虽然我怀疑这种说法),但 LLM 仍有比目前更高效训练的余地,能更好地利用其权重。”

同时,有人认为:“99%的聊天日志中的令牌对预训练没有用处。这对于微调、指令调整等是完美的,但对于预训练,您不需要 384749 个拼写草莓的实例,您需要各种主题的高质量、风格多样的精心编写的文本。”

然而,也存在不同声音。有人说:“对于特定领域,有许多技术可以应用于 8B 参数模型。但对我来说,如果没有 TTC,我们在这些模型上能做的事情已经接近极限了。我相信到 2026 年,我们将耗尽 32B 模型的语义空间。”

总的来说,关于 LLM 的未来发展和模型参数的变化,Reddit 上的讨论充满了各种观点和争议,充分展示了大家对这一领域的关注和思考。