原贴链接

论文编号[2105.03824],FNet:用傅里叶变换混合标记。这篇论文是2022年的,早于大型语言模型在公众想象中爆发之前。如果有人能够复制这个成果,也许通过训练一个更小的模型,删减一些层然后拼接到一个更大的模型(或者其他方法,我在这里只是推测),那么也许我们能得到一些大幅的速度提升。根据这篇(谷歌的)论文,它有望实现90%的速度提升和内存减少。@danielhanchen你看到这个了吗?

讨论总结

原帖提出一篇2022年的论文可能是谷歌未意识到的突破,若能复现或改造模型可能会有很大的速度提升。评论者们从多个角度展开讨论,包括分享相关链接、成果介绍、探讨模型架构、实验尝试、代码分享、对模型的疑惑与怀疑等内容,总体氛围积极且具有探索性。

主要观点

  1. 👍 原帖认为论文可能是突破,若改造模型可获大的速度提升
    • 支持理由:论文提到有90%的速度提升和内存减少,可能有潜在价值
    • 反对声音:无
  2. 🔥 phovos认为反向传播是旧概念,应关注综合解决方案,AGI重点在架构而非制造更智能机器人
    • 正方观点:现有机器人已足够智能,AGI更多取决于组织和架构
    • 反方观点:无
  3. 💡 kgrammont提供相关链接补充原帖话题
    • 支持理由:拓展原帖话题相关资源
    • 反对声音:无
  4. 💡 Ok - Possibility - 5586探讨链接成果用途并阐述理想测试方式
    • 支持理由:为深入研究成果提供思路
    • 反对声音:无
  5. 💡 DangKilla介绍M2 - BERT相关模型成果
    • 支持理由:为讨论提供更多模型成果信息
    • 反对声音:无

金句与有趣评论

  1. “😂 kgrammont: Looks like someone got mixer - pilled. Let me skip you ahead a little: [https://hazyresearch.stanford.edu/blog/2024 - 05 - 20 - m2 - bert - retrieval]”
    • 亮点:以一种幽默的方式分享链接
  2. “🤔 Ok - Possibility - 5586: OK so that’s cool, looks like the m2 - bert has much greater accuracy on the loco benchmark than other berts.”
    • 亮点:对链接成果进行初步评价
  3. “👀 DangKilla: I can’t speak for him, but from what I understand M2 - BERT shows concrete results on long documents, achieving a 95.2 LoCo score on the LoCoV1 benchmark, whereas Fnet is an improvement on the BERT methodology of the time.”
    • 亮点:详细对比M2 - BERT和Fnet相关成果
  4. “😎 phovos: 我同意, 反向传播“元”是旧概念, 这一切都是关于集成解决方案。”
    • 亮点:提出新的看待问题的视角
  5. “💡 Imaginary - Bit - 3656: You assumed the research paper you mentioned was forgotten or ignored or something. It wasn’t, they are telling you as much by showing you work that decended from it that is more recent.”
    • 亮点:纠正他人可能存在的误解

情感分析

总体情感倾向为积极正面,大家主要是围绕论文和模型展开建设性的讨论,分歧点较少。可能的原因是原帖提出一个具有吸引力的话题,大家更多地是在这个话题基础上进行知识和观点的分享交流。

趋势与预测

  • 新兴话题:FNet - Transformer混合模型的尝试以及FNet是否能减少幻觉等相关话题可能会引发后续讨论。
  • 潜在影响:如果这些关于模型的讨论能取得成果,可能会对人工智能领域的模型优化、效率提升等方面产生积极影响。

详细内容:

标题:Reddit 上关于 FNet 技术的热烈讨论

最近,Reddit 上一篇题为“This paper might be a breakthrough Google doesn’t know they have”的帖子引发了众多关注。该帖子主要探讨了一篇关于 FNet(Fourier Transforms 混合令牌)的论文2105.03824 ,指出若有人能对其进行复制,或许通过训练较小模型、删减层并拼接到更大模型中,能带来显著的速度提升和内存减少,据论文所述,速度能提升 90%。此贴获得了大量的点赞和评论,引发了一系列关于 FNet 与其他模型对比、应用可能性以及潜在优势的热烈讨论。

讨论焦点与观点分析:

有人认为 M2-BERT 在长文档处理上表现出色,在 LoCo 基准测试中取得了 95.2 的高分,而 Fnet 是对当时 BERT 方法的改进。有人提到将 FNet 应用于小型 GPT 类型模型进行实验可能很有价值,比如在一个小型的 llama 模型或 phi 模型上进行重新架构或合并,以创建 fnet-llama 或 fnet-phi,并与原始模型进行对比,观察是否幻觉更少。

有用户分享道:“我实际上正在创建自己的本地使用框架,并且一直在调整、重新混合和试验基础架构。我确实包括了 BERT 嵌入模型的一个[轻量级变体](https://github.com/teleprint - me/mini/blob/main/mini/modules/encoding.py#L65)作为选项。”

有人指出 FFT 作为分类器对物品频率的作用并不令人惊讶,也有人认为 FNet 收敛速度极慢,大于 70B 的模型可能难以用它训练,不适合作为行业标准。

还有用户提出,FNet 虽速度快但不完整,尝试 FNet - Transformer 混合模型或许能在降低计算成本的同时保持性能,还可能减少幻觉,这对 AI 可靠性意义重大。

关于能否用其他线性信号处理函数替代傅里叶变换,有人认为任何学习到的线性信号处理函数理论上可行,但随机的可能效果不佳,关键在于结构化混合,比如 DFT 能均匀传播信息,而随机矩阵可能会打乱有用模式。

讨论中的共识在于 FNet 具有一定的创新性和潜在价值,但在应用和优化上还存在诸多问题和可能性需要探索。

总的来说,Reddit 上关于 FNet 的讨论展现了技术探索的多样性和复杂性,为相关领域的研究和实践提供了丰富的思路和方向。