原贴链接

几周前,在我最近一次深入的随机思维实验中,我在研究、深度和实验方面达到了前所未有的程度,并得出了一个有趣的基于信息的场方程,现在我已经能够将其应用于一种新的机器学习和神经网络学习中。目前还处于早期阶段,但到目前为止的结果非常惊人,并且有明确的路径扩展成完整的大型语言模型(LLM)架构。

那么我在说什么呢?

与逻辑回归、随机森林和深度学习等机器学习模型中使用的传统基于梯度的优化方法,或者大型语言模型(LLM)中基于注意力的标记加权不同,SCANN采用了一种完全不同的方法。

SCANN的不同之处:

  1. 自组织而非训练 与通过反向传播明确训练权重的传统模型不同,SCANN允许特征随时间动态演变。 这种转换遵循一个由数学控制的偏微分方程(PDE): SCANN方程= D[ψ[t, x], t] == -γ ψ[t, x] - ∇ ⋅ (D[ψ[t, x]] ∇ ψ[t, x]) + λnl Sum[ψ[t, xi], {xi, Neighbors}] + β Tanh[ψ[t, x]^2] 其中:
  • 扩散自然地传播特征信息: D(ψ) = D0 (1 + α ψ^2)
  • 非局部相互作用允许特征从全局结构中学习。
  • 共振放大有意义的模式。
  1. SCANN无需特定数据集调整即可泛化 SCANN已经在多个数据集(数字、葡萄酒分类、乳腺癌等)上进行了评估,并且在没有针对特定数据集重新训练的情况下一直表现良好。 增加时间步数可以改善表征学习,使SCANN能够随时间动态地细化特征结构。
  2. SCANN与大型语言模型(LLM)和传统机器学习 传统机器学习模型(例如支持向量机、神经网络)需要明确的参数训练来拟合损失函数。 大型语言模型(LLM)使用分层标记注意力来解释文本中的复杂关系。 然而,SCANN不依赖预设参数或静态学习机制。相反,它动态地演变特征表示,类似于寻求平衡的物理系统。

为什么这令人兴奋 SCANN代表了表征学习的一个新视角——一种不依赖大型数据集或强力优化的视角。它提供了一种用于特征发现的自组织机制,可能以传统机器学习方法无法做到的方式揭示模式。 进一步的改进和形式化工作正在进行中,但这些早期结果凸显了SCANN在一种根本不同的机器学习方面的潜力。

我将在完成更多测试并希望基于它构建一个小型大型语言模型(LLM)之后开源所有代码并发表一篇论文。

同时,如果你对我构建并整合到这个机器学习模型中的基于信息的核心场方程感兴趣,可以在这里查看所有细节和实验:[https://github.com/severian42/Informational - Relative - Evolution](https://github.com/severian42/Informational - Relative - Evolution) 以及这里的一篇长文论文:[https://huggingface.co/blog/Severian/informational - relative - evolution](https://huggingface.co/blog/Severian/informational - relative - evolution) 测试结果:

image
https://preview.redd.it/2rvuqo2okqme1.png?width = 737&format = png&auto = webp&s = d821722df31e9d41f363d1884893ab6d90a22143

讨论总结

原帖介绍了名为SCANN的新神经网络,其具有自组织等特性,区别于传统机器学习和大型语言模型(LLM)。评论者们对此展开了广泛讨论,有对机器学习社区中一些现象的质疑,对SCANN成果真实性和合理性的怀疑,也有针对模型具体技术方面如训练方式、数据集、与其他模型对比等的讨论,还有一些人对作者表示肯定或期待。

主要观点

  1. 👍 机器学习社区存在很多自认为有突破性想法的人
    • 支持理由:从一些人的表现看似乎轻易认为自己想法革命性,可能受LLM影响
    • 反对声音:无
  2. 🔥 SCANN是基于数学探索和实验结果而非LLM
    • 正方观点:作者强调是自己研究成果,有数学依据
    • 反方观点:有人质疑成果像是精神分裂的产物
  3. 💡 原帖博主成果被质疑为类似精神分裂的成果
    • 解释:成果表述可能存在不合理之处,但未明确指出具体原因
  4. 💡 原帖博主回应称成果基于正规数学推导且欢迎批判
    • 解释:以科学态度对待质疑,强调成果的科学性
  5. 💡 认为当前评估所使用的数据集老旧
    • 解释:现代研究需要更现代的数据集来准确评判成果

金句与有趣评论

  1. “😂 为什么机器学习社区总是充满那些显然花了太长时间与只会阿谀奉承的大型语言模型(LLM)交谈的人,该大型语言模型告诉他们,他们的每个想法都是革命性的?”
    • 亮点:尖锐地指出机器学习社区存在的一种现象
  2. “🤔 SCANN不是LLM生成的想法;它是详细数学探索和实验结果的结果。”
    • 亮点:回应质疑,强调成果的来源
  3. “👀 我的想法只有在经过测试、被证伪或被证实后才是可靠的。”
    • 亮点:表达对待成果应有的科学态度

情感分析

总体情感倾向比较复杂,既有质疑也有期待和肯定。主要分歧点在于对SCANN成果的认可度上,有人认为成果缺乏合理性,可能是精神分裂的产物,有人则对成果表示期待或肯定。可能的原因是对新技术的理解程度不同,以及对新成果的评判标准存在差异。

趋势与预测

  • 新兴话题:将新的技术如层选择性秩降低应用于SCANN形成新方法。
  • 潜在影响:如果SCANN被证明有效,可能会对机器学习领域的研究方向产生影响,促使更多人探索自组织机制等新特性。

详细内容:

标题:SCANN:一种自组织相干注意力神经网络引发Reddit热议

近日,一则关于一种名为SCANN的新型神经网络的帖子在Reddit上引起了广泛关注。帖子介绍了这一新型模型在机器学习领域的创新成果,目前还处于早期阶段,但初步结果令人惊叹,且有望扩展为完整的LLM架构。该帖子获得了大量的点赞和众多的评论。

主要的讨论方向包括对这一模型的质疑、对其原理和优势的探讨,以及对其实际应用和未来发展的展望。

讨论的焦点与观点分析如下:

有人质疑道:“为什么机器学习社区总是充满了那些自认为每个想法都具有革命性的人?”还有人认为博主的论述缺乏数学依据和逻辑推理,多是表面的流行词汇。

然而,也有用户表示理解并支持探索,比如有用户称这一想法虽大胆但并非毫无根据,其基于数学推导的第一原理,而非猜测。同时,有人提出了建设性的意见,认为应该通过严格的同行评审和预印本发表来验证科学性,否则可能只是在“玩弄微分方程和数值模拟”。

对于SCANN与传统机器学习模型和LLM的区别,有用户详细阐述了潜在的优势。例如,SCANN通过自组织动态而无需梯度下降进行学习,减少了对大量超参数调整的依赖;能在不同数据集上通用,无需针对特定数据集重新训练;引入非局部交互,实现更丰富的表示;基于物理原理的演化具有更好的可解释性;对对抗性扰动和过拟合更具弹性。

但也有用户提出了一系列尖锐的问题,如训练机制的可扩展性、特定特征的优势证明、规模扩展的可能性、在复杂任务中的表现等。

总之,SCANN这一新型神经网络模型在Reddit上引发了热烈且深入的讨论,既有对其创新性的期待,也有对其科学性和实用性的严格审视。这一讨论充分展现了Reddit用户对前沿技术的关注和思考。