原贴链接

可参考[https://github.com/wbrickner/noise_step]、[https://x.com/_brickner/status/1871348156786704657]、[https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10 - JV7zyg?usp = sharing#scrollTo = JXCvlm8Rol8C]。这可能是件大事，但不确定能否用于完整的Transformer训练。

讨论总结

这是一个关于noise_step的帖子引发的讨论，该技术声称可在1.58b下训练且无梯度内存。评论者们大多对这一技术持怀疑态度，质疑的点包括175B模型存储在20mb的可行性、权重恢复的说法、无性能损失的论断，还有以MNIST数据集作为例子缺乏说服力、之前类似方法存在问题、自己测试结果差等，总体氛围充满质疑。

主要观点

👍 质疑175B模型存储在20mb的可行性
- 支持理由：即使按1bit每参数算，1750亿参数至少需21GB存储。
- 反对声音：无。
🔥 对项目以MNIST为例缺乏说服力表示质疑
- 正方观点：MNIST过于简单，很多方法都能在其上有效，不能证明项目的有效性。
- 反方观点：无。
💡 认为类似的方法之前存在，但存在问题
- 解释：之前有类似方法使用随机向量，但该向量携带信息少于反向传播计算的梯度信息，在大型模型上更难收敛。
💡 自己测试结果差，对项目效果表示怀疑
- 解释：评论者亲自测试得到糟糕结果，量化到4位已很困难，难以想象2位或1位的情况。
💡 不同寻常的声称需要不同寻常的证据，目前证据不足
- 解释：项目声称很了不起，但仅以MNIST为例无法满足要求，需要更强有力的证据。

金句与有趣评论

“😂 Err, what? Even at 1bit per parameter, 175 billion parameters would require at least 21GB of storage.”
- 亮点：直接指出项目中关于存储容量说法的不合理性。
“🤔 Using MNIST as the sole example speaks volumes; MNIST is so easy that anything that could possibly work will work.”
- 亮点：点明MNIST数据集作为示例缺乏说服力的原因。
“👀 I literally vomit hearing it…”
- 亮点：用比较夸张的说法表达对相关内容（推测为Bitnet）的厌恶。
“💥 I couldn’t even get it to over 90% on MNIST.”
- 亮点：以自己的测试结果来质疑项目的有效性。
“😉 Extraordinary claims need extraordinary evidence.”
- 亮点：提出对于特殊声称需要特殊证据的观点。

情感分析

总体情感倾向为负面，主要分歧点在于项目的可行性和有效性。可能的原因是项目所提供的证据不充分，例如仅以简单的MNIST数据集为例，以及一些与常识或已有经验相违背的说法，如175B模型存储在20mb等。

趋势与预测

新兴话题：可能会引发关于如何获取更有力证据来证明此类项目可行性的讨论。
潜在影响：如果这种质疑被更多人认可，可能会促使相关研究人员重新审视项目，或者在进行类似研究时更加严谨地对待数据和论证过程。

详细内容：

标题：关于“New paper noise_step”的热门讨论

最近，Reddit 上一篇关于“New paper noise_step: TRAINING IN 1.58B WITH NO GRADIENT MEMORY”的帖子引起了广泛关注。该帖子包含了多个相关链接，如https://github.com/wbrickner/noise_step、https://x.com/_brickner/status/1871348156786704657、https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing#scrollTo=JXCvlm8Rol8C。此话题引发了众多讨论，有人认为这可能是一个重大突破，但也有人对此表示怀疑。

讨论焦点与观点分析：有人指出它能在 1.58B 中进行训练，可节省 97%的能量和 90%的权重内存，还能带来新的模型格式，能将 175B 模型存储在约 20MB 中，并且无需反向传播。但也有人质疑，就算每个参数 1 比特，1750 亿个参数至少也需要 21GB 的存储空间。有人认为该论文声称权重可从随机种子和每批样本中恢复，但这意味着要有批处理中的数据，就像说“LLAMA3-70B 模型可以存储在指定其参数数量所需的几千字节中，而将恢复实际模型权重所需的数太字节训练数据定义为不属于模型的一部分”。还有人提到，论文称在 1.58 比特下进行推理可以没有任何性能损失，但最近有研究表明，实际上存在巨大性能损失，且模型训练的令牌越多，损失越严重。有人解释说这只是“在途”或“存档”的大小，模型从“种子”和一堆“步骤”开始，会得到一个约 20MB 的“配方”，需要本地计算以获得权重。但对于合理的 LLM 大小和步骤，这可能根本不可行。有人分享个人经历，比如[aurelivm]表示在 MNIST 上甚至无法达到 90%以上的准确率。[MarceloTT]称已经测试过，结果非常糟糕。而[PmMeForPCBuilds]则认为由于缺乏验证，这种方法高度可疑，仅用 MNIST 作为例子说明不了问题，逻辑回归能达到 92%的准确率，跟所声称的方法差不多。有人提出有趣的观点，如[eaglgenes101]希望看到线性回归模型来尝试。[satireplusplus]认为非凡的主张需要非凡的证据，MNIST 不足以说明问题。[Stepfunction]指出以前就有类似的方法，但存在向量携带信息少于反向传播计算梯度的问题，在大型模型上收敛更难。

总之，关于“New paper noise_step”的讨论充满了争议和不同的观点，有人期待其带来突破，有人则对其效果和可行性持怀疑态度。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#