我只是试图理解其中的技术限制，并且想知道这是否是一个被考虑过的问题。我认为上下文窗口应该只用于指令，同时保持无限记忆。这确实可以让大型语言模型进入创作一整个系列书籍的领域，并且有效地改变我们所认知的世界。

讨论总结

这是一个关于大型语言模型（LLMs）能否在对话过程中即时重新训练以获得无限记忆的讨论。评论者从多个角度进行了分析，包括技术限制（如计算资源、梯度下降等）、不同架构（如Transformer、SSM、Titans等）的特点、预训练和再训练的困难、记忆功能的实现以及相关技术（如RAG）的探讨，同时也涉及到这种设想可能带来的风险。

主要观点

👍 即时重新训练LLMs存在诸多问题，如成本高且效果不佳
- 支持理由：低质量“记忆”有损性能，训练成本高于生成答案成本，机构微调效果不好，还需要RAG技术
- 反对声音：无
🔥 原帖问题多面，存在其他连续学习和微调架构方法且部分有实用价值
- 正方观点：[Transformers 2.0 - Titans]等架构的存在
- 反方观点：无
💡 Transformer架构处理大上下文窗口效率低
- 解释：计算输入标记关系时操作数随标记数平方增长，训练和推理时显存需求大
💡 继续预训练是让LLM学习新知识较有效方式但存在问题
- 解释：新旧数据混合防止数据偏移、新热身阶段有训练损失峰值、可能产生灾难性遗忘等
💡 在模型内需要新模块实现记忆功能
- 解释：目前还需大量研究确定最佳方案，多种因素组合可能是近似人类记忆的答案

金句与有趣评论

“😂 如果“记忆”不是高质量的，它将损害LLM性能。”
- 亮点：直接指出即时重新训练可能存在的记忆质量问题
“🤔 看起来这个帖子里的所有人都错过了关于[Transformers 2.0 - Titans]的公告。”
- 亮点：引出被众人错过的重要信息
“👀 所以，简而言之，这个架构上下文窗口越大效率越低，无限的上下文窗口需要无限的计算资源来训练，以及无限的显存来使用。”
- 亮点：清晰阐述Transformer架构在上下文窗口方面的问题
“😂 无限记忆？你想给这些已经过于复杂的模型植入数字大脑吗？祝你好运能保持稳定性。”
- 亮点：幽默地表达对LLMs拥有无限记忆的质疑
“🤔 因为对于学习，你必须对模型权重进行反向传播，这涉及多次计算数万亿的矩阵运算，直到损失曲线达到最小值。”
- 亮点：详细解释学习过程中的运算困难

情感分析

总体情感倾向较为理性客观。主要分歧点在于是否认可LLMs能够在对话中即时重新训练以获得无限记忆。支持方可能更多从理论和未来发展潜力考虑，而反对方则基于目前的技术限制、成本、潜在风险等多方面因素。

趋势与预测

新兴话题：MemGPT宣称的无限语境功能及其实际效果可能会引发后续讨论。
潜在影响：如果LLMs在记忆功能上有所突破，可能会对自然语言处理领域产生重大影响，如提升对话质量、拓展应用场景等，但也可能带来如模型稳定性、伦理风险等新的挑战。

详细内容：

标题：关于 LLM 能否实时重训练以实现无限记忆的热门讨论

在 Reddit 上，一篇题为“为什么大型语言模型（LLMs）不能在对话过程中实时重训练以实现无限记忆？”的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论，引发了一场关于 LLM 技术限制和实现无限记忆可能性的热烈讨论。

讨论的焦点主要集中在以下几个方面：有人认为“记忆”质量不高会影响 LLM 性能，训练 LLM 成本高昂且效果不佳，还需要 RAG 技术。但也有人指出训练 LLM 并非那么昂贵，其成本可能只是正常推理的 2 - 3 倍。对于大型网络，有观点认为单次轻量传递足以记住整个序列，而大型变压器在记忆和不遗忘方面表现出色。但也有人质疑何时网络规模才算足够大。在实现无限记忆的方法上，有人提到使用 QLoRa 等技术优化存储空间，通过修改底层 QLoRa 适配器而非基础模型来降低计算强度。关于灾难性遗忘问题，有人认为这是小模型的问题，若能精心设计训练序列，在大型网络中可避免。但也有人认为即便使用 LoRA 技术，若训练不当仍可能出现灾难性遗忘，且新权重可能无法从初始随机值通过少量样本得到良好训练。还有人提到泰坦（Titans）架构，认为其能改善大上下文的效率和成本，引入了三种类型的内存，但无限记忆仍未实现。

有人分享道：“作为一名在相关领域工作的人员，我深知训练 LLM 的复杂性。就像我们之前尝试对一个 Mistral - Large 模型进行微调，用于编码任务，结果发现与原始模型相比，它在通用知识和编码方面的能力明显下降。”

也有人提供了相关的研究链接：https://arxiv.org/abs/2501.00663，进一步支持了某些观点。

讨论中的共识在于认识到实现 LLM 的无限记忆面临诸多技术挑战，包括成本、性能、灾难性遗忘等问题。但同时，不同观点之间的争论也非常激烈。

特别有见地的观点如有人提出应将输入数据重新构建为对话格式，以实现更好的记忆效果。这一观点为解决问题提供了新的思路。

这场讨论充分展示了 LLM 领域的复杂性和多样性，也反映出人们对于突破技术限制、实现更强大功能的渴望和探索。但目前来看，要实现 LLM 的无限记忆，仍有很长的路要走。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#