原贴链接

为了不惜一切代价避免订阅,我决定尝试API途径。花了一周时间尝试不同的前端,最后选定了很棒的OpenWebUI。以Claude sonnet为基础模型创建了一个用于头脑风暴的自定义模型,在知识库中放入一些文件,并添加了相关的系统提示。然后我意识到,每次开始新的对话对这个模型来说都是全新的。ChatGPT和Claude(在项目背景下)会自动从与用户的对话中学习。除非我遗漏了某些东西,否则要复制这种功能,就必须通过添加对话日志来不断手动更新模型的知识。知道自己创建的模型非常静态,感觉有点失望。现在很不幸,我正在考虑保留ChatGPT的订阅,并且也订阅Claude专业版。真倒霉。

讨论总结

原帖主为避免订阅费用而尝试API创建自定义模型,但发现新对话缺乏像ChatGPT和Claude那样的记忆和自动学习能力,感到失望甚至想重新订阅。评论者们针对这一情况展开讨论,主要聚焦在模型的记忆功能上,涉及到对不同模型记忆功能的质疑、对比,还提出了各种各样的解决办法,如将提示和响应附加到txt文件、运行程序将对话分块输入向量数据库等,同时也有一些针对特定模型或工具的推荐。

主要观点

  1. 👍 自建模型缺乏长期记忆和自动学习能力
    • 支持理由:原帖主在尝试多种前端创建自定义模型后,发现新对话都是全新的,不像ChatGPT和Claude能从之前对话学习。
    • 反对声音:无。
  2. 🔥 可通过多种方式解决模型无记忆问题
    • 正方观点:如将提示和响应附加到txt文件、运行程序将对话分块输入向量数据库、查看ChatGPT记忆添加到自制模型系统提示中等多种方式被提出。
    • 反方观点:有部分方式被质疑可能会增加API成本或者操作复杂。
  3. 💡 不同模型的记忆功能存在差异
    • 解释:有评论者指出Claude根本没有对话记忆,ChatGPT记忆浅薄且与聊天无关联,而OpenWebUI使用记忆功能会得到奇怪结果。
  4. 🌟 存在多种替代方案和推荐
    • 解释:推荐了如https://github.com/v2rockets/Loyal - Elephie项目、TypingMind、SillyTavern等,也提到了像Open Router这样可提供开源模型的服务。
  5. 🤔 API和模型的应用场景不同
    • 解释:LLM的记忆/项目功能针对消费者聊天,API多用于构建产品,但API也能实现类似记忆功能。

金句与有趣评论

  1. “😂 Huh? Open WebUI has Memory similar to ChatGPT, Claude doesn’t have it at all”
    • 亮点:直接指出不同模型在记忆功能上的差异,引发对模型记忆功能的深入探讨。
  2. “🤔 LodosDDD: Append all your prompts and their responses to a txt file and append it before your each prompt. Problem? :tf:”
    • 亮点:提出一种独特的解决模型无记忆问题的思路,虽然被质疑但激发了更多思考。
  3. “👀 我记得我第一次发现这个的时候也觉得自己很傻,但这是有道理的,因为你基本上只是在调用一个巨大的函数,你不是在每次调用它的时候微调它并改变它的参数。”
    • 亮点:以自身经历解释了模型无自动学习能力的原因,增加了可信度。
  4. “😎 我推荐使用Bartowski的nemo 12b 5_k_m。我想你会有惊喜的。”
    • 亮点:在众多解决办法中提出具体的模型推荐,为原帖主提供了新的尝试方向。
  5. “💥 Try SillyTavern, it can have different ‘personas’ (system prompts) and stores your chat history to keep it in context.”
    • 亮点:针对原帖问题推荐工具并点明其优势,简洁明了。

情感分析

总体情感倾向为中性偏积极。主要分歧点在于对各种解决模型无记忆问题办法的可行性和有效性上。原帖主因模型缺乏记忆功能感到失望,这是消极情绪的来源。而众多评论者积极提供解决办法、分享经验和推荐工具等体现了积极的一面。可能的原因是大家都在试图解决原帖主的困扰,同时也借此机会交流不同模型的特点和使用经验。

趋势与预测

  • 新兴话题:可能会有更多人尝试评论中推荐的模型或工具,如TypingMind、SillyTavern等,并且进一步探索如何更好地实现模型的记忆功能或者自动学习能力。
  • 潜在影响:如果这些推荐的工具或解决办法被证实有效,可能会改变部分用户对于API使用和模型订阅的选择,影响相关模型和工具的使用流行度,也可能促使开发者对模型的记忆功能进行改进。

详细内容:

标题:探索聊天模型中的记忆功能:一场复杂而有趣的旅程

在 Reddit 上,有一篇引发热烈讨论的帖子,主题是关于在尝试各种 API 接口和前端以实现类似 ChatGPT 和 Claude 那样的长期记忆和项目管理功能时所遇到的问题和体验。该帖子获得了众多关注,评论数众多。

原帖作者表示,为避免订阅费用,选择了 API 路线,尝试了不同前端并最终选定 OpenWebUI,还创建了自定义模型,但发现每次新对话都是全新的,而 ChatGPT 和 Claude 的项目能自动从对话中学习。这让作者感到失望,甚至考虑保留 ChatGPT 订阅并获取 Claude Pro 订阅。

讨论焦点主要集中在不同模型的记忆功能实现方式和效果上。有人认为 Open WebUI 具有类似 ChatGPT 的记忆功能,而 Claude 则完全没有;也有人尝试 OpenWebUI 的记忆功能却得到了奇怪的结果。有人提出将所有提示和响应添加到文本文件并在每次提示前添加的方法,但也有人质疑这是否会增加 API 成本。还有人建议在每次对话后将其分块存入向量数据库,以便下次聊天时进行相似性搜索。

比如,有用户分享道:“我使用 llama3.2:11b 尝试记忆功能,结果它无法区分记忆和问题本身,导致经常偏离主题。”

同时,也有用户推荐了一些相关项目,如 https://github.com/v2rockets ,并表示使用 nemo 12b 5_k_m 会有惊喜。还有人提到 Msty https://msty.app ,称其做得很好且有趣。

也有用户表示自己的经历,比如“我刚刚开始使用向量化功能,与 22b 模型和数据库配合,效果还不错。”

关于如何实现更好的记忆功能,观点各异。有人建议使用特定的插件,有人认为可以通过修改提示等方式来实现。

讨论中的共识是目前还没有完美的记忆解决方案。特别有见地的观点如“LLM API 调用实际上每次都会发送整个对话,因此某种程度上已经在实现类似功能,只是可以通过修改对话历史等方式进一步优化。”

总之,关于聊天模型的记忆功能,大家仍在不断探索和交流,希望找到更理想的解决方案。