我发现的所有关于创建“定制模型”的内容,似乎都只是通过过滤器/镜头来使用现有模型。我想要一个本地解决方案,其中包含特定的政府法律法规文件,或许还有我自己的一些指南。后者可能可以通过“定制模型”方法实现,但数据方面呢?我如何将数千页的法律术语纳入模型呢?
讨论总结
主题是关于创建包含自己数据(特别是包含法律法规的政府文件等数据)的模型的难度及解决办法。主要观点包括各种技术手段如RAG脚本的使用、不同方法结合的优劣等,还有推荐相关平台及工具,整体氛围积极,大家都在积极分享经验或提供帮助。
主要观点
- 👍 分享为AFSA做原型时使用RAG脚本处理查询的操作
- 支持理由:基于自身经验分享具体操作流程。
- 反对声音:无。
- 🔥 仅用数据训练模型易出现幻觉,不可靠
- 正方观点:数据训练模型存在弊端。
- 反方观点:无。
- 💡 RAG与SQL查询结合是最可靠的方法,但实施复杂
- 解释:指出这种方法可靠性高但实施起来难度较大。
- 💡 可使用温度为0的RAG模型避免产生幻觉
- 解释:提出一种技术解决思路,避免模型产生幻觉。
- 💡 推荐Kiln平台用于创建自定义模型,流程简便
- 解释:介绍Kiln平台在创建自定义模型方面的优势。
金句与有趣评论
- “😂 这就是我为澳大利亚金融安全局(AFSA)做原型时一直在做的事情。”
- 亮点:基于真实经历,为分享内容做铺垫。
- “🤔 这种使用0训练的方法相当可靠。它从不说谎,但经常无法给你答案。”
- 亮点:客观分析一种方法的优缺点。
- “👀 最佳方法是RAG与SQL查询相结合,但整个实施起来要复杂得多。不过,对于这种应用来说,这是最可靠的方法,而这种应用应该尽可能可靠。”
- 亮点:对比阐述最佳方法的利弊。
情感分析
总体情感倾向积极,大家都在积极为原帖作者提供解决方案或者分享自己的经验。主要分歧点在于不同技术方法的优劣,如在模型训练中是采用单独的RAG还是结合SQL查询等,原因是不同方法在可靠性、工作量、回答效果等方面存在差异。
趋势与预测
- 新兴话题:Kiln平台在创建自定义模型方面可能会引发更多关注和后续讨论。
- 潜在影响:对想要创建包含特定数据模型的相关人员提供更多思路和选择,推动模型构建技术在特定领域(如金融安全涉及的法律法规方面)的发展。
详细内容:
《关于创建包含个人数据模型的热门讨论》
在 Reddit 上,一篇题为“How difficult is it to create a model that includes my own data?”的帖子引起了广泛关注。该帖子提到,目前关于创建“自定义模型”的信息大多是通过现有模型加过滤或视角实现,而发帖者希望有一个本地解决方案,能纳入特定的政府法律法规文件以及一些个人指导,但不知如何将上千页的法律术语融入模型。此帖获得了众多回复和较高的关注度。
讨论的焦点主要集中在实现这一目标的方法和可能遇到的问题。有人分享了自己为澳大利亚金融安全局(AFSA)所做的原型经验,使用小的 RAG 脚本获取相关的约 1000 个令牌块,并编写了一个开放的 WebUI 工具,还使用 llama 8b 来双重检查每个块的相关性。
有人指出,如果只是用数据训练模型,容易出现幻觉等问题,并非最优选择;使用 RAG 并将文件切成小块可能可行,但需要更多文件准备,且不如结合 SQL 数据库和 RAG 可靠;最好的方法是将 RAG 与 SQL 查询结合,但实现更复杂。如果只是想简单尝试且对结果要求不高,可以使用 Ollama 和一些 LLM 模型,通过特定应用获取和插入数据,并降低模型温度以减少幻觉。
还有人表示自己刚接触这方面几个小时,已对 ChatGPT 和 Meta AI 进行了询问以建立理解,原本希望能使用已形成的模型指向文档,不要求 100%准确,只要能回答“根据法规,X 活动是对是错”并能在回复中引用相关法规就行。
也有人提供了相关链接和工具,如https://www.reddit.com/r/LocalLLaMA/comments/1fqk9ky/i_trained_mistral_on_the_us_armys_field_manuals/,以及 Kiln 等,并认为它们可能对解决问题有帮助。
这场讨论中的共识在于大家都在积极探索如何更有效地创建包含个人数据的模型,而不同的方法和工具各有优劣。特别有见地的观点是对于不同需求和应用场景,应选择最合适的方案。
通过这场讨论,我们可以更深入地了解创建个人数据模型所面临的挑战和可能的解决方案,也能看到大家在技术探索道路上的热情和努力。
感谢您的耐心阅读!来选个表情,或者留个评论吧!