正如标题所说。我在工程领域工作,我们有一本600页的规章手册必须遵守。ChatGPT能够回答一些问题,但它不像这个领域的工程师那样真正智能。我想知道,有没有一种方法可以让AI理解它,并且成本低廉?我想到的一个解决方案是,自己通读手册,然后在另一个文档中重写,让AI更容易处理文本内容,并且逐页教它。然后我又想,这在聊天中是无法完成的——如果它被用于一个应用程序中,我如何让它记住所学的内容,然后在我需要的时候通过API调用它呢?感谢读到这里的人。
讨论总结
原帖作者在工程领域工作,想让AI低成本地深入理解600页的规章手册,众多评论者针对此问题提出了不同的解决方案,包括推荐各种软件(如Gemini 2.0、notebook LM等)、不同的技术手段(如RAG、微调模型、将RAG和微调相结合等),也有评论者对一些回答不符合问题本身表示失望,整体氛围积极探索多种方案且有一定的争议性。
主要观点
- 👍 Gemini 2.0能够处理600页的规章手册
- 支持理由:评论者if47推荐,称其应对600页内容轻而易举,只需上传文件,冷启动只需几分钟,并且有上下文缓存不会很慢。
- 反对声音:无。
- 🔥 RAG在应用于规章等场景时可能存在问题
- 正方观点:RAG只是将数据分块并基于文本相似性或向量编码检索相关块,可能会导致AI在未获取全部规则集的情况下就给出自信的答案,在处理引用方面存在失败的可能,无论采用何种技巧,如果数据不适合上下文,RAG的理解质量都会下降。
- 反方观点:RAG仍然是原问题的正确答案,虽有不足但仍值得一试。
- 💡 微调或迁移学习面临将文本转换为数据集的框架缺失问题
- 解释:将文本转换为用于微调的数据集缺乏良好框架,且要使模型学习新知识需要大量的问答训练集,耗时又昂贵。
- 💡 仅靠RAG难以满足精度需求,应采用RAG和微调相结合的方式
- 解释:从AI技术角度出发,单一方法可能存在不足,两种方法混合使用或许能更好地达到预期目标。
- 💡 可将规章手册内容放入提示,若为本地模型,选择高语境模型并给其文件,这种方式免费(除硬件成本)且比针对手册微调效果好
- 解释:评论者提出这种方案,认为是一种可行的让AI理解规章手册的低成本方式。
金句与有趣评论
- “😂 600 pages is a piece of cake for Gemini 2.0, just upload the file.”
- 亮点:形象地表达出Gemini 2.0处理600页规章手册的轻松程度。
- “🤔 RAG是有用的,但在规章等方面,RAG可能不起作用。”
- 亮点:简洁地指出了RAG的局限性。
- “👀 think about RAG like writing a report on a book you haven’t read using only pages ripped out by someone skimming for relevant passages.”
- 亮点:用生动的比喻解释了RAG的工作方式及其可能存在的问题。
- “😂 LLMs work best when 90% accuracy is "good enough." If you care about that last 10%, you need competent humans.”
- 亮点:阐述了LLMs的准确率情况以及人力在其中的作用。
- “🤔 looking at your question more deeply, RAG isn’t some magic carpet for engineering regulations. the real challenge isn’t just dumping text into an AI—it’s capturing how rules depend on each other.”
- 亮点:深入分析了RAG在工程法规应用中的难点。
情感分析
总体情感倾向为积极探索,大家都在积极地为原帖作者提供解决方案。主要分歧点在于RAG技术是否有效以及各种解决方案的可行性和成本效益。可能的原因是不同评论者的技术背景和实践经验不同,对不同技术手段的理解和应用场景的把握存在差异。
趋势与预测
- 新兴话题:构建知识图谱辅助AI理解规章手册以及多种技术手段结合使用的具体操作方法。
- 潜在影响:如果找到低成本且有效的让AI理解规章手册的方法,可能会提高工程领域相关工作的效率,同时也可能影响其他行业对AI应用于文档理解的方式。
详细内容:
《关于训练 AI 理解工程法规手册的热门讨论》
在 Reddit 上,有一则热度颇高的帖子,标题为“I want to train AI to intimately understand an entire regulations booklet for my work- how do I do that, and cheaply?” 。帖子的作者从事工程工作,面对 600 页的法规手册,希望能让 AI 深入理解,同时还在思考如何以低成本实现这一目标。此帖引发了众多讨论,获得了大量的点赞和评论。
讨论的焦点主要集中在如何实现让 AI 理解这一庞大的法规手册。有人认为 600 页对于 Gemini 2.0 来说不算难事,直接上传文件即可,也有人指出这并非简单的操作。比如,有用户表示:“This ignores a few things (positional encoding, long context degradation) that can greatly affect the outputs. It’s absolutely not as simple as ‘if it fits, it works’. It may be good enough for OPs use - case, but that’s a different story.”
还有用户分享了自己的经历,像 [judasholio] 提到:“I have approximately 2000 pages of Michigan court rules, bench books, rules of professional conduct, state laws, opinions, and miscellaneous legal notes in a RAG. I have to be very specific, and the context that it returns are irrelevant about half the time. On the other hand, it does great with logical argument with that extra information.”
关于解决方案,观点各异。有人建议使用 RAG(Retrieval Augmented Generation)技术,但也有人指出其存在局限性,比如:“The problem when applied to this specific scenario is imagine you need to align with 100 regulations but rag retrieves the top 20 results and slides that into context. Now your AI will be confident without having the entire ruleset in its context window.” 同时,有人提出构建知识图谱、进行微调等方法。
有人认为 RAG 并非万能,如 [ph0b0ten] 所说:“The challenge with <engineering, health, finance, what have you> regulations and compliance isn’t just retrieval—it’s understanding and sometimes interpretation of the interdependencies between rules.” 但也有人对 R0G 抱有期待,比如 [10c70377] 表示:“Interesting. I’ll still check out RAG, but your comment is something to think about definitely if it doesn’t work for my problem.”
总的来说,关于如何让 AI 有效理解这 600 页的工程法规手册,大家各抒己见,尚未形成统一的定论。但这些讨论为解决这一难题提供了丰富的思路和方向。
感谢您的耐心阅读!来选个表情,或者留个评论吧!