原贴链接

https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

根据我个人的经验,我知道RAG系统很多时候似乎并不特别可靠,但我从未想过专业级别的RAG系统(如斯坦福文章中提到的)只有65%的正确率。对于依赖于律师进行研究的职业级生产应用程序来说,这似乎相当糟糕。

我的意思是,这些是法律研究应用程序的大牌:Lexis Nexis、WestLaw、Ask Practical Law。这是他们的核心业务,而这篇文章似乎在说65%的准确率是他们能做到的最好水平?

这让我对我试图在实际项目中使用的小型业余DIY RAG设置产生了高度怀疑。

当我所能期望的最高准确率只有65%时,投入更多时间和精力去尝试构建我能构建的最佳RAG系统是否值得?

我很好奇这里的其他人对此有何看法。

(如果我误解了结果,请告诉我)

讨论总结

讨论主要围绕斯坦福大学的一项研究,该研究指出即使是专业级别的RAG系统(如律师使用的系统),其准确率最高也只能达到65%。参与者表达了对这些专业级应用的可靠性感到失望,并质疑自己构建的业余RAG系统的价值。讨论中涉及了对法律搜索工具如Lexis Nexis和WestLaw的讨论,以及对这些工具在法律研究中作用的质疑。此外,还有关于个人DIY RAG系统的构建、RAG技术的现状及其在不同领域的应用前景的讨论。

主要观点

  1. 👍 专业级RAG系统在法律领域的准确率仅为65%,令人担忧。

    • 支持理由:这些系统是律师依赖的重要研究工具,低准确率可能影响其工作效率。
    • 反对声音:有回复指出,即使是领先的法律搜索工具如Lexis Nexis,其准确性也取决于使用者的技能。
  2. 🔥 个人与大型公司开发的RAG系统存在差异,个人系统可能更快采用新技术。

    • 正方观点:个人系统可能更快采用新技术,因为不受大型公司流程的限制。
    • 反方观点:大型公司有更多的资源和专业知识来优化系统。
  3. 💡 RAG技术仍处于快速发展阶段,不断有新的技术和方法被提出。

    • 解释:讨论中提到,通过精细调整的模型和优质搜索服务,可以构建出非常可靠的RAG应用。
  4. 👀 在构建RAG系统时,应考虑多种技术组合,如语义重排序、多步骤查询等。

    • 解释:有评论认为,法律级别的RAG系统需要更多的细节优化和传统技术的辅助。
  5. 🌟 个人DIY RAG系统在实际项目中的应用价值值得探讨。

    • 解释:有评论者分享了自己构建RAG系统的经验,并讨论了在处理大量或相似数据时可能遇到的准确性问题。

金句与有趣评论

  1. “😂 Personal vs giant corp RAG are different beasts.”

    • 亮点:强调了个人与大型公司在RAG系统开发上的差异。
  2. “🤔 Legal grade means absolutely nothing. It’s not like lawyers know how to build a top tier RAG system.”

    • 亮点:质疑了“法律级别”这一标签的实际意义。
  3. “👀 There’s a whole bunch of stuff you need to do to get accurate RAG.”

    • 亮点:指出了构建准确RAG系统所需的多方面努力。
  4. “😂 That’s a bit like saying Amazon can’t make AWS because warehouse workers don’t know how to code.”

    • 亮点:用生动的比喻说明了专业知识与系统构建之间的关系。
  5. “🤔 I think that a simple accuracy figure doesn’t tell you much. Law is very particular, very convoluted.”

    • 亮点:强调了法律领域的复杂性,单一的准确率指标不足以全面评价RAG系统。

情感分析

讨论的总体情感倾向是担忧和怀疑,主要分歧点在于对RAG系统准确性的期望与实际表现之间的差距。许多评论者对65%的准确率表示不满,认为这对于专业应用来说是不够的。同时,也有评论者认为,考虑到法律领域的复杂性,这一准确率在某些情况下可能是可以接受的。

趋势与预测

  • 新兴话题:随着AI技术的改进,用户需要学会优化使用AI的策略。
  • 潜在影响:对相关领域或社会的潜在影响包括提高法律研究的效率,但也可能带来对准确性和可靠性的新挑战。

详细内容:

标题:关于专业级 RAG 系统准确性的热门讨论

在 Reddit 上,一篇题为“According to Stanford, even pro-grade RAG systems (the kind used by lawyers) are only right 65% of the time at best”的帖子引发了热烈讨论。该帖子提供了一个链接(https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf),指出专业级 RAG 系统在法律领域的准确性最多只有 65%,这让作者对自己尝试在现实项目中使用的业余 DIY RAG 系统产生了怀疑,并询问大家是否值得继续投入时间和精力来优化。此贴获得了众多关注,引发了广泛的讨论。

讨论焦点与观点分析: 有人认为个人与大型公司的 RAG 系统存在差异,法律领域的数据集尤其复杂。也有人分享了自己在政府政策“专家”系统方面的 RAG 应用经验。还有人提到了通过多种方法来提高 RAG 系统的准确性,如语义重排序、使用多个提示、在数据库查询阶段剔除不相关数据等。 有用户表示自己构建了一个用于政府文档的工具,尽管原始 PDF 文档质量差,但仍有很大帮助,还分享了使用的技术和优化过程。 有人指出简单的准确性数字不能说明太多问题,在法律这样复杂的领域,65%的一次性准确率可能相对于其他方法,包括人类,已经算不错。 有观点认为,即使准确性有限,LLM 能迅速给出答案,在某些情况下仍能带来巨大改变。但也有人指出,在编码等领域,AI 的验证步骤可能和手动编写一样耗时。 不少用户分享了自己构建 RAG 系统的经验,包括使用的技术、避免不准确和幻觉的方法、块策略等。 有人认为,当前 RAG 系统在处理复杂法律问题时存在困难,与人类相比还有差距,但未来有望取得重大进展。也有人认为,专业级 RAG 系统名不副实,只是营销手段。

总之,Reddit 上关于专业级 RAG 系统准确性的讨论呈现出观点的多样性,涉及技术、应用场景、与人类工作的比较等多个方面。