https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

根据我个人的经验，我知道RAG系统很多时候似乎并不特别可靠，但我从未想过专业级别的RAG系统（如斯坦福文章中提到的）只有65%的正确率。对于依赖于律师进行研究的职业级生产应用程序来说，这似乎相当糟糕。

我的意思是，这些是法律研究应用程序的大牌：Lexis Nexis、WestLaw、Ask Practical Law。这是他们的核心业务，而这篇文章似乎在说65%的准确率是他们能做到的最好水平？

这让我对我试图在实际项目中使用的小型业余DIY RAG设置产生了高度怀疑。

当我所能期望的最高准确率只有65%时，投入更多时间和精力去尝试构建我能构建的最佳RAG系统是否值得？

我很好奇这里的其他人对此有何看法。

（如果我误解了结果，请告诉我）

讨论总结

讨论主要围绕斯坦福大学的一项研究，该研究指出即使是专业级别的RAG系统（如律师使用的系统），其准确率最高也只能达到65%。参与者表达了对这些专业级应用的可靠性感到失望，并质疑自己构建的业余RAG系统的价值。讨论中涉及了对法律搜索工具如Lexis Nexis和WestLaw的讨论，以及对这些工具在法律研究中作用的质疑。此外，还有关于个人DIY RAG系统的构建、RAG技术的现状及其在不同领域的应用前景的讨论。

主要观点

👍 专业级RAG系统在法律领域的准确率仅为65%，令人担忧。
- 支持理由：这些系统是律师依赖的重要研究工具，低准确率可能影响其工作效率。
- 反对声音：有回复指出，即使是领先的法律搜索工具如Lexis Nexis，其准确性也取决于使用者的技能。
🔥 个人与大型公司开发的RAG系统存在差异，个人系统可能更快采用新技术。
- 正方观点：个人系统可能更快采用新技术，因为不受大型公司流程的限制。
- 反方观点：大型公司有更多的资源和专业知识来优化系统。
💡 RAG技术仍处于快速发展阶段，不断有新的技术和方法被提出。
- 解释：讨论中提到，通过精细调整的模型和优质搜索服务，可以构建出非常可靠的RAG应用。
👀 在构建RAG系统时，应考虑多种技术组合，如语义重排序、多步骤查询等。
- 解释：有评论认为，法律级别的RAG系统需要更多的细节优化和传统技术的辅助。
🌟 个人DIY RAG系统在实际项目中的应用价值值得探讨。
- 解释：有评论者分享了自己构建RAG系统的经验，并讨论了在处理大量或相似数据时可能遇到的准确性问题。

金句与有趣评论

“😂 Personal vs giant corp RAG are different beasts.”
- 亮点：强调了个人与大型公司在RAG系统开发上的差异。
“🤔 Legal grade means absolutely nothing. It’s not like lawyers know how to build a top tier RAG system.”
- 亮点：质疑了“法律级别”这一标签的实际意义。
“👀 There’s a whole bunch of stuff you need to do to get accurate RAG.”
- 亮点：指出了构建准确RAG系统所需的多方面努力。
“😂 That’s a bit like saying Amazon can’t make AWS because warehouse workers don’t know how to code.”
- 亮点：用生动的比喻说明了专业知识与系统构建之间的关系。
“🤔 I think that a simple accuracy figure doesn’t tell you much. Law is very particular, very convoluted.”
- 亮点：强调了法律领域的复杂性，单一的准确率指标不足以全面评价RAG系统。

情感分析

讨论的总体情感倾向是担忧和怀疑，主要分歧点在于对RAG系统准确性的期望与实际表现之间的差距。许多评论者对65%的准确率表示不满，认为这对于专业应用来说是不够的。同时，也有评论者认为，考虑到法律领域的复杂性，这一准确率在某些情况下可能是可以接受的。

趋势与预测

新兴话题：随着AI技术的改进，用户需要学会优化使用AI的策略。
潜在影响：对相关领域或社会的潜在影响包括提高法律研究的效率，但也可能带来对准确性和可靠性的新挑战。

详细内容：

标题：关于专业级 RAG 系统准确性的热门讨论

在 Reddit 上，一篇题为“According to Stanford, even pro-grade RAG systems (the kind used by lawyers) are only right 65% of the time at best”的帖子引发了热烈讨论。该帖子提供了一个链接（https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf），指出专业级 RAG 系统在法律领域的准确性最多只有 65%，这让作者对自己尝试在现实项目中使用的业余 DIY RAG 系统产生了怀疑，并询问大家是否值得继续投入时间和精力来优化。此贴获得了众多关注，引发了广泛的讨论。

讨论焦点与观点分析：有人认为个人与大型公司的 RAG 系统存在差异，法律领域的数据集尤其复杂。也有人分享了自己在政府政策“专家”系统方面的 RAG 应用经验。还有人提到了通过多种方法来提高 RAG 系统的准确性，如语义重排序、使用多个提示、在数据库查询阶段剔除不相关数据等。有用户表示自己构建了一个用于政府文档的工具，尽管原始 PDF 文档质量差，但仍有很大帮助，还分享了使用的技术和优化过程。有人指出简单的准确性数字不能说明太多问题，在法律这样复杂的领域，65%的一次性准确率可能相对于其他方法，包括人类，已经算不错。有观点认为，即使准确性有限，LLM 能迅速给出答案，在某些情况下仍能带来巨大改变。但也有人指出，在编码等领域，AI 的验证步骤可能和手动编写一样耗时。不少用户分享了自己构建 RAG 系统的经验，包括使用的技术、避免不准确和幻觉的方法、块策略等。有人认为，当前 RAG 系统在处理复杂法律问题时存在困难，与人类相比还有差距，但未来有望取得重大进展。也有人认为，专业级 RAG 系统名不副实，只是营销手段。

总之，Reddit 上关于专业级 RAG 系统准确性的讨论呈现出观点的多样性，涉及技术、应用场景、与人类工作的比较等多个方面。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#