原贴链接

2024年初,RAPTOR论文(https://arxiv.org/html/2401.18059v1)受到了一些关注。其思路是结合嵌入簇和大型语言模型(LLM)摘要来构建文档的语义树结构,然后用于检索任务。当时我觉得这个想法非常吸引人,自己做了一个粗略的实现,发现很有前景,但不知怎么就忘了,从那以后就没怎么听说过它了。有没有人在自己的项目中使用它呢?

讨论总结

该讨论围绕RAPTOR在RAG中的应用展开。有评论者探讨其在生产系统中的使用情况,也有分享实验结果,包括相比朴素RAG方法的优势和不足,还有人提及论文相关的看法,整体讨论氛围偏向技术交流。

主要观点

  1. 👍 RAPTOR可能在生产系统中被使用但很少被提及
    • 支持理由:有人认为虽然很少提及,但或许有在生产系统使用的情况。
    • 反对声音:无。
  2. 🔥 RAPTOR相比朴素RAG方法有优势,但在理解整个文档的查询任务表现不佳
    • 正方观点:Working_Resident2069通过实验得出这一结论。
    • 反方观点:无。
  3. 💡 RAPTOR是该领域研究的良好开端
    • 解释:Working_Resident2069在实验后认为它是一个不错的开始。
  4. 💡 RAPTOR实现方式存在仅支持单个文档的问题
    • 解释:Working_Resident2069指出如果要处理多文档就需要连接文档。
  5. 💡 KAG是当前最先进技术
    • 解释:hassan789_提出这一观点。

金句与有趣评论

  1. “😂 所有那些论文都是针对数据适合所提方法的某些领域解决检索增强生成(RAG)问题。”
    • 亮点:概括性地指出相关论文解决RAG问题的针对性。
  2. “🤔 Working_Resident2069:I had experimented RAPTOR earlier, I found it to be good against the naive RAG approach, but it wasn’t still not that great in queries which requires the understanding of the whole document(s) (example query - "Summarize the documents").”
    • 亮点:通过具体的实验经历阐述了RAPTOR的优势和不足。
  3. “👀 我之前从未听说过它,但注意到RAGFlow正在使用它。”
    • 亮点:体现出部分人对RAPTOR缺乏了解。

情感分析

总体情感倾向较为中立,大部分是基于技术角度讨论RAPTOR的使用、成果和局限性。主要分歧点在于对RAPTOR相关论文质量的看法,有的认为是良好开端,有的认为是中等水平文章且怀疑成果的真实性,可能的原因是不同的使用体验和评价标准。

趋势与预测

  • 新兴话题:将RAPTOR生成的语义树用作知识图谱创建中的预处理步骤。
  • 潜在影响:如果可行,可能会为知识图谱的构建提供新的思路,也可能会影响到相关的RAG技术在不同场景下的应用。

详细内容:

《RAPTOR 在 RAG 中的应用现状引发的讨论》

2024 年初,RAPTOR 相关论文(https://arxiv.org/html/2401.18059v1)曾引起关注。其理念是结合嵌入聚类和 LLM 总结来构建文档的语义树结构,用于检索任务。原帖作者当时觉得这个想法很吸引人,还自己做了个粗糙的实现,觉得有前景,但后来遗忘了,之后也没再听到太多相关消息,并询问是否有人在项目中使用它。该帖子获得了不少关注,引发了热烈讨论。

讨论的焦点和观点主要包括: 有人表示在某些生产系统中可能有人使用,但这类应用讨论不多。还有人实验过 RAPTOR,认为它相比朴素的 RAG 方法有优势,但在需要理解整篇文档的查询中表现一般。也有人觉得这是个好的开始,不过其实现方式有待改进,比如只支持一个文档,处理多个文档时需要拼接,在处理“动态”数据时可能存在问题。还有人认为在处理多个文档的 RAG 时,为每个块添加语义上下文是有益的。

也有人表示从未听说过,但注意到 RAGFlow 在使用,不过自己使用其产品没取得太大成功。有人觉得 KAG 似乎是当前的先进技术,还有人认为可以将 RAPTOR 生成的语义树作为创建知识图谱的预处理步骤,但可能计算量较大。

有人认为这些论文跟一般的帖子没区别,声称基于论文实现了相关内容的人是在撒谎,论文中存在可疑的错误和表述。但也有人反驳称,自己读了论文并能轻松创建自己的 RAPTOR 完整实现版本,论文发表约一个月后,主要作者还在 GitHub 上推送了一个可用的实现(https://github.com/parthsarthi03/raptor)。

总的来说,对于 RAPTOR 在 RAG 中的应用,大家观点不一,有人看好其前景,也有人对其效果和实现方式存在质疑。但这也反映出在技术探索和应用中,不同的经验和视角会带来多样的评价。