原贴链接

我在根据基准找出最新答案方面遇到了一些麻烦。我想知道准确做到这一点的最佳形式：RAG、KAG还是GraphRAG。我的使用场景：我有1万多个文档作为知识库。我希望我的最终用户提问，然后它能生成特定领域知识的答案，从不同文档中提取信息，并且带有嵌入引用。我的文档会不断更新，我希望获取多源的最新信息。准确性是最重要的，而且问题的答案也应该显示日期。我希望你们中的一些人能提供一个完整的指南或者最佳当前设置的细分。具体来说，我希望得到一些指导：1. 嵌入：最好的本地托管模型是什么？2. 向量存储：我应该选择哪个向量数据库？3. RAG框架：是否有（非langchain的）我应该使用的框架？我不介意构建自己的自定义流程。什么能让我从多个文档中提取特定答案时最准确？4. 其他工具：任何其他使RAG设置更高效或更易于管理的工具或提示？任何帮助或建议都将非常感激！我很想听听你们都使用的设置以及对你们来说最有效的设置。先谢谢了！

讨论总结

这是一个关于多文档（10k +）检索增强生成（RAG）最佳设置的讨论，包括嵌入、向量存储、RAG框架和其他工具等方面。一些评论者给出了具体的技术推荐，如推荐Haystack框架、docling处理pdf文档、考虑llamaindex；有的指出人们对向量存储在问答中的期望存在问题并提出文档预处理的方法；还有评论者认为RAG相关的选择非常依赖具体情况，在商业用途时应寻求顾问定制化建议而非在reddit上寻求答案，也有评论者只是使用“RemindMe!”指令希望之后再查看讨论。

主要观点

👍 [推荐Haystack作为RAG框架，认为其很有前景]
- 支持理由：[开源且有不错的云构建器用于原型制作，相比llamaindex有更多选项]
- 反对声音：[无]
💡 [对文档进行预处理，用LLM为每个文档生成问题，将问题及其元数据嵌入RAG向量数据库]
- 正方观点：[可以让向量与用户问题预对齐且能在文档中找到答案]
- 反方观点：[无]
👎 [如果有商业需求，不应在reddit寻求RAG相关答案，而应付费请顾问提供定制化建议]
- 正方观点：[RAG相关内容非常依赖具体情况，每个用例都是独特的，不同模型表现各异]
- 反方观点：[Reddit上也可能得到有用的建议]
🤔 [推荐使用docling处理pdf文档]
- 正方观点：[未提及]
- 反方观点：[无]
💡 [推荐考虑llamaindex]
- 正方观点：[未提及]
- 反方观点：[无]

金句与有趣评论

“😂 Everybody expects the vector store to pull answer documents out of its hat when given a related question, disregarding that these 2 embeddings can differ significantly.”
- 亮点：[指出人们对向量存储在问答中的期望存在忽略差异的情况]
“🤔 Haystack for the framework looks promising.”
- 亮点：[推荐Haystack框架]
“👀 100% agree! 😎 Docling + haystack (with various pipeline types) is super powerful!”
- 亮点：[强调Docling + haystack组合的强大]
“😉 如果有商业需求，应该付费请顾问提供定制化建议，而不是在reddit上寻求。”
- 亮点：[指出商业用途时寻求RAG答案的不同途径]
“🤔 RAG解决方案不是通用的，每个用例都是独特的，需要特定知识并适应需求。”
- 亮点：[强调RAG解决方案的独特性]

情感分析

[总体情感倾向比较中性，主要分歧点在于是否能在reddit上得到有用的RAG设置建议，可能的原因是一方面reddit是一个信息交流平台，有机会得到各种建议，但另一方面RAG相关内容非常依赖具体情况，在商业等特定需求下可能需要更专业定制化的建议]

趋势与预测

新兴话题：[随着RAG技术发展，如何更好地根据具体情况定制解决方案]
潜在影响：[对信息检索、知识管理等领域可能提高准确性和效率，但也可能增加定制成本]

详细内容：

《探寻多文档（10k+）检索增强生成（RAG）的最佳当前设置》

在 Reddit 上，有这样一个热门讨论帖引起了大家的关注。帖子的标题是“ What’s the Best Current Setup for Multi Document (10k+) Retrieval-Augmented Generation (RAG)? Need Accuracy and Citations ”，获得了众多的浏览和互动。

原帖中，发帖人表示在基于基准找出最新答案方面遇到了困难，希望了解进行准确的多文档检索增强生成（RAG）的最佳形式，比如 RAG、KAG 还是 GraphRAG。其使用场景是拥有 10k+的文档作为知识库，希望终端用户提问时能生成特定领域知识答案，并从不同文档中提取且带有嵌入式引用。同时，文档持续更新，需要获取多个来源的最新信息，准确性至关重要，问题还应显示答案的日期。发帖人还具体咨询了关于嵌入、向量存储、RAG 框架和其他工具等方面的最佳当前设置。

讨论中主要观点纷呈。有人提到只是初步尝试过 RAG 解决方案，认为可以探索对文档进行预处理，让 LLM 为每个文档生成问题，然后将这些问题及其原始文档元数据嵌入到 RAG 向量数据库中。还有人认为 Haystack 框架看起来很有前景，Docling 用于准备 PDF 文档也不错。有人则质疑 llamaindex 的效果。

不过，也有人指出如果这是用于企业的业务，应该请顾问提供定制建议，因为每个情况都是特定的，取决于内容和目标。比如文档的实际布局、内容类型，是否有图片和图表，不同类型的文件格式等等，这些都会影响到解决方案的选择。有人分享了自己的研究笔记链接：https://raw.githubusercontent.com/rmusser01/tldw/refs/heads/main/Docs/RAG_Notes.md 。

讨论中的共识在于 RAG 解决方案并非通用，需要根据具体情况进行定制和调整，没有简单的答案。独特的观点比如有人提出的预处理文档并生成相关问题的想法，为解决问题提供了新的思路。

最终，这一讨论让我们深刻认识到，要实现有效的多文档检索增强生成并非易事，需要综合考虑各种因素，进行针对性的定制和优化。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#