原贴链接

我正在使用 Rag 搜索公司会计报表。当我询问关于某公司资产的问题时,相似性搜索会将另一家公司的资产信息混入,因为相似性搜索从另一份报表中引入了上下文部分。

如何改进相似性搜索,例如,当我询问关于公司 X 的资产问题时,只有公司 X 的文档被用于搜索。

讨论总结

本次讨论主要集中在如何改进公司会计报表的相似性搜索,以确保在查询特定公司的资产时,只使用该公司的文档进行搜索。讨论中提出了多种方法,包括使用关系型数据库、命名实体识别(NER)、元数据搜索等,以及如何通过这些方法来实现更精确的搜索。此外,还探讨了用户选择和数据处理的重要性。

主要观点

  1. 👍 使用关系型数据库
    • 支持理由:关系型数据库可以更精确地管理数据,避免不同公司资产信息的混淆。
    • 反对声音:需要对数据进行结构化处理,可能增加工作量。
  2. 🔥 通过命名实体识别(NER)提取信息
    • 正方观点:NER可以帮助识别查询中提到的公司,从而提高搜索的准确性。
    • 反方观点:需要进一步解释NER的含义和实现方法。
  3. 💡 利用元数据搜索
    • 解释:通过元数据搜索可以更快速地定位到特定公司的文档,提高搜索效率。

金句与有趣评论

  1. “😂 Don’t use semantic search use relational dbs”
    • 亮点:直接指出了语义搜索的不足,并建议使用关系型数据库。
  2. “🤔 Use agentic system. Extract via ner and use metadata search. Or provide a selector / extract company from user claim.”
    • 亮点:提出了多种改进方法,展示了问题的多角度解决方案。
  3. “👀 Do you not know the company of each asset?”
    • 亮点:指出了数据处理中的一个关键问题,即需要明确每个资产所属的公司。

情感分析

讨论的总体情感倾向较为中性,主要集中在技术解决方案的探讨上。争议点主要在于选择哪种技术方法更为有效,以及如何实现这些方法。可能的原因是参与者对不同技术的熟悉程度和偏好不同。

趋势与预测

  • 新兴话题:命名实体识别(NER)和元数据搜索可能会成为后续讨论的热点。
  • 潜在影响:改进相似性搜索方法将提高公司会计报表查询的准确性和效率,对相关领域的数据处理和搜索技术有积极影响。