我正在使用 Rag 搜索公司会计报表。当我询问关于某公司资产的问题时,相似性搜索会将另一家公司的资产信息混入,因为相似性搜索从另一份报表中引入了上下文部分。
如何改进相似性搜索,例如,当我询问关于公司 X 的资产问题时,只有公司 X 的文档被用于搜索。
讨论总结
本次讨论主要集中在如何改进公司会计报表的相似性搜索,以确保在查询特定公司的资产时,只使用该公司的文档进行搜索。讨论中提出了多种方法,包括使用关系型数据库、命名实体识别(NER)、元数据搜索等,以及如何通过这些方法来实现更精确的搜索。此外,还探讨了用户选择和数据处理的重要性。
主要观点
- 👍 使用关系型数据库
- 支持理由:关系型数据库可以更精确地管理数据,避免不同公司资产信息的混淆。
- 反对声音:需要对数据进行结构化处理,可能增加工作量。
- 🔥 通过命名实体识别(NER)提取信息
- 正方观点:NER可以帮助识别查询中提到的公司,从而提高搜索的准确性。
- 反方观点:需要进一步解释NER的含义和实现方法。
- 💡 利用元数据搜索
- 解释:通过元数据搜索可以更快速地定位到特定公司的文档,提高搜索效率。
金句与有趣评论
- “😂 Don’t use semantic search use relational dbs”
- 亮点:直接指出了语义搜索的不足,并建议使用关系型数据库。
- “🤔 Use agentic system. Extract via ner and use metadata search. Or provide a selector / extract company from user claim.”
- 亮点:提出了多种改进方法,展示了问题的多角度解决方案。
- “👀 Do you not know the company of each asset?”
- 亮点:指出了数据处理中的一个关键问题,即需要明确每个资产所属的公司。
情感分析
讨论的总体情感倾向较为中性,主要集中在技术解决方案的探讨上。争议点主要在于选择哪种技术方法更为有效,以及如何实现这些方法。可能的原因是参与者对不同技术的熟悉程度和偏好不同。
趋势与预测
- 新兴话题:命名实体识别(NER)和元数据搜索可能会成为后续讨论的热点。
- 潜在影响:改进相似性搜索方法将提高公司会计报表查询的准确性和效率,对相关领域的数据处理和搜索技术有积极影响。
感谢您的耐心阅读!来选个表情,或者留个评论吧!