大家好,
我需要一些关于从原始PDF文档中提取大型合规项目的指导。我有一个包含这些合规项目的CSV文件,我希望对一个大型语言模型(LLM)进行微调,以便当它读取任何新的PDF文档时,它能够首先识别合规项目并提取它们。
我见过LLM用于命名实体识别(NER),但这种任务更像是命名短语识别(NPR - 不知道是否有这样的缩写)。
所以我的问题是:
- 这能实现吗?
- 你们能指导我哪种模型更适合这项任务,以及使用什么分词器等等。
讨论总结
本次讨论主要集中在如何从PDF文档中提取大型合规项目。用户拥有一个包含这些合规项目的CSV文件,并希望微调一个大型语言模型(LLM),以便在阅读新的PDF文档时能够识别并提取这些合规项目。讨论中涉及了模型选择、数据处理和微调策略,以及如何处理PDF文档中的表格数据。
主要观点
- 👍 需要更多关于PDF文档的信息和提取目标的具体描述
- 支持理由:详细的信息有助于选择合适的工具和方法。
- 反对声音:信息过于模糊,难以给出具体建议。
- 🔥 可以使用工具如camelot或TATR提取表格数据,然后输入到LLM中
- 正方观点:这些工具能够有效提取PDF中的表格数据。
- 反方观点:并非所有合规项目都在表格中,需要考虑其他部分。
- 💡 可以考虑使用BERT等NER模型,特别是如果合规项目适合模型的上下文
- 解释:NER模型在处理特定类型的数据时表现良好。
金句与有趣评论
- “😂 You need to give more information on what these PDFs look like and what you’re trying to extract from them. Your description is way too vague.”
- 亮点:强调了提供详细信息的重要性。
- “🤔 Isn’t this just a reading comprehension test?”
- 亮点:将问题类比为阅读理解,引发对模型选择的思考。
- “👀 Yes I have a custom dataset for this task. In fact I have got 9000+ rows of data for a model to be trained upon.”
- 亮点:展示了用户拥有大规模的训练数据集,为模型微调提供了基础。
情感分析
讨论的总体情感倾向较为积极,用户和评论者都在寻求和提供解决方案。主要分歧点在于如何处理PDF文档中的数据,特别是表格数据和其他部分的合规项目。
趋势与预测
- 新兴话题:如何更有效地处理PDF文档中的非表格数据。
- 潜在影响:提高合规项目提取的准确性和效率,对相关领域的自动化处理有积极影响。
感谢您的耐心阅读!来选个表情,或者留个评论吧!