需要关于从PDF中提取大型合规项目的指导

大家好，

我需要一些关于从原始PDF文档中提取大型合规项目的指导。我有一个包含这些合规项目的CSV文件，我希望对一个大型语言模型（LLM）进行微调，以便当它读取任何新的PDF文档时，它能够首先识别合规项目并提取它们。

我见过LLM用于命名实体识别（NER），但这种任务更像是命名短语识别（NPR - 不知道是否有这样的缩写）。

所以我的问题是：

本次讨论主要集中在如何从PDF文档中提取大型合规项目。用户拥有一个包含这些合规项目的CSV文件，并希望微调一个大型语言模型（LLM），以便在阅读新的PDF文档时能够识别并提取这些合规项目。讨论中涉及了模型选择、数据处理和微调策略，以及如何处理PDF文档中的表格数据。

👍 需要更多关于PDF文档的信息和提取目标的具体描述
- 支持理由：详细的信息有助于选择合适的工具和方法。
- 反对声音：信息过于模糊，难以给出具体建议。
🔥 可以使用工具如camelot或TATR提取表格数据，然后输入到LLM中
- 正方观点：这些工具能够有效提取PDF中的表格数据。
- 反方观点：并非所有合规项目都在表格中，需要考虑其他部分。
💡 可以考虑使用BERT等NER模型，特别是如果合规项目适合模型的上下文
- 解释：NER模型在处理特定类型的数据时表现良好。

“😂 You need to give more information on what these PDFs look like and what you’re trying to extract from them. Your description is way too vague.”
- 亮点：强调了提供详细信息的重要性。
“🤔 Isn’t this just a reading comprehension test?”
- 亮点：将问题类比为阅读理解，引发对模型选择的思考。
“👀 Yes I have a custom dataset for this task. In fact I have got 9000+ rows of data for a model to be trained upon.”
- 亮点：展示了用户拥有大规模的训练数据集，为模型微调提供了基础。

讨论的总体情感倾向较为积极，用户和评论者都在寻求和提供解决方案。主要分歧点在于如何处理PDF文档中的数据，特别是表格数据和其他部分的合规项目。