原贴链接

大家好,

我需要一些关于从原始PDF文档中提取大型合规项目的指导。我有一个包含这些合规项目的CSV文件,我希望对一个大型语言模型(LLM)进行微调,以便当它读取任何新的PDF文档时,它能够首先识别合规项目并提取它们。

我见过LLM用于命名实体识别(NER),但这种任务更像是命名短语识别(NPR - 不知道是否有这样的缩写)。

所以我的问题是:

  1. 这能实现吗?
  2. 你们能指导我哪种模型更适合这项任务,以及使用什么分词器等等。

讨论总结

本次讨论主要集中在如何从PDF文档中提取大型合规项目。用户拥有一个包含这些合规项目的CSV文件,并希望微调一个大型语言模型(LLM),以便在阅读新的PDF文档时能够识别并提取这些合规项目。讨论中涉及了模型选择、数据处理和微调策略,以及如何处理PDF文档中的表格数据。

主要观点

  1. 👍 需要更多关于PDF文档的信息和提取目标的具体描述
    • 支持理由:详细的信息有助于选择合适的工具和方法。
    • 反对声音:信息过于模糊,难以给出具体建议。
  2. 🔥 可以使用工具如camelot或TATR提取表格数据,然后输入到LLM中
    • 正方观点:这些工具能够有效提取PDF中的表格数据。
    • 反方观点:并非所有合规项目都在表格中,需要考虑其他部分。
  3. 💡 可以考虑使用BERT等NER模型,特别是如果合规项目适合模型的上下文
    • 解释:NER模型在处理特定类型的数据时表现良好。

金句与有趣评论

  1. “😂 You need to give more information on what these PDFs look like and what you’re trying to extract from them. Your description is way too vague.”
    • 亮点:强调了提供详细信息的重要性。
  2. “🤔 Isn’t this just a reading comprehension test?”
    • 亮点:将问题类比为阅读理解,引发对模型选择的思考。
  3. “👀 Yes I have a custom dataset for this task. In fact I have got 9000+ rows of data for a model to be trained upon.”
    • 亮点:展示了用户拥有大规模的训练数据集,为模型微调提供了基础。

情感分析

讨论的总体情感倾向较为积极,用户和评论者都在寻求和提供解决方案。主要分歧点在于如何处理PDF文档中的数据,特别是表格数据和其他部分的合规项目。

趋势与预测

  • 新兴话题:如何更有效地处理PDF文档中的非表格数据。
  • 潜在影响:提高合规项目提取的准确性和效率,对相关领域的自动化处理有积极影响。