原贴链接

是否有办法能100%准确地从包含资产负债表和表格的金融PDF中提取表格数据?我尝试了pytesseract、camelot、tabula、微软表格转换器,但都无法准确地处理表头和空列。我甚至尝试了OpenAI的助手API并以代码解释器为工具,但准确性仍然不足。有人尝试过解决这个问题吗?

讨论总结

原帖作者寻求从金融PDF中100%准确提取表格数据(如资产负债表等表格)的方法,试过多种工具效果不佳。评论者们积极回应,推荐了诸如IBM的Docling、Surya、ExtractThinker等工具或库,还有人提出了不同的解决方法如基于硬件的选项、将PDF转换为markdown等,大家的态度都比较积极,旨在帮助原帖作者解决问题。

主要观点

  1. 👍 推荐使用IBM的Docling解决从金融PDF提取表格数据的问题
    • 支持理由:有评论者推荐且提到该工具免费,可能需一点计算能力。
    • 反对声音:无
  2. 🔥 存在一个名为ExtractThinker的库可解决从金融PDF提取表格数据问题
    • 正方观点:有专门针对多种库的文档加载器,可利用视觉功能避免结构问题,适用于开源模型。
    • 反方观点:无
  3. 💡 MS Document Intelligence在金融PDF表格提取方面表现较好
    • 支持理由:在处理财务报表方面表现“相当不错”,单词识别质量高,有边界框可供操作等。
    • 反对声音:偶尔存在合并列、表格格式错误的情况。
  4. 💡 纯Python方案中PaddleOCR和PyMuPDF组合效果较好但PaddleOCR设置麻烦
    • 支持理由:评论者使用该组合取得较好结果。
    • 反对声音:PaddleOCR设置起来麻烦。
  5. 💡 将PDF转换为markdown可让LLMs理解语法获取上下文有助于表格数据提取
    • 支持理由:评论者自己通过这种方式取得成功,LLMs能更好获取上下文。
    • 反对声音:有用户提出转换为markdown也不准确。

金句与有趣评论

  1. “😂 Try IBM’s Docling.”
    • 亮点:这是一个简洁直接的推荐,可能是较为容易尝试的解决方案。
  2. “🤔 Not to promote here, but i have a library just dedicated to solve this problem, called ExtractThinker
    • 亮点:评论者虽然表示不是为了推广,但提供了一个专门针对该问题的库。
  3. “👀 MS Document Intelligence is "pretty good" at financial statements in PDFs.”
    • 亮点:直接点明一个工具在处理金融PDF表格提取方面的效果。
  4. “😎 I use PaddleOCR and PyMuPDF combination to get the best results.”
    • 亮点:分享了个人使用后有效的组合方法。
  5. “💡 I have always been successful by first converting them to markdown.”
    • 亮点:分享自己成功的经验,为他人提供新思路。

情感分析

总体情感倾向是积极的,大家都在积极提供建议帮助原帖作者解决从金融PDF中提取表格数据的问题,没有明显的分歧点,原因是这是一个寻求解决方案的话题,大家都抱着提供帮助的态度参与讨论。

趋势与预测

  • 新兴话题:可能会有更多人尝试评论中推荐的工具和方法并反馈效果,或者将不同方法进行组合尝试。
  • 潜在影响:如果真的找到一种100%准确提取金融PDF表格数据的方法,对于金融数据处理领域的效率会有很大提升。

详细内容:

《从金融 PDF 中提取表格的热门讨论》

在 Reddit 上,有一个备受关注的帖子探讨了从金融 PDF 中准确提取表格数据的难题。该帖子获得了众多点赞和大量评论。原帖作者表示尝试了 pytesseract、camelot、tabula、Microsoft table transformer 以及 OpenAI 的助手 API 和代码解释器等方法,但都无法实现准确提取,包括正确的表头和处理空列等问题。这个帖子引发了大家对各种解决方案的热烈讨论。

在讨论中,观点丰富多样。有人推荐尝试 IBM 的 Docling,称其免费但可能需要一定的计算能力;有人认为Surya 是个不错的选择,或者像另一位评论者建议的 Docling

有用户提到自己有一个专门解决此问题的库叫 ExtractThinker,可以处理文中描述的各种文档加载器,并利用视觉功能避免结构问题。还有用户询问是否适用于开源模型,得到了肯定的答复。

有人表示根据硬件条件有几种选择。纯 Python 方面,组合使用 PaddleOCR 和 PyMuPDF 效果不错,尽管设置较麻烦;若有 GPU 可用 InternVL 这种视觉模型。

也有人称过去一年半使用 opencv、tesseract 和 sklearn 处理.pdf 进行机器学习,或许可以根据需求进行调整。

另外,有人提到 MS Document Intelligence 在处理金融 PDF 中的财务报表时“相当不错”,还提到了 2024 - 07 - 31 - preview 版本的 API。

对于是否对 PDF 进行预处理,有用户通过先将其转换为 markdown 取得了成功,还有用户尝试后认为不够准确。

总之,大家各抒己见,分享了众多不同的解决方案和经验。但目前尚未形成统一的最佳方案,仍在不断探索和交流中。