原贴链接

是否有办法能100%准确地从包含资产负债表和表格的金融PDF中提取表格数据？我尝试了pytesseract、camelot、tabula、微软表格转换器，但都无法准确地处理表头和空列。我甚至尝试了OpenAI的助手API并以代码解释器为工具，但准确性仍然不足。有人尝试过解决这个问题吗？

讨论总结

原帖作者寻求从金融PDF中100%准确提取表格数据（如资产负债表等表格）的方法，试过多种工具效果不佳。评论者们积极回应，推荐了诸如IBM的Docling、Surya、ExtractThinker等工具或库，还有人提出了不同的解决方法如基于硬件的选项、将PDF转换为markdown等，大家的态度都比较积极，旨在帮助原帖作者解决问题。

主要观点

👍 推荐使用IBM的Docling解决从金融PDF提取表格数据的问题
- 支持理由：有评论者推荐且提到该工具免费，可能需一点计算能力。
- 反对声音：无
🔥 存在一个名为ExtractThinker的库可解决从金融PDF提取表格数据问题
- 正方观点：有专门针对多种库的文档加载器，可利用视觉功能避免结构问题，适用于开源模型。
- 反方观点：无
💡 MS Document Intelligence在金融PDF表格提取方面表现较好
- 支持理由：在处理财务报表方面表现“相当不错”，单词识别质量高，有边界框可供操作等。
- 反对声音：偶尔存在合并列、表格格式错误的情况。
💡 纯Python方案中PaddleOCR和PyMuPDF组合效果较好但PaddleOCR设置麻烦
- 支持理由：评论者使用该组合取得较好结果。
- 反对声音：PaddleOCR设置起来麻烦。
💡 将PDF转换为markdown可让LLMs理解语法获取上下文有助于表格数据提取
- 支持理由：评论者自己通过这种方式取得成功，LLMs能更好获取上下文。
- 反对声音：有用户提出转换为markdown也不准确。

金句与有趣评论

“😂 Try IBM’s Docling.”
- 亮点：这是一个简洁直接的推荐，可能是较为容易尝试的解决方案。
“🤔 Not to promote here, but i have a library just dedicated to solve this problem, called ExtractThinker”
- 亮点：评论者虽然表示不是为了推广，但提供了一个专门针对该问题的库。
“👀 MS Document Intelligence is "pretty good" at financial statements in PDFs.”
- 亮点：直接点明一个工具在处理金融PDF表格提取方面的效果。
“😎 I use PaddleOCR and PyMuPDF combination to get the best results.”
- 亮点：分享了个人使用后有效的组合方法。
“💡 I have always been successful by first converting them to markdown.”
- 亮点：分享自己成功的经验，为他人提供新思路。

情感分析

总体情感倾向是积极的，大家都在积极提供建议帮助原帖作者解决从金融PDF中提取表格数据的问题，没有明显的分歧点，原因是这是一个寻求解决方案的话题，大家都抱着提供帮助的态度参与讨论。

趋势与预测

新兴话题：可能会有更多人尝试评论中推荐的工具和方法并反馈效果，或者将不同方法进行组合尝试。
潜在影响：如果真的找到一种100%准确提取金融PDF表格数据的方法，对于金融数据处理领域的效率会有很大提升。

详细内容：

《从金融 PDF 中提取表格的热门讨论》

在 Reddit 上，有一个备受关注的帖子探讨了从金融 PDF 中准确提取表格数据的难题。该帖子获得了众多点赞和大量评论。原帖作者表示尝试了 pytesseract、camelot、tabula、Microsoft table transformer 以及 OpenAI 的助手 API 和代码解释器等方法，但都无法实现准确提取，包括正确的表头和处理空列等问题。这个帖子引发了大家对各种解决方案的热烈讨论。

在讨论中，观点丰富多样。有人推荐尝试 IBM 的 Docling，称其免费但可能需要一定的计算能力；有人认为Surya 是个不错的选择，或者像另一位评论者建议的 Docling。

有用户提到自己有一个专门解决此问题的库叫 ExtractThinker，可以处理文中描述的各种文档加载器，并利用视觉功能避免结构问题。还有用户询问是否适用于开源模型，得到了肯定的答复。

有人表示根据硬件条件有几种选择。纯 Python 方面，组合使用 PaddleOCR 和 PyMuPDF 效果不错，尽管设置较麻烦；若有 GPU 可用 InternVL 这种视觉模型。

也有人称过去一年半使用 opencv、tesseract 和 sklearn 处理.pdf 进行机器学习，或许可以根据需求进行调整。

另外，有人提到 MS Document Intelligence 在处理金融 PDF 中的财务报表时“相当不错”，还提到了 2024 - 07 - 31 - preview 版本的 API。

对于是否对 PDF 进行预处理，有用户通过先将其转换为 markdown 取得了成功，还有用户尝试后认为不够准确。

总之，大家各抒己见，分享了众多不同的解决方案和经验。但目前尚未形成统一的最佳方案，仍在不断探索和交流中。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#