嗨,直接说重点,我认为当前光学字符识别(OCR)虽然准确但通用性很低。例如,我们无法针对以下情况进行扩展或通用化:
- 动态结构化输出(例如用户提供文档进行OCR,并告知要生成什么或者给出需要遵循的模式)
- 处理混合模态(表格+图像+文本)或者多语言性或者混合语言性
- 捕捉字体样式和排版等。
所以我想知道,你正在寻找什么样的文档智能用例或者以何种形式?我正在构建这样的文档智能来处理上述用例。然而有很多事情可以做,我不想陷入功能的死胡同。所以我在这里公开询问,你想要哪些用例以及你在日常生活中想如何使用它。以下是一些事情:
- 上传发票,然后你告知要提取什么以及如何提取,我为你提取。(如果你不添加任何模式,它只会进行常规解析)
- 理解混合文档,比如上传一个文档(如包含图像/表格/文本的PDF),我将给你解析后的文本/标记语言(或者任何你想要的格式),这样你就可以将其用于下游任务。
- 就像上面那样,但也对文档进行分块,你可以将其用于类似RAG的用例。
- 或者就在其之上添加多模态RAG能力。 我的目标是为文档解析和文档理解制作一个低成本/强大的通用解决方案。给我反馈建议吧,我想知道这个问题是否真的存在以及痛点在哪里。
讨论总结
原帖作者对当前OCR的通用性表示质疑,寻求下一代OCR使用VLM的实际需求反馈以打造通用解决方案。评论者观点多样,有人推荐Pix2Text项目,有人反对打造通用解决方案,认为应聚焦需求,还有人从不同角度阐述了OCR在文档处理、PC自动化、电路原理图解析等方面的需求,整体讨论氛围较为理性,大家各抒己见探讨OCR相关的各种问题。
主要观点
- 👍 推荐Pix2Text项目用于OCR相关需求
- 支持理由:可处理多种内容的OCR,结果为markdown格式,能存储图像且结果可用于RAG for llm目的。
- 反对声音:无
- 🔥 反对打造通用的文档解析和理解解决方案
- 正方观点:这样会缺乏独特性,和很多人做的一样,应更聚焦需求。
- 反方观点:原帖作者认为在应用层面考虑问题,打算提供微调服务而非创建新模型,认为有存在的必要性。
- 💡 通用解决方案在文档处理中效果不佳
- 解释:不同类型的文档适合不同的处理方式,针对具体使用案例的实现方式更优。
- 💡 PC自动化需要OCR理解环境并像用户一样阅读和遵循指令
- 解释:这是智能体能力的重要部分,有助于拓展到更多现实应用。
- 💡 解析电路原理图是OCR使用VLM的一个不错的需求方向
- 解释:图形类内容容易使VLM产生困惑,解析电路原理图有一定挑战性和需求性。
金句与有趣评论
- “😂 Look at this Pix2Text (https://github.com/breezedeus/Pix2Text) project, it handles ocr with text, tables and math formulas with results in markdown format, the images are also stored.”
- 亮点:直接推荐项目并简洁介绍项目功能。
- “🤔 然后你就会和其他100个做同样事情的人一样。”
- 亮点:形象地表达出反对打造通用解决方案的观点。
- “👀 Having been through this journey, the way things stand a one size fits all wont work well.”
- 亮点:以自身经历出发说明通用解决方案在文档处理中的弊端。
- “😎 PC automation. It needs to understand its environment and it needs to be able to read and follow instructions like a user would.”
- 亮点:明确阐述PC自动化对OCR的需求。
- “💡 Sudden - Lingonberry - 8:If you can parse Circuit schematics, that would be nice.”
- 亮点:提出OCR在解析电路原理图方面的需求。
情感分析
总体情感倾向较为中性客观。主要分歧点在于是否应打造通用的OCR解决方案,一方认为通用方案缺乏独特性且效果不佳,另一方则从应用层面考虑有打造通用方案的需求。可能的原因是大家所处的角度不同,前者更多从市场竞争和效率角度出发,后者则更多从应用的广泛适用性角度考虑。
趋势与预测
- 新兴话题:对特定类型文档(如电路原理图)的OCR处理需求。
- 潜在影响:推动OCR技术朝着更精准处理特定内容、更符合实际应用需求的方向发展,对文档处理、自动化等相关领域产生积极影响。
详细内容:
标题:下一代 OCR 结合 VLMs 的实际需求究竟在何处?
在 Reddit 上,一篇关于下一代 OCR(光学字符识别)使用 VLMs(大型语言模型)的帖子引发了热烈讨论。该帖子指出当前 OCR 虽准确但通用性不足,比如无法应对动态结构化输出、处理混合模态及多种语言,也难以捕捉字体样式和位置等。作者还列举了一些可能的应用场景,如上传发票按需提取、理解混合文档并提供不同格式输出、为文档做分块用于 RAG 等,并表示目标是打造便宜且强大的通用文档解析和理解解决方案,希望获得大家的反馈。此贴获得了较高的关注度,评论众多。
讨论的焦点主要集中在以下几个方面: 有人提到了 Pix2Text 项目,认为其能处理包含文本、表格和数学公式的 OCR,并以 Markdown 格式输出结果,可用于 LLM 目的。 有人认为不应追求大而全的解决方案,应根据具体使用场景进行聚焦。比如,纯文本文档、发票、操作手册等都有不同的优化方式,特定使用场景的实现总会优于通用的宽泛方案。 有人提出在 PC 自动化方面的需求,认为其需要理解环境、读取并遵循指令,比如在手机上,当前的谷歌助手已具备一定能力,但仍不够完美,随着时间推移有望看到更完善的方案。 还有人提到若能解析电路原理图会很不错,并给出了相关链接和示例,指出当前 VLM 在处理复杂电路图时存在的问题。
在讨论中,有人认为现有的一些技术已能实现部分功能,如 paddle-ocr 能输出 html/latex,但主要的独特卖点在于最终产品而非单纯的 OCR。同时,也有人对能否处理格式不佳的表格等提出了疑问。
总之,对于下一代 OCR 结合 VLMs 的需求和应用场景,大家观点各异,但都为这个话题提供了丰富的思考角度。是追求通用解决方案还是专注特定场景?如何提升现有技术在复杂任务中的表现?这些问题仍有待进一步探讨和实践。
感谢您的耐心阅读!来选个表情,或者留个评论吧!