嗨，直接说重点，我认为当前光学字符识别（OCR）虽然准确但通用性很低。例如，我们无法针对以下情况进行扩展或通用化：

动态结构化输出（例如用户提供文档进行OCR，并告知要生成什么或者给出需要遵循的模式）
处理混合模态（表格+图像+文本）或者多语言性或者混合语言性
捕捉字体样式和排版等。

所以我想知道，你正在寻找什么样的文档智能用例或者以何种形式？我正在构建这样的文档智能来处理上述用例。然而有很多事情可以做，我不想陷入功能的死胡同。所以我在这里公开询问，你想要哪些用例以及你在日常生活中想如何使用它。以下是一些事情：

上传发票，然后你告知要提取什么以及如何提取，我为你提取。（如果你不添加任何模式，它只会进行常规解析）
理解混合文档，比如上传一个文档（如包含图像/表格/文本的PDF），我将给你解析后的文本/标记语言（或者任何你想要的格式），这样你就可以将其用于下游任务。
就像上面那样，但也对文档进行分块，你可以将其用于类似RAG的用例。
或者就在其之上添加多模态RAG能力。我的目标是为文档解析和文档理解制作一个低成本/强大的通用解决方案。给我反馈建议吧，我想知道这个问题是否真的存在以及痛点在哪里。

讨论总结

原帖作者对当前OCR的通用性表示质疑，寻求下一代OCR使用VLM的实际需求反馈以打造通用解决方案。评论者观点多样，有人推荐Pix2Text项目，有人反对打造通用解决方案，认为应聚焦需求，还有人从不同角度阐述了OCR在文档处理、PC自动化、电路原理图解析等方面的需求，整体讨论氛围较为理性，大家各抒己见探讨OCR相关的各种问题。

主要观点

👍 推荐Pix2Text项目用于OCR相关需求
- 支持理由：可处理多种内容的OCR，结果为markdown格式，能存储图像且结果可用于RAG for llm目的。
- 反对声音：无
🔥 反对打造通用的文档解析和理解解决方案
- 正方观点：这样会缺乏独特性，和很多人做的一样，应更聚焦需求。
- 反方观点：原帖作者认为在应用层面考虑问题，打算提供微调服务而非创建新模型，认为有存在的必要性。
💡 通用解决方案在文档处理中效果不佳
- 解释：不同类型的文档适合不同的处理方式，针对具体使用案例的实现方式更优。
💡 PC自动化需要OCR理解环境并像用户一样阅读和遵循指令
- 解释：这是智能体能力的重要部分，有助于拓展到更多现实应用。
💡 解析电路原理图是OCR使用VLM的一个不错的需求方向
- 解释：图形类内容容易使VLM产生困惑，解析电路原理图有一定挑战性和需求性。

金句与有趣评论

“😂 Look at this Pix2Text (https://github.com/breezedeus/Pix2Text) project, it handles ocr with text, tables and math formulas with results in markdown format, the images are also stored.”
- 亮点：直接推荐项目并简洁介绍项目功能。
“🤔 然后你就会和其他100个做同样事情的人一样。”
- 亮点：形象地表达出反对打造通用解决方案的观点。
“👀 Having been through this journey, the way things stand a one size fits all wont work well.”
- 亮点：以自身经历出发说明通用解决方案在文档处理中的弊端。
“😎 PC automation. It needs to understand its environment and it needs to be able to read and follow instructions like a user would.”
- 亮点：明确阐述PC自动化对OCR的需求。
“💡 Sudden - Lingonberry - 8：If you can parse Circuit schematics, that would be nice.”
- 亮点：提出OCR在解析电路原理图方面的需求。

情感分析

总体情感倾向较为中性客观。主要分歧点在于是否应打造通用的OCR解决方案，一方认为通用方案缺乏独特性且效果不佳，另一方则从应用层面考虑有打造通用方案的需求。可能的原因是大家所处的角度不同，前者更多从市场竞争和效率角度出发，后者则更多从应用的广泛适用性角度考虑。

趋势与预测

新兴话题：对特定类型文档（如电路原理图）的OCR处理需求。
潜在影响：推动OCR技术朝着更精准处理特定内容、更符合实际应用需求的方向发展，对文档处理、自动化等相关领域产生积极影响。

详细内容：

标题：下一代 OCR 结合 VLMs 的实际需求究竟在何处？

在 Reddit 上，一篇关于下一代 OCR（光学字符识别）使用 VLMs（大型语言模型）的帖子引发了热烈讨论。该帖子指出当前 OCR 虽准确但通用性不足，比如无法应对动态结构化输出、处理混合模态及多种语言，也难以捕捉字体样式和位置等。作者还列举了一些可能的应用场景，如上传发票按需提取、理解混合文档并提供不同格式输出、为文档做分块用于 RAG 等，并表示目标是打造便宜且强大的通用文档解析和理解解决方案，希望获得大家的反馈。此贴获得了较高的关注度，评论众多。

讨论的焦点主要集中在以下几个方面：有人提到了 Pix2Text 项目，认为其能处理包含文本、表格和数学公式的 OCR，并以 Markdown 格式输出结果，可用于 LLM 目的。有人认为不应追求大而全的解决方案，应根据具体使用场景进行聚焦。比如，纯文本文档、发票、操作手册等都有不同的优化方式，特定使用场景的实现总会优于通用的宽泛方案。有人提出在 PC 自动化方面的需求，认为其需要理解环境、读取并遵循指令，比如在手机上，当前的谷歌助手已具备一定能力，但仍不够完美，随着时间推移有望看到更完善的方案。还有人提到若能解析电路原理图会很不错，并给出了相关链接和示例，指出当前 VLM 在处理复杂电路图时存在的问题。

在讨论中，有人认为现有的一些技术已能实现部分功能，如 paddle-ocr 能输出 html/latex，但主要的独特卖点在于最终产品而非单纯的 OCR。同时，也有人对能否处理格式不佳的表格等提出了疑问。

总之，对于下一代 OCR 结合 VLMs 的需求和应用场景，大家观点各异，但都为这个话题提供了丰富的思考角度。是追求通用解决方案还是专注特定场景？如何提升现有技术在复杂任务中的表现？这些问题仍有待进一步探讨和实践。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#