原贴链接

我完全是大语言模型/人工智能领域的新手。据我所知,它们是用于文本输入和输出的,如果训练数据中有图像和注释,那么它们是如何比专用技术更好的呢?我们真的能弄清楚大语言模型内部的光学字符识别(OCR)是如何工作的吗?还是这又是一个黑箱问题?

讨论总结

该讨论围绕LLMs在OCR方面表现优于专用OCR解决方案这一现象展开。参与者从不同角度分析了LLMs和OCR的工作原理、性能差异等,如LLMs的抽象知识能力、OCR的字符级评估方式,既有对LLMs在OCR方面优势的阐述,也有对专用OCR技术优势的强调,整体讨论氛围较为理性。

主要观点

  1. 👍 经典OCR可靠,试图得到每个字符的最佳匹配
    • 支持理由:未提及
    • 反对声音:无
  2. 🔥 LLMs能更好地抽象知识并将其与构建的世界表征相联系
    • 正方观点:多模态LLMs能将文本训练中的知识用于图像相关处理,而OCR模型做不到
    • 反方观点:无
  3. 💡 LLMs在处理文字密集的文档图像时会产生无根据的结果
    • 支持理由:评论者自己的测试经历
    • 反对声音:无
  4. 💡 专用OCR技术如PaddleOCR性能优于LLMs
    • 支持理由:在测试中,PaddleOCR表现更好,所需功率更低且能提供更多信息,易于微调
    • 反对声音:无
  5. 💡 LLMs在OCR方面表现好可能是训练数据更多
    • 支持理由:专门的OCR模型训练所需的高质量数据集有限,而LLMs多模态训练素材来源广泛
    • 反对声音:无

金句与有趣评论

  1. “😂 Classic OCR is good and especially reliable. It attempts to get the best possible fit per character, not to transcribe what’s likely written on the page.”
    • 亮点:明确指出经典OCR的优势和特点,即注重字符匹配而非页面内容转录。
  2. “🤔 Don’t use LLMs for OCR. They will look convincing in your tests, but on real tasks they will hallucinate a lot.”
    • 亮点:提醒人们不要单独使用LLMs进行OCR,因为实际任务中会出现很多问题。
  3. “👀 yeah, gemini 1206 deciphered the handwriting I couldn’t!”
    • 亮点:以实例表明LLMs在OCR方面有令人惊讶的表现。
  4. “🤔 Because they can abstract better and also connect the knowledge with their representation of the world they built from the text training.”
    • 亮点:解释了LLMs在OCR方面表现好的一种可能原因。
  5. “😂 OCR works on character - level evaluation of input data, and transformers take a statistical approach.”
    • 亮点:简洁地阐述了OCR和变形器(LLMs相关)的工作方式差异。

情感分析

总体情感倾向为理性探讨,没有明显的情感偏向。主要分歧点在于LLMs和专用OCR技术在OCR任务中的表现孰优孰劣。可能的原因是不同的测试环境、数据来源以及对两者工作原理的不同理解。

趋势与预测

  • 新兴话题:LLMs和OCR技术结合使用的更多探索。
  • 潜在影响:对OCR相关应用领域如文档处理、图像识别等的技术选择和优化产生影响。

详细内容:

《关于某些语言模型在 OCR 表现出色而专用 OCR 解决方案却表现不佳的热门讨论》

在 Reddit 上,一个题为“ How are some LLMs so good at OCR while on the other hand dedicated OCR solutions can’t outperform them ”的帖子引发了广泛关注,获得了众多点赞和大量评论。该帖子主要探讨了在 LLM/AI 领域中,作为新手所产生的困惑:为何语言模型(LLMs)在 OCR 任务上表现出色,而传统的专用 OCR 解决方案却无法超越它们,并且能否解析 LLMs 内部 OCR 工作的原理,还是这又是一个难以理解的黑箱问题。

讨论的焦点和观点众多。有人认为经典的 OCR 技术良好且特别可靠,它致力于使每个字符达到最佳拟合,而不是转录页面上可能的内容。LLM 的“OCR”则通过使用图像嵌入工作,不会直接转录页面上的内容,而是将每个输入(包括图像和文本)转换为其内容的高维表示。但也有人指出这种描述过程存在技术上的不准确,现代的自回归 LLMs 通常使用解码器仅架构,并非创建单个高维嵌入。

有人分享个人经历称,使用 LLM 从财务报表中提取文本并交叉检查每个值,准确率达到 90 - 95%,几乎没有幻觉。还有人表示用 OpenAI 的 GPT - 4o 进行文本提取并与 tesseract、textract 比较,LLM 胜出,推测是因为提示它直接提取信息并使用上下文填充难以读取的文本。

一些有趣或引发思考的观点包括:有人认为使用 LLM 进行 OCR 就像让一个有阅读障碍的人转录文件,会出现数字交换、单词替换等问题;也有人认为因为 LLMs 能够更好地抽象,并将知识与从文本训练中构建的世界表示相连接,所以在 OCR 上表现出色;还有人猜测 LLMs 可能只是在更多数据上进行了训练。

讨论中既有认为专用 OCR 技术如 PaddleOCR 表现更好、所需功率更低且提供更多信息的观点,也有认为可以先使用专用 OCR 然后用 LLM 清理的观点。这场讨论充分展示了人们对于 LLMs 在 OCR 任务中表现的不同看法和思考。

那么,在实际应用中,到底是应该依赖专用的 OCR 技术,还是选择利用 LLMs 的优势?这是值得我们进一步深入探讨的问题。