我完全是大语言模型/人工智能领域的新手。据我所知，它们是用于文本输入和输出的，如果训练数据中有图像和注释，那么它们是如何比专用技术更好的呢？我们真的能弄清楚大语言模型内部的光学字符识别（OCR）是如何工作的吗？还是这又是一个黑箱问题？

讨论总结

该讨论围绕LLMs在OCR方面表现优于专用OCR解决方案这一现象展开。参与者从不同角度分析了LLMs和OCR的工作原理、性能差异等，如LLMs的抽象知识能力、OCR的字符级评估方式，既有对LLMs在OCR方面优势的阐述，也有对专用OCR技术优势的强调，整体讨论氛围较为理性。

主要观点

👍 经典OCR可靠，试图得到每个字符的最佳匹配
- 支持理由：未提及
- 反对声音：无
🔥 LLMs能更好地抽象知识并将其与构建的世界表征相联系
- 正方观点：多模态LLMs能将文本训练中的知识用于图像相关处理，而OCR模型做不到
- 反方观点：无
💡 LLMs在处理文字密集的文档图像时会产生无根据的结果
- 支持理由：评论者自己的测试经历
- 反对声音：无
💡 专用OCR技术如PaddleOCR性能优于LLMs
- 支持理由：在测试中，PaddleOCR表现更好，所需功率更低且能提供更多信息，易于微调
- 反对声音：无
💡 LLMs在OCR方面表现好可能是训练数据更多
- 支持理由：专门的OCR模型训练所需的高质量数据集有限，而LLMs多模态训练素材来源广泛
- 反对声音：无

金句与有趣评论

“😂 Classic OCR is good and especially reliable. It attempts to get the best possible fit per character, not to transcribe what’s likely written on the page.”
- 亮点：明确指出经典OCR的优势和特点，即注重字符匹配而非页面内容转录。
“🤔 Don’t use LLMs for OCR. They will look convincing in your tests, but on real tasks they will hallucinate a lot.”
- 亮点：提醒人们不要单独使用LLMs进行OCR，因为实际任务中会出现很多问题。
“👀 yeah, gemini 1206 deciphered the handwriting I couldn’t!”
- 亮点：以实例表明LLMs在OCR方面有令人惊讶的表现。
“🤔 Because they can abstract better and also connect the knowledge with their representation of the world they built from the text training.”
- 亮点：解释了LLMs在OCR方面表现好的一种可能原因。
“😂 OCR works on character - level evaluation of input data, and transformers take a statistical approach.”
- 亮点：简洁地阐述了OCR和变形器（LLMs相关）的工作方式差异。

情感分析

总体情感倾向为理性探讨，没有明显的情感偏向。主要分歧点在于LLMs和专用OCR技术在OCR任务中的表现孰优孰劣。可能的原因是不同的测试环境、数据来源以及对两者工作原理的不同理解。

趋势与预测

新兴话题：LLMs和OCR技术结合使用的更多探索。
潜在影响：对OCR相关应用领域如文档处理、图像识别等的技术选择和优化产生影响。

详细内容：

《关于某些语言模型在 OCR 表现出色而专用 OCR 解决方案却表现不佳的热门讨论》

在 Reddit 上，一个题为“ How are some LLMs so good at OCR while on the other hand dedicated OCR solutions can’t outperform them ”的帖子引发了广泛关注，获得了众多点赞和大量评论。该帖子主要探讨了在 LLM/AI 领域中，作为新手所产生的困惑：为何语言模型（LLMs）在 OCR 任务上表现出色，而传统的专用 OCR 解决方案却无法超越它们，并且能否解析 LLMs 内部 OCR 工作的原理，还是这又是一个难以理解的黑箱问题。

讨论的焦点和观点众多。有人认为经典的 OCR 技术良好且特别可靠，它致力于使每个字符达到最佳拟合，而不是转录页面上可能的内容。LLM 的“OCR”则通过使用图像嵌入工作，不会直接转录页面上的内容，而是将每个输入（包括图像和文本）转换为其内容的高维表示。但也有人指出这种描述过程存在技术上的不准确，现代的自回归 LLMs 通常使用解码器仅架构，并非创建单个高维嵌入。

有人分享个人经历称，使用 LLM 从财务报表中提取文本并交叉检查每个值，准确率达到 90 - 95%，几乎没有幻觉。还有人表示用 OpenAI 的 GPT - 4o 进行文本提取并与 tesseract、textract 比较，LLM 胜出，推测是因为提示它直接提取信息并使用上下文填充难以读取的文本。

一些有趣或引发思考的观点包括：有人认为使用 LLM 进行 OCR 就像让一个有阅读障碍的人转录文件，会出现数字交换、单词替换等问题；也有人认为因为 LLMs 能够更好地抽象，并将知识与从文本训练中构建的世界表示相连接，所以在 OCR 上表现出色；还有人猜测 LLMs 可能只是在更多数据上进行了训练。

讨论中既有认为专用 OCR 技术如 PaddleOCR 表现更好、所需功率更低且提供更多信息的观点，也有认为可以先使用专用 OCR 然后用 LLM 清理的观点。这场讨论充分展示了人们对于 LLMs 在 OCR 任务中表现的不同看法和思考。

那么，在实际应用中，到底是应该依赖专用的 OCR 技术，还是选择利用 LLMs 的优势？这是值得我们进一步深入探讨的问题。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#