我完全是大语言模型/人工智能领域的新手。据我所知,它们是用于文本输入和输出的,如果训练数据中有图像和注释,那么它们是如何比专用技术更好的呢?我们真的能弄清楚大语言模型内部的光学字符识别(OCR)是如何工作的吗?还是这又是一个黑箱问题?
讨论总结
该讨论围绕LLMs在OCR方面表现优于专用OCR解决方案这一现象展开。参与者从不同角度分析了LLMs和OCR的工作原理、性能差异等,如LLMs的抽象知识能力、OCR的字符级评估方式,既有对LLMs在OCR方面优势的阐述,也有对专用OCR技术优势的强调,整体讨论氛围较为理性。
主要观点
- 👍 经典OCR可靠,试图得到每个字符的最佳匹配
- 支持理由:未提及
- 反对声音:无
- 🔥 LLMs能更好地抽象知识并将其与构建的世界表征相联系
- 正方观点:多模态LLMs能将文本训练中的知识用于图像相关处理,而OCR模型做不到
- 反方观点:无
- 💡 LLMs在处理文字密集的文档图像时会产生无根据的结果
- 支持理由:评论者自己的测试经历
- 反对声音:无
- 💡 专用OCR技术如PaddleOCR性能优于LLMs
- 支持理由:在测试中,PaddleOCR表现更好,所需功率更低且能提供更多信息,易于微调
- 反对声音:无
- 💡 LLMs在OCR方面表现好可能是训练数据更多
- 支持理由:专门的OCR模型训练所需的高质量数据集有限,而LLMs多模态训练素材来源广泛
- 反对声音:无
金句与有趣评论
- “😂 Classic OCR is good and especially reliable. It attempts to get the best possible fit per character, not to transcribe what’s likely written on the page.”
- 亮点:明确指出经典OCR的优势和特点,即注重字符匹配而非页面内容转录。
- “🤔 Don’t use LLMs for OCR. They will look convincing in your tests, but on real tasks they will hallucinate a lot.”
- 亮点:提醒人们不要单独使用LLMs进行OCR,因为实际任务中会出现很多问题。
- “👀 yeah, gemini 1206 deciphered the handwriting I couldn’t!”
- 亮点:以实例表明LLMs在OCR方面有令人惊讶的表现。
- “🤔 Because they can abstract better and also connect the knowledge with their representation of the world they built from the text training.”
- 亮点:解释了LLMs在OCR方面表现好的一种可能原因。
- “😂 OCR works on character - level evaluation of input data, and transformers take a statistical approach.”
- 亮点:简洁地阐述了OCR和变形器(LLMs相关)的工作方式差异。
情感分析
总体情感倾向为理性探讨,没有明显的情感偏向。主要分歧点在于LLMs和专用OCR技术在OCR任务中的表现孰优孰劣。可能的原因是不同的测试环境、数据来源以及对两者工作原理的不同理解。
趋势与预测
- 新兴话题:LLMs和OCR技术结合使用的更多探索。
- 潜在影响:对OCR相关应用领域如文档处理、图像识别等的技术选择和优化产生影响。
详细内容:
《关于某些语言模型在 OCR 表现出色而专用 OCR 解决方案却表现不佳的热门讨论》
在 Reddit 上,一个题为“ How are some LLMs so good at OCR while on the other hand dedicated OCR solutions can’t outperform them ”的帖子引发了广泛关注,获得了众多点赞和大量评论。该帖子主要探讨了在 LLM/AI 领域中,作为新手所产生的困惑:为何语言模型(LLMs)在 OCR 任务上表现出色,而传统的专用 OCR 解决方案却无法超越它们,并且能否解析 LLMs 内部 OCR 工作的原理,还是这又是一个难以理解的黑箱问题。
讨论的焦点和观点众多。有人认为经典的 OCR 技术良好且特别可靠,它致力于使每个字符达到最佳拟合,而不是转录页面上可能的内容。LLM 的“OCR”则通过使用图像嵌入工作,不会直接转录页面上的内容,而是将每个输入(包括图像和文本)转换为其内容的高维表示。但也有人指出这种描述过程存在技术上的不准确,现代的自回归 LLMs 通常使用解码器仅架构,并非创建单个高维嵌入。
有人分享个人经历称,使用 LLM 从财务报表中提取文本并交叉检查每个值,准确率达到 90 - 95%,几乎没有幻觉。还有人表示用 OpenAI 的 GPT - 4o 进行文本提取并与 tesseract、textract 比较,LLM 胜出,推测是因为提示它直接提取信息并使用上下文填充难以读取的文本。
一些有趣或引发思考的观点包括:有人认为使用 LLM 进行 OCR 就像让一个有阅读障碍的人转录文件,会出现数字交换、单词替换等问题;也有人认为因为 LLMs 能够更好地抽象,并将知识与从文本训练中构建的世界表示相连接,所以在 OCR 上表现出色;还有人猜测 LLMs 可能只是在更多数据上进行了训练。
讨论中既有认为专用 OCR 技术如 PaddleOCR 表现更好、所需功率更低且提供更多信息的观点,也有认为可以先使用专用 OCR 然后用 LLM 清理的观点。这场讨论充分展示了人们对于 LLMs 在 OCR 任务中表现的不同看法和思考。
那么,在实际应用中,到底是应该依赖专用的 OCR 技术,还是选择利用 LLMs 的优势?这是值得我们进一步深入探讨的问题。
感谢您的耐心阅读!来选个表情,或者留个评论吧!