原贴链接

https://huggingface.co/papers/2409.01704

讨论总结

本次讨论主要围绕OCR(光学字符识别)技术的发展和应用展开。评论者们分享了他们在不同OCR模型上的使用经验,特别是开源模型如minicpm和Marker在OCR和手写识别方面的表现。讨论中还涉及了对新发布的OCR模型的期待,认为这些新模型可能会与现有模型竞争,并有望在未来12-18个月内赶上商业模型的水平。此外,评论者对OCR技术的发展持乐观态度,并计划测试新模型。讨论中还涉及了对AI生成内容的讨论和敏感性问题。

主要观点

  1. 👍 OCR技术在法律和土地文档处理中表现出色
    • 支持理由:评论者分享了OCR技术在这些领域的实际应用效果。
    • 反对声音:无明显反对声音。
  2. 🔥 开源OCR模型如minicpm和Marker在OCR和手写识别方面表现良好
    • 正方观点:评论者认为这些开源模型在特定任务上表现出色。
    • 反方观点:有评论提到这些模型与商业前沿模型(如gpt4o, claude & gemeni)相比仍有差距。
  3. 💡 新发布的OCR模型看起来很有前景,可能会与现有模型竞争
    • 解释:评论者对新模型的性能和潜力表示期待。
  4. 🚀 开源OCR技术有望在未来12-18个月内赶上商业模型的水平
    • 解释:评论者对开源技术的发展持乐观态度。
  5. 🤖 评论中涉及了对AI生成内容的讨论和敏感性问题
    • 解释:讨论中提到了对AI生成内容的敏感性,以及对这些内容的处理方式。

金句与有趣评论

  1. “😂 Inevitable-Start-653:Omg okay so I’m very interested in ocr and image recognition.”
    • 亮点:表达了对OCR和图像识别技术的浓厚兴趣。
  2. “🤔 Johnroberts95000:Florence is the best open source OCR type one - it’s still significantly sub par vs the frontier models (gpt4o, claude & gemeni).”
    • 亮点:对比了开源模型与商业前沿模型的性能差距。
  3. “👀 Lissanro:Anyway, I checked their repository and they seem to have weights and necessary code available.”
    • 亮点:提到了对新模型代码和权重的检查,显示了对技术的实际关注。
  4. “🤯 Inevitable-Start-653:I hope this does not rub you the wrong way, but I think your sensitivity level for ai responses might be a lil too high.”
    • 亮点:讨论了AI生成内容的敏感性问题。
  5. “🙏 Inevitable-Start-653:I appreciate the apology.”
    • 亮点:表达了对他人道歉的接受和理解。

情感分析

讨论的总体情感倾向是积极的,评论者对OCR技术的发展持乐观态度,并对新模型的测试表现出浓厚兴趣。主要分歧点在于开源模型与商业模型之间的性能比较,以及对AI生成内容的敏感性问题。这些分歧可能源于对技术成熟度和应用场景的不同预期。

趋势与预测

  • 新兴话题:新发布的OCR模型可能会引发更多关于其性能和应用的讨论。
  • 潜在影响:开源OCR技术的发展可能会推动整个行业的进步,特别是在法律和土地文档处理等领域。

详细内容:

标题:关于通用 OCR 理论的热门讨论

近日,Reddit 上一则关于“General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model”的帖子引发了广泛关注。该帖子提供了相关链接:https://huggingface.co/papers/2409.01704 ,吸引了众多用户参与讨论,评论数众多。

讨论的焦点主要集中在不同 OCR 模型的性能比较以及对新模型的期待上。有人表示 GitHub 上可以测试相关模型,并对这一分享表示感谢,认为 OCR 对自己当前非常重要。有人将新模型与 Claude、GPT4o、Gemeni 等进行对比,提到专业版本在法律和土地文件处理方面表现出色,甚至能准确识别诸如“谁是授予人、受让人以及财产的法律描述是什么”等问题,并且在手写识别方面也做得很好,正在寻找具有可比质量的本地模型。

有人分享自己在 OCR 和图像识别方面的经验,称自己有几个在 GitHub 上的项目能让语言模型有效地获取视觉信息,还在筹备一个综合项目。其发现 minicpm 在 OCR 和手写方面表现出色,Marker 在一般的 OCR 中表现出色,nougat 位居第二。还对帖子中链接的新 OCR 模型充满期待,想知道它是否能与 Marker 一较高下,只是还没机会测试,但考虑将其与 Marker 结合以获得更强大的 OCR 能力。

还有人询问是否尝试过 Florence,得到的回复是 Florence 虽是最佳开源 OCR 类型之一,但仍明显不如前沿模型(如 gpt4o、claude 和 gemeni),不过随着技术进步,预计开源模型在 12 - 18 个月内会在光学方面赶上当前的前沿水平。

有人在查看关于该论文的评论时,发现用户们试图互相套取系统提示。也有人查看了相关的代码库https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tab=readme-ov-file#install ,发现权重和必要的代码都有提供,表示更好的 OCR 一直是自己所期望的,这个项目看起来很有潜力,计划很快尝试,并希望届时其他人也能尝试并分享反馈,以更清楚地了解其在实际任务中的表现。

OCR 技术的不断发展让人们充满期待,而对于新模型的实际效果和开源与前沿模型的差距,大家仍在持续关注和探讨。