最佳OCR

目前你们最好的OCR工具是什么？像easyocr或tesseract这样的工具现在还有用吗？现在有了一些vllm？我想如果它在显示的PDF结构上进行了微调，后者效果最好。我说的对吗？

本次讨论主要围绕当前最佳的OCR工具展开，涵盖了PaddleOCR、RapidOCR、多模态LLM等多种工具。讨论中涉及了工具的性能比较、适用平台（如AMD、GPU无关性）、成本效率、以及在特定任务中的表现（如字母级别和单词级别识别）。整体氛围偏向技术探讨，用户们分享了各自的使用经验和技术见解。

👍 PaddleOCR是目前最有效的OCR引擎
- 支持理由：被多个评论者推荐，认为其在CPU上也能良好运行。
- 反对声音：PaddlePaddle-GPU存在CUDA版本兼容性问题。
🔥 多模态LLM在OCR领域的应用
- 正方观点：Microsoft的多模态LLM在OCR领域表现出色，但使用困难。
- 反方观点：LLMs在OCR领域的性能并不优于传统系统，且成本和速度问题。
💡 RapidOCR是PaddleOCR的“更好”实现
- 支持理由：适用于AMD平台，无需CUDA支持，具有GPU无关性。
👀 InternVL2是目前最先进的OCR工具
- 支持理由：性能超越GPT4o和Claude 1.5，达到了人类水平的表现。
🌟 DocTR作为开源OCR工具值得推荐
- 支持理由：在性能和成本效率方面表现出色。

“😂 At the moment PaddleOCR is by far the most efficient OCR engine available.”
- 亮点：强调了PaddleOCR的高效性。
“🤔 Microsoft released an excellent multimodal LLM specially for OCR, but it’s incredibly painful to get working and even harder to use for application development.”
- 亮点：指出了多模态LLM在OCR领域的强大功能与使用难度。
“👀 InternVL2, it is SOTA and beats GPT4o and Claude 1.5. Human level performance on DocVQA.”
- 亮点：展示了InternVL2的先进性能。

讨论总体情感倾向偏向积极，用户们对各种OCR工具的性能和适用性进行了深入探讨。主要分歧点在于多模态LLM与传统OCR工具的比较，以及不同工具在特定平台和任务中的表现。可能的原因是OCR技术的快速发展和多样化需求。