Mistral刚刚宣布了一个新的专门用于OCR(光学字符识别)的模型,该模型优于Azure OCR和Google Document AI。遗憾的是,它仅作为SaaS(软件即服务)提供,不像他们的许多模型那样开源权重。https://mistral.ai/fr/news/mistral-ocr。你是否知道任何其他专门用于OCR的大型语言模型(LLM)或者LLM组合以及其他计算机视觉软件,能达到类似的效果?我目前正在试用Qwen2.5 VL 7B Instruct。
讨论总结
原帖提到Mistral新的OCR模型,称其表现优秀但仅为SaaS且非开源权重,寻求其他类似成果的OCR模型或软件堆栈。评论中大家纷纷推荐自己知道的OCR相关模型,如olmOCR、minicpm - o 2.6、Granite 3.2 vision、Phi 4多模态、Docsumo等,还有人针对Mistral OCR模型的性能、价格、本地部署、开源闭源等方面进行讨论,同时涉及一些技术相关问题,如代码修正、模型运行在安卓系统等,讨论氛围积极,大家互相分享信息。
主要观点
- 👍 推荐olmOCR模型
- 支持理由:基于Qwen2 - VL - 7B - Instruct(预览版)微调得到
- 反对声音:有用户尝试后对其演示效果不太满意
- 🔥 存在产品在OCR性能方面优于Mistral OCR
- 正方观点:DisplaySomething称在所有场景下优于Mistral OCR并给出比较链接
- 反方观点:无(未提及)
- 💡 Mistral不同产品在不同文档类型上的表现有差异
- 解释:如在Le Chat应用中驾照识别效果好,但某些文档适用于其他视觉LLM而非新推出的OCR模型
- 💡 JigsawStack原价格设置不合理,即将调整
- 解释:有人认为产品提升不大价格却提升近60倍不合理,相关方表示将大幅降价
- 💡 Mistral的OCR模型有本地部署选项且对有数据隐私要求的组织有好处
- 解释:可保障敏感信息安全并符合相关标准
金句与有趣评论
- “😂 Try olmOCR model that’s fine tuned from Qwen2 - VL - 7B - Instruct (preview).”
- 亮点:直接推荐olmOCR模型并给出其来源
- “🤔 minicpm - o 2.6和Granite 3.2 vision也是不错的。”
- 亮点:简单直接推荐两个在OCR方面表现不错的模型
- “👀 DisplaySomething: We just outperformed Mistral OCR in all scenarios. Check out the comparison: [https://jigsawstack.com/blog/mistral-ocr-vs-jigsawstack-vocr]”
- 亮点:明确表示自己的产品在OCR性能上优于Mistral OCR并给出比较链接
- “😉 For organizations with stringent data privacy requirements, Mistral OCR offers a self - hosting option. This ensures that sensitive or classified information remains secure within your own infrastructure, providing compliance with regulatory and security standards.”
- 亮点:阐述了Mistral OCR本地部署对特定组织的好处
- “🤨 Funny how they come back saying they’re for open source again and to commit to it with their new 24b model and then right after release this as closed source and have to apply to maybe get to host it yourself if you’re a large company”
- 亮点:指出Mistral在开源闭源方面行为的矛盾之处
情感分析
总体情感倾向较为积极,大家积极分享各种OCR相关的模型和信息。主要分歧点在于对Mistral OCR模型的评价,如价格是否昂贵、性能是否真的优秀等,原因是大家从不同的使用场景、需求和利益角度出发看待该模型。
趋势与预测
- 新兴话题:Mistral OCR模型的本地部署是否免费。
- 潜在影响:如果Mistral对OCR模型价格进行调整或者增加本地部署的优惠政策等,可能会影响相关企业或组织在OCR技术方面的选型,进而影响OCR技术在不同领域(如对数据隐私要求高的领域)的应用推广。
详细内容:
标题:Mistral 新 OCR 模型引发的热议
Mistral 宣布推出一款专注于 OCR 的新模型,声称其表现超越了 Azure OCR 和 Google Document AI。此帖引发了众多关注,点赞和评论众多。但该模型仅以 SaaS 形式提供,不像其很多其他模型可开放权重。https://mistral.ai/fr/news/mistral-ocr
讨论中,有人提到可以试试 olmOCR 模型,它是基于 Qwen2-VL-7B-Instruct 微调的。[https://huggingface.co/allenai/olmOCR-7B-0225-preview],许可证为 apache-2.0。也有人认为该模型看起来很新,还有人表示在另一篇 Reddit 帖子中见过,打算今天晚些时候尝试。但也有人试用了 OlmOCR 后,对其演示效果不太满意,在提供的一些图像和文本文档上表现不佳。
有人提出 Minicpm-o 2.6 和 Granite 3.2 视觉效果也不错。
有观点认为,近 60 倍的价格上涨却只有略微更好的产品,价值交换不成比例。但也有人回应会大幅降价,将采用基于令牌的定价,即每百万令牌 1.4 美元,会在一两周内推出。
有人分享了自己的经历,比如在 Mistral 的 Le Chat 应用上尝试识别驾照提取完美。但也有人质疑其 Document AI API 是否使用了动力不足的模型。
还有很多有趣和引发思考的观点,比如有人询问 jigsaw 是否能在本地运行,是否能详细说明相关堆栈及费用,也有人指出文档中的 python 代码存在语法和语义错误。
有人提到 Granite 3.2 和 Phi 4 多模态应该不错。也有人认为对于有严格数据隐私要求的组织,Mistral OCR 提供的自托管选项能确保敏感信息在自己的基础设施内安全。但有人质疑这是否免费,还是需要付费订阅。还有人询问是否有办法在 Android 上运行这些模型。有人推荐了 Docsumo,称效果相似甚至更好。
有人对 Mistral 先声称支持开源,随后又推出闭源模型并限制大型公司自托管的做法表示不满。也有人发表了一些有趣的言论。
总之,关于 Mistral 的新 OCR 模型,大家讨论热烈,观点各异,涉及模型效果、价格、适用性等多个方面。
感谢您的耐心阅读!来选个表情,或者留个评论吧!