原贴链接

我已经更新了我的Lucid_Autonomy扩展(可与Oobabooga的文本生成WebUI一起使用)以帮助对研究论文和文档进行情境化处理。https://github.com/RandomInternetPreson/Lucid_Autonomy。在我看来,最好的OCR模型是Marker和GOT - OCR;最好的视觉模型是MiniCPM - V - 2_6、Aria和ChartGemma。https://huggingface.co/openbmb/MiniCPM-V-2_6,https://huggingface.co/stepfun - ai/GOT - OCR2_0,https://huggingface.co/ahmed - masry/chartgemma,https://huggingface.co/rhymes - ai/Aria,https://github.com/VikParuchuri/marker。我已经将这五个模型集成到代码中(OWLV2模型仍然是代码的一部分,但用于鼠标和键盘相关功能)。处理PDF文件的一般工作流程:PDF将首先由Marker OCR模型处理。Marker OCR管道很棒!除了为OCR输出生成一个markdown文件外,该管道还将识别PDF中的图像位置,裁剪出图像,并在markdown文本中标记图像所在位置。然后Mini - CPM模型将查看每个文档图像,并将它们标记为一种数据图或图像/插图。元数据都放置在Marker管道生成的markdown文件中。还可以使用GOT - OCR对PDF进行分析,其内容将与Marker的输出合并。加载的LLM可以自动查询三个视觉模型关于从pdf中提取的图像的信息,或者你也可以给LLM一个png文件的位置并让它向视觉模型询问关于图像的问题。它知道如何使用包含的系统提示/角色卡片来做到这一点,或者你也可以直接告诉你的LLM如何查询视觉模型以获取关于文档中图像的更多信息。ChartGemma专门用于读取图表。Aria运行需要大量的显存。MiniCPM - V - 2_6是最全面的模型,代码也可以接受该模型的4位版本,使其更易于管理。并且你可以截取显示器的屏幕截图,让GOT - OCR模型处理这些信息。我创建这个是为了能给我的LLM提供研究论文,让它们快速为我将其情境化,同时也允许对非OCR内容进行动态情境化。这一切仍然处于实验阶段,现在我可以让LLM帮助我理解有趣的研究论文,这非常有用。所以我想如果有人正在寻找类似功能并且愿意尝试自己运行代码的话就分享一下 :3

讨论总结

原帖作者分享了自己更新的Lucid_Autonomy扩展,该扩展集成了多种OCR和视觉模型用于文档研究。评论者们从不同角度进行讨论,包括对原帖未使用特定模型的好奇、希望原帖内容与其他项目比较、期待项目与开放WebUI结合、对视觉模型提取文本操作的疑问、对显存需求和语言支持的询问,以及对原帖分享的感谢。整体氛围比较和谐,不过讨论热度不高。

主要观点

  1. 👍 对原帖未使用qwen2 - vl模型表示好奇
    • 支持理由:[原帖介绍了多种模型的集成,但未涉及qwen2 - vl模型]
    • 反对声音:[无]
  2. 🔥 原帖作者因本地使用困难未采用qwen2 - vl模型,Aria运行良好无需特殊依赖
    • 正方观点:[原帖作者阐述了自己的实际使用体验]
    • 反方观点:[无]
  3. 💡 如果有人能让qwen2在textgen环境下多GPU运行,原帖作者会做出改变
    • [原帖作者表示愿意根据实际情况调整模型使用]
  4. 🤔 希望原帖作者对自己开发的内容和ColPali进行比较
    • [评论者想通过比较了解原帖内容的独特性或优势]
  5. 😎 认可原帖项目的价值并希望项目能与开放WebUI配合使用
    • [评论者看到项目潜力,期待功能拓展]

金句与有趣评论

  1. “😂 Curious, does that mean you think qwen2 - vl is not good enough for this task?”
    • 亮点:[直接提出对原帖模型选择的疑问]
  2. “🤔 Nope, but I was having difficulties getting qwen2 to work locally. Aria doesn’t need any special dependencies and runs well "
    • 亮点:[原帖作者详细解释未采用qwen2 - vl模型的原因]
  3. “👀 Would you mind comparing it to ColPali? https://huggingface.co/blog/manu/colpali
    • 亮点:[希望通过比较了解原帖项目]
  4. “😏 Would be greate to use it with open webui”
    • 亮点:[表达对项目功能拓展的期待]
  5. “🙏 谢谢。”
    • 亮点:[简单直接地表达对原帖作者分享的感谢]

情感分析

[总体情感倾向为正面,主要是评论者多以询问、期待、感谢的态度进行交流,未出现明显分歧点,可能是因为原帖项目属于技术探索阶段,大家更多是在寻求信息或者表示支持]

趋势与预测

  • 新兴话题:[可能会有更多关于模型在不同环境下运行要求和不同模型间对比的讨论]
  • 潜在影响:[如果项目不断完善并推广,可能会对文档研究相关领域的效率提升有一定影响]

详细内容:

《关于将优秀的 OCR 和视觉模型集成以助力文档研究的热门讨论》

近日,Reddit 上一则关于将优秀的 OCR 和视觉模型集成到能动态辅助文档研究的内容引起了广泛关注,获得了众多点赞和大量评论。原帖介绍了作者更新的 Lucid_Autonomy 扩展(可与 Oobabooga 的 Text Generation WebUI 配合使用),用于辅助对研究论文和文档进行情境化处理,并分享了多个优秀的 OCR 和视觉模型及相关链接。

讨论的焦点主要集中在不同模型的特点和应用上。有人提到,在众多模型中,Marker 和 GOT-OCR 是最佳的 OCR 模型,MiniCPM-V-2_6、Aria 和 ChartGemma 是出色的视觉模型。有用户表示,Aria 运行需要大量的 VRAM,而 MiniCPM-V-2_6 则是综合表现最佳的模型,代码还能接受 4 位版本,便于管理。有人分享自己在尝试让 qwen2 模型工作时遇到了困难,而 Aria 不需要特殊依赖且运行良好。还有用户好奇 vision LLMs 是否能直接从图像中提取文本,比如产品标签,还是需要先进行 OCR。

在讨论中,有人指出 GOT-OCR 模型在从图片获取文本方面表现出色,将被集成到作者的 Lucid 视觉扩展中。对于模型所需的最低 VRAM 和对非英语语言的支持,有人认为 OCR 模型对 VRAM 的要求低于视觉模型,除了 Aria 模型外,大部分或许都能在 16 - 18GB 显卡上运行。对于语言支持,需查看每个模型的 hf 或 git 页面了解其对其他语言的处理效果。

通过这场热烈的讨论,我们可以看到大家对于这些模型在实际应用中的关注和思考,也为相关领域的探索提供了有价值的参考。