原贴链接

嗨,大家好!我是andi,在HF从事多模态和视觉相关的所有工作。昨天,我们与IBM一起发布了SmolDocling,这是一个新的小模型(256M参数),用于将PDF转录为markdown格式,它是最先进的,性能优于更大的模型。如果你感兴趣的话,这里有一些要点:文本被转换为markdown格式,并且有一种名为DocTags的新格式,它包含PDF中对象(图像、图表)的位置信息,它可以给PDF中的图像添加字幕。在单个A100上推理需要0.35秒。这个模型受transformers等支持,可以加载到MLX中,并且可以在vLLM中使用。采用Apache 2.0许可。非常期待你们的意见。

讨论总结

原帖发布了SmolDocling这个用于文档理解的256M参数模型,评论者们展开了多方面的讨论。包括寻求模型相关资源、对模型与其他模型的性能比较提出疑问、探讨模型在特定任务(如表格处理)中的表现、询问模型功能(如是否支持结构化输出)以及对模型的多语言支持情况等,大家对这个新模型充满兴趣,整体氛围比较积极,不少人表达了对模型潜力的看好。

主要观点

  1. 👍 对SmolDocling模型感兴趣并寻求相关链接
    • 支持理由:原帖介绍模型功能后,评论者想要获取项目资源入口,提问促使他人补充更多链接。
    • 反对声音:无。
  2. 🔥 对SmolDocling是否比full docling更好提出疑问
    • 正方观点:新模型目标是超越原模型,但目前不确定是否达成,团队正在整合并将在几周内有更明确答案。
    • 反方观点:无。
  3. 💡 SmolDocling在表格到markdown/html转换时会产生大量幻觉
    • 支持理由:评论者在测试中发现该问题并给出相关图片描述。
    • 反对声音:新的检查点将改善表格处理情况。
  4. 💡 所谓文档理解/OCR即将解决的说法很可笑,SOTA工具在简单例子上都会失败
    • 支持理由:一些SOTA工具在人类觉得简单的例子上都会失败,如表格处理中的合并列等问题。
    • 反对声音:无。
  5. 💡 原评论者大量使用docling,看好新模型SmolDocling并认为是很棒的补充
    • 支持理由:因为自己大量使用docling,推测新模型因规模小可能不需要GPU服务器。
    • 反对声音:无。

金句与有趣评论

  1. “😂 link or nah?”
    • 亮点:简洁地表达出对获取模型相关链接的需求。
  2. “🤔 Is it better than full docling?”
    • 亮点:直接提出对新模型与原模型性能比较的疑问。
  3. “👀 in my tests involving tables to markdown/html it hallucinates a lot (other multimodal LLMs also do)”
    • 亮点:指出模型在特定任务中的问题,并且提及该问题在其他多模态大语言模型中也存在。
  4. “🤔 I always think it’s kind of LOL when people say "document understanding/OCR is almost solved" and then the SOTA tools fail on examples like this, which are objectively very easy for humans, let alone messy and tricky PDFs.”
    • 亮点:对文档理解/OCR即将解决的普遍观点提出质疑,通过对比人类处理和SOTA工具处理情况来强调观点。
  5. “😎 Wow, that’s indeed Smol.”
    • 亮点:以简洁的话语认可模型规模小的特点。

情感分析

总体情感倾向是积极的,大家对新发布的SmolDocling模型表现出较大兴趣。主要分歧点在于模型性能是否能达到预期,例如是否比full docling更好、在表格处理上的表现等。可能的原因是大家对这个新模型抱有期望,但由于是新发布,对其实际性能还存在疑虑和探索的需求。

趋势与预测

  • 新兴话题:模型在多语言(如阿拉伯语)上的支持改进、在CPU上的优化以及在ollama中的运行等话题可能会引发后续讨论。
  • 潜在影响:如果模型在实际应用中表现出色,可能会对文档理解领域产生积极影响,例如在处理财务报表等生产应用中替代原有的工具,推动相关行业的效率提升。

详细内容:

标题:Reddit 热议新发布的 SmolDocling 模型

在 Reddit 上,一则关于“SmolDocling - 256M VLM for document understanding”的帖子引起了广泛关注。该帖由 andi 发布,介绍了这款新的小型模型(256M 参数),它能够将 PDF 转录为 Markdown 格式,并且在性能上表现出色。此帖获得了众多点赞和评论。

帖子引发的主要讨论方向包括模型与其他类似模型的比较、对不同语言的支持、在特定场景下的表现以及优化和扩展的可能性等。

讨论焦点与观点分析: 有人质疑它是否比 full docling 更好,有人表示这一模型来自 Docling 团队,目前还不确定是否超越了 full docling,但团队正在努力整合并改进。 有用户在测试中发现涉及表格转换时存在幻觉问题,不过也有新的 checkpoint 即将改进。 有人认为尽管模型体积小,但在处理某些文档时表现不佳,仍有待完善。 对于语言支持,目前主要训练和评估的是英语,但有用户表示在其他具有相同记号的语言上似乎效果不错,未来会扩展多语言支持。 在与其他模型的比较方面,有人指出它在文档理解评估中击败了 Qwen2.5 VL 7B。 关于模型在 CPU 上的表现以及能否在 ollama 中运行等问题,也有相应的讨论和解答。

总之,Reddit 上关于 SmolDocling 模型的讨论丰富多样,既有对其优势的肯定,也有对存在问题的探讨,为模型的进一步发展和应用提供了有价值的参考。