原贴链接

嗨，大家好！我是andi，在HF从事多模态和视觉相关的所有工作。昨天，我们与IBM一起发布了SmolDocling，这是一个新的小模型（256M参数），用于将PDF转录为markdown格式，它是最先进的，性能优于更大的模型。如果你感兴趣的话，这里有一些要点：文本被转换为markdown格式，并且有一种名为DocTags的新格式，它包含PDF中对象（图像、图表）的位置信息，它可以给PDF中的图像添加字幕。在单个A100上推理需要0.35秒。这个模型受transformers等支持，可以加载到MLX中，并且可以在vLLM中使用。采用Apache 2.0许可。非常期待你们的意见。

讨论总结

原帖发布了SmolDocling这个用于文档理解的256M参数模型，评论者们展开了多方面的讨论。包括寻求模型相关资源、对模型与其他模型的性能比较提出疑问、探讨模型在特定任务（如表格处理）中的表现、询问模型功能（如是否支持结构化输出）以及对模型的多语言支持情况等，大家对这个新模型充满兴趣，整体氛围比较积极，不少人表达了对模型潜力的看好。

主要观点

👍 对SmolDocling模型感兴趣并寻求相关链接
- 支持理由：原帖介绍模型功能后，评论者想要获取项目资源入口，提问促使他人补充更多链接。
- 反对声音：无。
🔥 对SmolDocling是否比full docling更好提出疑问
- 正方观点：新模型目标是超越原模型，但目前不确定是否达成，团队正在整合并将在几周内有更明确答案。
- 反方观点：无。
💡 SmolDocling在表格到markdown/html转换时会产生大量幻觉
- 支持理由：评论者在测试中发现该问题并给出相关图片描述。
- 反对声音：新的检查点将改善表格处理情况。
💡 所谓文档理解/OCR即将解决的说法很可笑，SOTA工具在简单例子上都会失败
- 支持理由：一些SOTA工具在人类觉得简单的例子上都会失败，如表格处理中的合并列等问题。
- 反对声音：无。
💡 原评论者大量使用docling，看好新模型SmolDocling并认为是很棒的补充
- 支持理由：因为自己大量使用docling，推测新模型因规模小可能不需要GPU服务器。
- 反对声音：无。

金句与有趣评论

“😂 link or nah?”
- 亮点：简洁地表达出对获取模型相关链接的需求。
“🤔 Is it better than full docling?”
- 亮点：直接提出对新模型与原模型性能比较的疑问。
“👀 in my tests involving tables to markdown/html it hallucinates a lot (other multimodal LLMs also do)”
- 亮点：指出模型在特定任务中的问题，并且提及该问题在其他多模态大语言模型中也存在。
“🤔 I always think it’s kind of LOL when people say "document understanding/OCR is almost solved" and then the SOTA tools fail on examples like this, which are objectively very easy for humans, let alone messy and tricky PDFs.”
- 亮点：对文档理解/OCR即将解决的普遍观点提出质疑，通过对比人类处理和SOTA工具处理情况来强调观点。
“😎 Wow, that’s indeed Smol.”
- 亮点：以简洁的话语认可模型规模小的特点。

情感分析

总体情感倾向是积极的，大家对新发布的SmolDocling模型表现出较大兴趣。主要分歧点在于模型性能是否能达到预期，例如是否比full docling更好、在表格处理上的表现等。可能的原因是大家对这个新模型抱有期望，但由于是新发布，对其实际性能还存在疑虑和探索的需求。

趋势与预测

新兴话题：模型在多语言（如阿拉伯语）上的支持改进、在CPU上的优化以及在ollama中的运行等话题可能会引发后续讨论。
潜在影响：如果模型在实际应用中表现出色，可能会对文档理解领域产生积极影响，例如在处理财务报表等生产应用中替代原有的工具，推动相关行业的效率提升。

详细内容：

标题：Reddit 热议新发布的 SmolDocling 模型

在 Reddit 上，一则关于“SmolDocling - 256M VLM for document understanding”的帖子引起了广泛关注。该帖由 andi 发布，介绍了这款新的小型模型（256M 参数），它能够将 PDF 转录为 Markdown 格式，并且在性能上表现出色。此帖获得了众多点赞和评论。

帖子引发的主要讨论方向包括模型与其他类似模型的比较、对不同语言的支持、在特定场景下的表现以及优化和扩展的可能性等。

讨论焦点与观点分析：有人质疑它是否比 full docling 更好，有人表示这一模型来自 Docling 团队，目前还不确定是否超越了 full docling，但团队正在努力整合并改进。有用户在测试中发现涉及表格转换时存在幻觉问题，不过也有新的 checkpoint 即将改进。有人认为尽管模型体积小，但在处理某些文档时表现不佳，仍有待完善。对于语言支持，目前主要训练和评估的是英语，但有用户表示在其他具有相同记号的语言上似乎效果不错，未来会扩展多语言支持。在与其他模型的比较方面，有人指出它在文档理解评估中击败了 Qwen2.5 VL 7B。关于模型在 CPU 上的表现以及能否在 ollama 中运行等问题，也有相应的讨论和解答。

总之，Reddit 上关于 SmolDocling 模型的讨论丰富多样，既有对其优势的肯定，也有对存在问题的探讨，为模型的进一步发展和应用提供了有价值的参考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#