原贴链接

这是一个指向https://github.com/DS4SD/docling的链接

讨论总结

这个讨论围绕IBM新推出的Docling库展开。许多人对这个库表达了积极的态度,如认可其功能,认为它在处理文档转换方面很有用,是开源且易于上手的Python包。同时也有一些关于其使用的疑问,例如安装时的依赖问题、在特定文件(如科学论文、不可搜索的PDF)上的处理能力、JSON导出相关技术疑问等。还有不少评论将Docling与其他类似工具进行比较,希望明确Docling在同类工具中的位置,整体氛围比较积极正向,大家都在探索这个新库的功能和潜力。

主要观点

  1. 👍 对Docling库感到兴奋,因其开源且易上手。
    • 支持理由:看起来像是即插即用的Python包,有很多本地使用场景,可以调用本地LLM。
    • 反对声音:无
  2. 🔥 Docling比marker速度快,在仅使用CPU时能完美运行且安装简单。
    • 正方观点:有人亲自尝试,给出对比结果并分享了仅用CPU时的安装感受。
    • 反方观点:部分人在安装仅使用CPU版本时遇到依赖问题。
  3. 💡 Docling处理速度有提升空间,但输出质量在开源解决方案中最佳。
    • 支持理由:有使用者反馈其处理速度情况以及对输出质量的感受。
    • 反对声音:无
  4. 👍 Docling库功能有效,比同类产品更好。
    • 支持理由:有使用者称其比之前尝试过的类似产品好用。
    • 反对声音:无
  5. 💡 Docling在处理方程、定理、算法方面不佳。
    • 支持理由:有使用者表明在这方面表现不好。
    • 反对声音:无

金句与有趣评论

  1. “😂 I’m personally very excited about this.. because open source and also it seems like it’s just a Python package to plug and play…. It seems easy to get started.”
    • 亮点:表达了对Docling库开源且易上手的兴奋之情。
  2. “🤔 Ok so I just tried it and I have to say, it’s a lot faster than marker. I’m on CPU - only right now and it works flawlessly, installation was really easy indeed.”
    • 亮点:通过与marker对比,强调Docling仅用CPU时的速度和安装优势。
  3. “👀 I’ve just found these and haven’t had time to try either of these but I’m going to have to make time this weekend!”
    • 亮点:体现了对Docling和LLMWare的好奇以及打算试用的决心。
  4. “😂 Holy shit… this is definitely going to be useful to format training data from your workplace (which are usually all files) to fine tune a LLM.”
    • 亮点:指出Docling在格式化工作场所文件用于微调LLM方面的价值。
  5. “🤔 For one, this is MIT -licensed, so you can use it commercially without issues, while PyMuPDF is AGPL, rendering it useless for any serious SaaS use case.”
    • 亮点:对比Docling和PyMuPDF的授权,点明在商业用途上的差异。

情感分析

总体情感倾向是积极的。主要分歧点在于Docling库的性能表现,如处理速度、在处理特定内容(方程、定理、算法等)方面的能力。可能的原因是大家对这个新库有不同的使用需求和期望,一些使用者在实际使用或者预期使用中发现了一些有待改进或者与自己需求不符的地方。

趋势与预测

  • 新兴话题:Docling库与更多其他工具(如LLMWare、PyMuPDF等)在功能、授权、适用场景等多方面的比较,以及Docling库在特定功能(如JSON导出、表格提取等)上的深入探讨。
  • 潜在影响:如果Docling库不断改进并被广泛认可,可能会对文档处理领域产生影响,例如改变人们对文档转换工具的选择倾向,在工作场所中提高文件数据处理效率以便更好地应用于大型语言模型等。

详细内容:

《IBM 新库 Docling 引发 Reddit 热议》

近日,Reddit 上一个关于 IBM 新库 Docling 的帖子引发了广泛关注。该帖子(https://github.com/DS4SD/docling)介绍了 Docling 能够高效解析 PDF、DOCX 和 PPTX 并将其导出为 Markdown 和 JSON 的强大功能,获得了众多点赞和大量评论。

讨论焦点主要集中在以下几个方面: 有人表示对其感到兴奋,认为它是开源的,且像一个即插即用的 Python 包,易于上手。比如有人说:“我有很多本地用例,之前调用外部 gemini api 进行 ocr 和提取,现在可以直接用这个,再调用本地的 llm 处理文本和 markdown,太棒了!” 有人试用后称其比 marker 速度快很多,安装也简单。例如:“我在仅 CPU 的情况下试用了,它运行完美,安装确实很容易,处理一个 3 页的密集 PDF 大约只花了 10 秒钟。” 也有人关心它对科学论文中方程、图表等的处理效果。 还有人讨论它与其他类似工具的比较,如与 PyMuPDF 的许可证差异。有人指出:“Docling 是 MIT 许可,可用于商业用途,而 PyMuPDF 是 AGPL,在严肃的 SaaS 用例中无用。”

对于 Docling,有人称赞其输出质量是所有开源解决方案中最好的,也有人认为其处理速度有待提高,还有人认为它对方程、定理、算法处理不佳。但总体上,多数试用者对其表示满意,认为它比之前尝试过的类似工具更好用。

不过,也有人提到其他相关工具,如 Mathpix 处理效果惊人,但它是付费服务;有人询问它与 LLMWare 的比较。

总之,Docling 虽在某些方面存在不足,但其在文件格式转换方面的表现仍吸引了众多用户的关注和讨论,为相关领域的工作带来了新的选择和思考。