原贴链接

Jina AI 刚刚发布了 Reader-LM,这是一组新的语言模型,旨在将原始 HTML 转换为干净的 Markdown。这些模型,reader-lm-0.5b 和 reader-lm-1.5b,是多语言的,支持最长 256K 个 token 的上下文长度。

HuggingFace 链接:

在 Google Colab 上尝试:

编辑:模型已在 ollama 上可用。

基准测试:

模型ROUGE-LWERTER
reader-lm-0.5b0.563.280.34
reader-lm-1.5b0.721.870.19
gpt-4o0.435.880.50
gemini-1.5-flash0.4021.700.55
gemini-1.5-pro0.423.160.48
llama-3.1-70b0.409.870.50
Qwen2-7B-Instruct0.232.450.70
  • ROUGE-L(越高越好):这个指标广泛用于总结和问答任务,衡量预测输出与参考之间的 n-gram 重叠。
  • Token 错误率(TER,越低越好):这个指标计算生成的 Markdown token 不在原始 HTML 内容中的比率。我们设计了这个指标来评估模型的幻觉率,帮助我们识别模型生成内容与 HTML 不符的情况。基于案例研究,将进一步改进。
  • 词错误率(WER,越低越好):通常用于 OCR 和 ASR 任务,WER 考虑词序列并计算插入(ADD)、替换(SUB)和删除(DEL)等错误。这个指标提供了生成 Markdown 与预期输出之间不匹配的详细评估。

讨论总结

Jina AI 发布的 Reader-LM 0.5b 和 1.5b 模型引起了 Reddit 用户的广泛讨论,主要集中在模型的 HTML 到 Markdown 转换功能上。用户对新模型的发布表示兴奋,认为这对他们的项目非常有用,但也提出了一些担忧和质疑。讨论中涉及了模型的性能、成本、幻觉问题、与其他工具的对比,以及未来可能的改进方向。总体而言,讨论氛围较为积极,但也存在一些对模型实际应用效果的疑虑。

主要观点

  1. 👍 Jina AI 发布了 Reader-LM 0.5b 和 1.5b 模型,用于 HTML 到 Markdown 的转换。

    • 支持理由:评论者对新模型的发布感到兴奋,认为这对他们的项目有用。
    • 反对声音:有人质疑为何需要使用语言模型来完成此任务,已有工具如 Pandoc 可以完成。
  2. 🔥 模型在转换过程中存在一些改进空间,例如未能将标题加粗,并且模型有重复输出的倾向。

    • 正方观点:总体评价:模型表现尚可,但仍有提升空间。
    • 反方观点:评论者对模型的性能表示担忧,认为其他库可能更有效。
  3. 💡 使用 LLM 可以节省创建正则表达式和使用 Beautiful Soup 等工具的时间。

    • 解释:传统抓取工具在处理动态加载内容和 JavaScript 障碍时存在困难,LLM 提供了更高的灵活性和容错性。
  4. 💡 评论者希望看到更多与数据处理相关的模型,而不仅仅是聊天机器人模型。

    • 解释:聊天机器人虽然很酷,但并不是唯一的应用场景。
  5. 💡 模型在运行成本上比现有的 Trafilatura 工具高出 10,000 倍。

    • 解释:无法判断模型输出的内容是否为真实数据,模型可能存在幻觉问题,导致输出不准确。

金句与有趣评论

  1. “😂 Inevitable-Start-653:Woohoo a new ocr model this morning and now this! Today is my day! Yeass!”

    • 亮点:评论者对新模型的发布感到非常兴奋。
  2. “🤔 sometimeswriter32:This model is pretty good in my quick test where I copied the raw html from Firefox into text-generation-webui but this model does not preserve style italics for example this would not have italics markdown.”

    • 亮点:评论者通过具体例子说明了模型在样式保留方面的不足。
  3. “👀 possiblyquestionable:I’m unconvinced that this is a good reason. Trying to fix edge cases or do any amount of non-trivial iterations with an LLM seem much much much less maintainable than a rule based parser.”

    • 亮点:评论者对使用语言模型解决 HTML 到 Markdown 的转换问题表示质疑。
  4. “😂 AnomalyNexus:Wish we’d see more data processing related ones.”

    • 亮点:评论者希望看到更多与数据处理相关的模型。
  5. “🤔 yiyecek:Unfortunately this will be 10,000x more expensive to run than Trafilatura. And you’ll never know if it’s hallucination or real data.”

    • 亮点:评论者对新模型的运行成本和幻觉问题表示担忧。

情感分析

讨论的总体情感倾向较为积极,大部分用户对 Jina AI 发布的 Reader-LM 模型表示赞赏和兴奋,认为这对他们的项目非常有用。然而,也有一些用户对模型的性能、成本、幻觉问题表示担忧,并提出了与其他工具的对比。主要分歧点在于模型的实际应用效果和与其他工具的性能对比。

趋势与预测

  • 新兴话题:未来可能会有更多关于模型性能改进和与其他工具性能对比的讨论。
  • 潜在影响:如果模型能够在性能和成本上有所改进,可能会在网页抓取和数据处理领域得到更广泛的应用。

详细内容:

《Jina AI 发布新型语言模型用于 HTML 转 Markdown》

近日,Reddit 上一则关于 Jina AI 发布新型语言模型的帖子引起了广泛关注。该帖子介绍了 Jina AI 新推出的用于将原始 HTML 转换为干净 Markdown 的语言模型 Reader-LM 0.5b 和 1.5b,获得了众多用户的点赞和大量评论。

帖子中提到,这些模型是多语言的,支持高达 256K 令牌的上下文长度,同时还提供了多个相关链接,包括模型在 HuggingFace 上的链接、在 Google Colab 上的试用链接以及相关的博客文章链接等。此外,还展示了该模型与其他模型的性能对比数据。

讨论的焦点主要集中在以下几个方面:

有人表示新模型对正在进行的项目很有用,也有人称赞其能很好地融入大多数代理项目。但也有人提出疑问,比如为什么人们使用 LLM 而不是现有的抓取管道?有人认为 LLM 能节省时间,而有人则认为设置和使用现有抓取管道的本地版本很麻烦。还有用户指出,现有抓取管道在处理论坛等页面时,无法可靠地分离消息。

对于 LLM 方法,有人认为其灵活性和容忍度更高,从长远来看可能是最佳选择,但也有人对此持保留态度,认为其维护难度大,并且没有与其他非 LLM 基于规则的解析器进行基准测试,难以评估其是否足够好。

部分用户分享了自己的使用体验,有人认为模型还有改进空间,比如无法处理某些样式;有人使用 Colab 时遇到了问题;还有人尝试将 PDF 转换为 HTML 再转换为 Markdown,结果并不理想。

总的来说,关于 Jina AI 发布的新模型,大家看法不一。究竟其在实际应用中的表现如何,还需要更多的测试和实践来验证。