Jina AI 刚刚发布了 Reader-LM,这是一组新的语言模型,旨在将原始 HTML 转换为干净的 Markdown。这些模型,reader-lm-0.5b 和 reader-lm-1.5b,是多语言的,支持最长 256K 个 token 的上下文长度。
HuggingFace 链接:
- reader-lm-0.5b: https://huggingface.co/jinaai/reader-lm-0.5b
- reader-lm-1.5b: https://huggingface.co/jinaai/reader-lm-1.5b
在 Google Colab 上尝试:
编辑:模型已在 ollama 上可用。
基准测试:
模型 | ROUGE-L | WER | TER |
---|---|---|---|
reader-lm-0.5b | 0.56 | 3.28 | 0.34 |
reader-lm-1.5b | 0.72 | 1.87 | 0.19 |
gpt-4o | 0.43 | 5.88 | 0.50 |
gemini-1.5-flash | 0.40 | 21.70 | 0.55 |
gemini-1.5-pro | 0.42 | 3.16 | 0.48 |
llama-3.1-70b | 0.40 | 9.87 | 0.50 |
Qwen2-7B-Instruct | 0.23 | 2.45 | 0.70 |
- ROUGE-L(越高越好):这个指标广泛用于总结和问答任务,衡量预测输出与参考之间的 n-gram 重叠。
- Token 错误率(TER,越低越好):这个指标计算生成的 Markdown token 不在原始 HTML 内容中的比率。我们设计了这个指标来评估模型的幻觉率,帮助我们识别模型生成内容与 HTML 不符的情况。基于案例研究,将进一步改进。
- 词错误率(WER,越低越好):通常用于 OCR 和 ASR 任务,WER 考虑词序列并计算插入(ADD)、替换(SUB)和删除(DEL)等错误。这个指标提供了生成 Markdown 与预期输出之间不匹配的详细评估。
讨论总结
Jina AI 发布的 Reader-LM 0.5b 和 1.5b 模型引起了 Reddit 用户的广泛讨论,主要集中在模型的 HTML 到 Markdown 转换功能上。用户对新模型的发布表示兴奋,认为这对他们的项目非常有用,但也提出了一些担忧和质疑。讨论中涉及了模型的性能、成本、幻觉问题、与其他工具的对比,以及未来可能的改进方向。总体而言,讨论氛围较为积极,但也存在一些对模型实际应用效果的疑虑。
主要观点
👍 Jina AI 发布了 Reader-LM 0.5b 和 1.5b 模型,用于 HTML 到 Markdown 的转换。
- 支持理由:评论者对新模型的发布感到兴奋,认为这对他们的项目有用。
- 反对声音:有人质疑为何需要使用语言模型来完成此任务,已有工具如 Pandoc 可以完成。
🔥 模型在转换过程中存在一些改进空间,例如未能将标题加粗,并且模型有重复输出的倾向。
- 正方观点:总体评价:模型表现尚可,但仍有提升空间。
- 反方观点:评论者对模型的性能表示担忧,认为其他库可能更有效。
💡 使用 LLM 可以节省创建正则表达式和使用 Beautiful Soup 等工具的时间。
- 解释:传统抓取工具在处理动态加载内容和 JavaScript 障碍时存在困难,LLM 提供了更高的灵活性和容错性。
💡 评论者希望看到更多与数据处理相关的模型,而不仅仅是聊天机器人模型。
- 解释:聊天机器人虽然很酷,但并不是唯一的应用场景。
💡 模型在运行成本上比现有的 Trafilatura 工具高出 10,000 倍。
- 解释:无法判断模型输出的内容是否为真实数据,模型可能存在幻觉问题,导致输出不准确。
金句与有趣评论
“😂 Inevitable-Start-653:Woohoo a new ocr model this morning and now this! Today is my day! Yeass!”
- 亮点:评论者对新模型的发布感到非常兴奋。
“🤔 sometimeswriter32:This model is pretty good in my quick test where I copied the raw html from Firefox into text-generation-webui but this model does not preserve style italics for example this would not have italics markdown.”
- 亮点:评论者通过具体例子说明了模型在样式保留方面的不足。
“👀 possiblyquestionable:I’m unconvinced that this is a good reason. Trying to fix edge cases or do any amount of non-trivial iterations with an LLM seem much much much less maintainable than a rule based parser.”
- 亮点:评论者对使用语言模型解决 HTML 到 Markdown 的转换问题表示质疑。
“😂 AnomalyNexus:Wish we’d see more data processing related ones.”
- 亮点:评论者希望看到更多与数据处理相关的模型。
“🤔 yiyecek:Unfortunately this will be 10,000x more expensive to run than Trafilatura. And you’ll never know if it’s hallucination or real data.”
- 亮点:评论者对新模型的运行成本和幻觉问题表示担忧。
情感分析
讨论的总体情感倾向较为积极,大部分用户对 Jina AI 发布的 Reader-LM 模型表示赞赏和兴奋,认为这对他们的项目非常有用。然而,也有一些用户对模型的性能、成本、幻觉问题表示担忧,并提出了与其他工具的对比。主要分歧点在于模型的实际应用效果和与其他工具的性能对比。
趋势与预测
- 新兴话题:未来可能会有更多关于模型性能改进和与其他工具性能对比的讨论。
- 潜在影响:如果模型能够在性能和成本上有所改进,可能会在网页抓取和数据处理领域得到更广泛的应用。
详细内容:
《Jina AI 发布新型语言模型用于 HTML 转 Markdown》
近日,Reddit 上一则关于 Jina AI 发布新型语言模型的帖子引起了广泛关注。该帖子介绍了 Jina AI 新推出的用于将原始 HTML 转换为干净 Markdown 的语言模型 Reader-LM 0.5b 和 1.5b,获得了众多用户的点赞和大量评论。
帖子中提到,这些模型是多语言的,支持高达 256K 令牌的上下文长度,同时还提供了多个相关链接,包括模型在 HuggingFace 上的链接、在 Google Colab 上的试用链接以及相关的博客文章链接等。此外,还展示了该模型与其他模型的性能对比数据。
讨论的焦点主要集中在以下几个方面:
有人表示新模型对正在进行的项目很有用,也有人称赞其能很好地融入大多数代理项目。但也有人提出疑问,比如为什么人们使用 LLM 而不是现有的抓取管道?有人认为 LLM 能节省时间,而有人则认为设置和使用现有抓取管道的本地版本很麻烦。还有用户指出,现有抓取管道在处理论坛等页面时,无法可靠地分离消息。
对于 LLM 方法,有人认为其灵活性和容忍度更高,从长远来看可能是最佳选择,但也有人对此持保留态度,认为其维护难度大,并且没有与其他非 LLM 基于规则的解析器进行基准测试,难以评估其是否足够好。
部分用户分享了自己的使用体验,有人认为模型还有改进空间,比如无法处理某些样式;有人使用 Colab 时遇到了问题;还有人尝试将 PDF 转换为 HTML 再转换为 Markdown,结果并不理想。
总的来说,关于 Jina AI 发布的新模型,大家看法不一。究竟其在实际应用中的表现如何,还需要更多的测试和实践来验证。
感谢您的耐心阅读!来选个表情,或者留个评论吧!