原贴链接

注意:Intraluminal似乎已经解决了99%(虽不完美但接近了)。旧金山的游泳池在一个[可爱的单页传单](https://sfrecpark.org/DocumentCenter/View/24705/Rossi - Fall1_Sept - 20_Nov - 14 - 2?bidId=)上公布他们的时间表。我的挑战是:尝试让一个开源或闭源模型正确提取往返游泳时段的循环时间表。可以随意使用思维链。额外奖励:尝试让它们以ical(ics)格式生成,这样就可以放入你的日历。超级奖励:让ical/ics文件正确处理开始/结束和节假日。最强挑战:让你的提示可靠地用于2 - 3个[相邻游泳池](https://sfrecpark.org/482/Swimming - Pools)的时间表。我来指出一些会让你出错的事情:Claude和OpenAI通常只是尝试从PDF中提取文本……它们会破坏结构,你基本上只能使用PDF的图像而不是PDF本身;我试过的大多数闭源模型会遗漏……周一;即使你明确提示提醒它们周一的存在……它们还是会把周三的往返游泳时间弄错得很离谱。大型模型做对的令人印象深刻的事情:有需要注意的节假日(但它们仍然会遗漏周一)!三泳道往返游泳活动是不同且特殊的!何时开始和结束时间表。我的结论是……一个六岁的孩子能做这个任务,但我们最好的文档理解基础设施仍然做不到。我们还有很长的路要走!在将文档理解部署到生产环境时要小心。

讨论总结

原帖以旧金山泳池时间表为例,提出让模型进行日程提取等文档理解任务的挑战,指出即使简单任务大型模型也难以完美完成。评论中大家纷纷分享自己使用不同模型(如Chat 4.0、Gemini 1.5 Pro、Qwen2VL - 7B、Llama - 3.2 - Vision - 11B、Claude 3.5 Sonnet等)处理任务的情况,包括成功经验和失败原因,也有对文档布局糟糕表示看法,还有人提出对完成任务的最小模型的好奇,以及用幽默方式指出测试模型的新方式,整体氛围积极围绕文档理解相关话题展开讨论。

主要观点

  1. 👍 文档理解存在困难,大型模型也难以完美应对
    • 支持理由:原帖中多个模型在处理泳池日程提取任务时存在各种问题,如错过周一、节假日等。
    • 反对声音:无。
  2. 🔥 Chat 4.0能完成部分任务但存在不足
    • 正方观点:能提取日程安排,虽不能直接转换为ical格式但提供了Python脚本。
    • 反方观点:结果存在未识别部分内容属于lap swim以及未考虑假期等问题。
  3. 💡 不同模型在文档理解任务上表现各异
    • 解释:如Gemini 1.5 Pro能按要求提取,Qwen2VL - 7B和Llama - 3.2 - Vision - 11B未能完成任务,Claude 3.5 Sonnet基本能完成但存在小错误。
  4. 🤔 文档布局可能影响模型处理任务的结果
    • 支持理由:部分模型在处理任务失败时,怀疑是布局问题,指定布局也未能正确处理。
    • 反对声音:无。
  5. 😎 应改变测试LLMs的方式
    • 解释:用“周一是否存在”来测试比传统问题更能反映文档理解的问题。

金句与有趣评论

  1. “😂 In fairness, that layout is horrible, even if I can understand it.”
    • 亮点:直接指出文档布局糟糕。
  2. “🤔 我问Chat 4.0去做这个任务。工作得很好。Chat 4.0说它不能(转换为ical),但是写了一个Python脚本来做这件事。”
    • 亮点:清晰阐述Chat 4.0处理任务的情况。
  3. “👀 Eugr: Llama - 3.2 missed most of Monday and said that there was nothing scheduled for the rest of the week :)”
    • 亮点:生动展现模型在处理任务时的错误情况。
  4. “😏 martinerous: Looks like now we should test our LLMs with "Does Monday exist?" instead of "how many r - s in strawberries".”
    • 亮点:以幽默方式提出测试模型的新想法。
  5. “👍 Ahah, we have the same issue at my work, most of real document we have to deal with are craps like this one”
    • 亮点:通过分享自身工作情况,呼应原帖的文档理解困难。

情感分析

总体情感倾向为积极探索。主要分歧点在于不同模型在文档理解任务上的表现,原因是各个模型的能力、特点不同,处理文档时受到多种因素(如文档布局、任务要求等)的影响。

趋势与预测

  • 新兴话题:探索完成任务的最小模型。
  • 潜在影响:有助于优化文档理解相关的模型开发,提高在处理实际文档时的准确性,对提高工作效率等相关领域产生积极影响。

详细内容:

《文档理解的巨大挑战:旧金山泳池时间表提取案例引发的热议》

近日,Reddit 上一篇关于文档理解的帖子引发了广泛关注。该帖指出,旧金山的游泳池以单页传单形式发布其时间表,但要让开放或闭源模型正确提取周期性的游泳时段时间表,包括生成 ical 格式并正确处理开始、结束时间及节假日等,是一项极具挑战的任务。此帖获得了众多点赞和大量评论。

讨论焦点主要集中在以下几个方面:

有人认为这种布局很糟糕,比如周日单独一行的设置很奇怪,而且相同大小的块却代表不同的时间单位。但也有人指出,现实中这种糟糕的布局比比皆是,比如 M&A 尽职调查清单。

有人让 Chat 4.0 去做这个任务,运行良好但无法转换为 ical 格式,不过写了 Python 脚本实现,花费 5 分钟,然而它没有识别出周一早上的活动和节假日。

有用户尝试了 Qwen2VL-7B 和 Llama-3.2-Vision-11B,均以失败告终。Qwen 只对了一半,遗漏了节假日和部分周一的内容,Llama-3.2 则遗漏了大部分周一的内容,甚至说其余时间没有安排。

还有用户提出有趣的问题,即什么样的最小模型能够完成这项任务。有人认为 Claude 3.5 对此会束手无策,除非有非常精准的提示。但也有人声称用更弱的模型 4o 可以做到,所以可能用更小的模型也能行。

有用户分享个人经历,比如在工作中也遇到类似糟糕的文档。还有人使用 Unstract + Claude 3 Opus 尝试提取并分享了相关结果。

有人用 Claude 3.5 Sonnet 完成了任务,除了周一的早时段,将 PDF 转换为 PNG 后提取基本正确,并表示会帮助创建 ICS 文件,还详细分享了文件的各种特征及内容。

这场讨论中的共识在于大家都认同这项任务的难度,不同模型在处理时都存在各种问题。特别有见地的观点是,现实中类似复杂且糟糕布局的文档非常多,这给模型理解带来了极大困难。

总之,通过这场讨论可以看出,尽管文档理解任务困难重重,但大家仍在不断探索和尝试,期待未来能有更出色的解决方案。