基于qwen2.5系列,它们涵盖了从1B到32B的所有规模。https://huggingface.co/collections/AIDC - AI/ovis2 - 67ab36c7e497429034874464。我们很高兴地宣布Ovis2的发布,这是我们在多模态大语言模型(MLLMs)方面的最新进展。Ovis2继承了Ovis系列的创新架构设计,旨在从结构上对齐视觉和文本嵌入。作为Ovis1.6的后继者,Ovis2在数据集管理和训练方法上都有显著改进。
讨论总结
这个讨论围绕着阿里巴巴的Ovis2多模态大语言模型展开。涉及到它的模型性能,包括不同规模模型(如1B、2B等)在OCR测试、识别能力等方面的表现,还提及了模型的授权情况、种类,以及与其他框架(如MLX、vllm)的兼容性、转换问题,还有模型的本地运行情况,讨论热度有高有低。
主要观点
- 👍 Ovis2的1B模型在识别能力上有独特之处
- 支持理由:能识别Claude存在识别困难的内容
- 反对声音:无
- 🔥 Ovis2的1B模型通过OCR测试表现令人惊讶
- 正方观点:1B模型通过了一些其他模型(如Llama 11B)未通过的OCR测试
- 反方观点:无
- 💡 Ovis2看起来不错,性能与qwen和internvl模型相似
- 支持理由:在推理能力方面较同规模模型突出,在特定情境下有用
- 反对声音:无
- 💡 Ovis2项目基于Apache License 2.0授权且有多种模型
- 支持理由:直接阐述项目授权和模型种类
- 反对声音:无
- 💡 关注Ovis2模型转换为gguf的可能性
- 支持理由:无(只是单纯提问)
- 反对声音:无
金句与有趣评论
- “😂 Well the 1b is recognizing stuff claude has trouble with, so I’m impresse.”
- 亮点:指出1B模型在识别能力上的独特之处
- “🤔 ab2377: so the 1b actually totally passes my ocr test,… this… is… amazing… to say the least!”
- 亮点:表达对1B模型通过OCR测试的惊讶
- “👀 Looks good, seems to perform similarly to the recent qwen and internvl models.”
- 亮点:对Ovis2性能的初步评价
- “😉 This project is licensed under the Apache License, Version 2.0, and there are 1, 2, 4, 8, 16 and 34B models.”
- 亮点:介绍项目授权和模型种类信息
- “🤨 Is it possible for that model to be converted to a gguf?”
- 亮点:提出模型转换的疑问
情感分析
总体情感倾向是正面的,大多数评论者对Ovis2模型的性能表示认可或看好。主要分歧点较少,可能是因为目前该模型还处于较新的阶段,大家更多是在探索和分享自己的初步体验。
趋势与预测
- 新兴话题:Ovis2模型在本地运行的更多探索以及与其他框架兼容性的改善。
- 潜在影响:如果Ovis2模型性能持续被认可,可能会在多模态大语言模型领域产生更多的关注,推动相关技术的发展。
详细内容:
标题:阿里巴巴国际数字商务集团发布 Ovis2 多模态语言模型引发热议
最近,Reddit 上一则关于阿里巴巴国际数字商务集团发布 Ovis2 多模态语言模型的帖子引发了众多关注。该帖子介绍了 Ovis2 基于 qwen2.5 系列,涵盖了从 1B 到 32B 的各种规模,还提供了相关链接(https://huggingface.co/collections/AIDC-AI/ovis2-67ab36c7e497429034874464)。此帖获得了大量的点赞和众多评论,大家主要围绕 Ovis2 的性能表现展开了热烈讨论。
在讨论中,有人表示 1B 版本能够识别 Claude 处理不好的内容,虽然测试样本量较小,但值得进一步探索。有用户分享道:“1B 版本实际上完全通过了我的 OCR 测试,这简直太棒了!”还有用户称:“在线 1B 演示通过了 llama 11B 失败的 OCR 测试,好得令人疯狂。”也有人说 2B 版本从两列布局中提取了格式为 json 的文本,而之前使用的 7B 版本都失败了。有人提到 1B 版本甚至能读取超市的价格标签,并希望能有量化版本在 CPU 低资源环境中运行。
有人认为 Ovis2 看起来不错,性能与近期的 qwen 和 internvl 模型相当,其推理能力在同规模模型中表现突出,在某些情境下可能非常有用。还有人询问该模型能否转换为 gguf 格式,有人尝试用 mlx_vlm.convert 和 mlx_lm.convert 进行转换但失败了,出现“ValueError: Model type ovis not supported.”的提示。也有人提出为什么它还不能与 vllm 一起使用。有人则回应应提交 PR。有人对网站的随机截图进行测试,发现它能毫无问题地解读文章。有人询问是否有人在本地运行 1B 版本,有用户回复称使用了示例推理代码,效果令人印象深刻。
可以看出,大家对于 Ovis2 模型的性能表现普遍较为认可,认为其在某些方面具有独特的优势。但在模型的兼容性和转换方面,还存在一些疑问和挑战。不过,这也为进一步完善和优化该模型提供了方向和思路。
感谢您的耐心阅读!来选个表情,或者留个评论吧!