大家好。正如我在上一篇文章中所承诺的,对Mistral - small 3.1视觉进行了测试。简而言之 - 特别值得注意的是,Mistral - small 3.1不仅击败了GPT - 4o mini,还胜过了Pixtral 12B和Pixtral Large模型。而且,这是一项特别难的测试。只有Sonnet 3.7推理和O1推理这两个模型能得100分。我们会问一些刁钻的问题,比如图像中没有的东西,要求用不同的语言回答,以及许多其他挑战极限的问题。Mistral - small 3.1是在此测试中得分超过80%的唯一开源模型。[https://www.youtube.com/watch?v = ppGGEh1zEuU]
讨论总结
原帖分享了Mistral - small 3.1在PDF RAG测试中的成果,包括胜过多个模型且是唯一在该测试中得分超80%的开源模型。评论者们提出各种与技术相关的问题,例如询问所使用的后端、Gemma的得分情况、测试中PDF的类型、PDF图像的传递方式等,也有分享自己技术体验如ollama视觉功能问题,还有推荐工具以及针对问题进行解答等情况,整体氛围比较积极,不过讨论热度较低。
主要观点
- 👍 对Mistral - small 3.1的测试成果感兴趣并询问后端情况
- 支持理由:原帖展示了Mistral - small 3.1的优秀测试成果,引发好奇。
- 反对声音:无
- 👍 回答关于后端的问题,指出llm的后端是官方云API,工具是自己构建的网站
- 正方观点:提问者希望得到解答,回答满足需求。
- 反方观点:无
- 👍 Cannavor遇到ollama视觉功能无法查看图像的问题,Gemma 3在视觉功能方面运行正常
- 支持理由:自身技术体验分享。
- 反对声音:无
- 🔥 谷歌让工程师与llama.cpp团队合作实现Gemma多模态功能,Mistral、Qwen和微软没有这么做,所以llama.cpp多模态支持比较基础
- 正方观点:从技术合作角度解释llama.cpp多模态支持的现状。
- 反方观点:无
- 💡 询问Gemma的得分情况,认为Gemma得分不好并怀疑Open Router部署存在漏洞
- 解释:基于原帖Mistral - small 3.1的测试情况对比产生疑问。
金句与有趣评论
- “😂 Great what’s the backend used?”
- 亮点:直接针对原帖中Mistral - small 3.1的测试成果提问关键的后端问题。
- “🤔 Not sure I understand, the backend for the llm? Its the official mistral cloud api. If you are talking about the tool, its a tool ive built [https://promptjudy.com/]”
- 亮点:详细解答关于后端的疑问。
- “👀 Cannavor:I tried getting vision to work with ollama but it keeps telling me it can’t view images. Gemma 3 works fine though.”
- 亮点:分享个人在技术体验中遇到的不同情况。
- “🤔 Ok - Contribution9043: Not good but I think there might be a bug with the open router deployment because mistral on open router also didn’t do so well.”
- 亮点:对Gemma得分不好提出合理怀疑并结合Mistral情况分析。
- “😎 Locke_Kincaid: Have you tried InternVL2.5 - MPO? So far it’s been my go to for vision tasks.”
- 亮点:推荐在视觉任务中使用的工具。
情感分析
总体情感倾向是积极的。主要分歧点较少,整体讨论比较和谐。可能的原因是原帖是关于技术测试成果的分享,评论者大多是围绕技术问题进行理性探讨,提问得到解答,分享得到回应。
趋势与预测
- 新兴话题:新的工具如InternVL2.5 - MPO可能会引发后续更多关于视觉任务工具使用的讨论。
- 潜在影响:对于相关技术领域,如果发现Open Router部署存在漏洞,可能会促使相关人员进行检查和改进,也有助于技术人员对不同模型在不同环境下的表现有更深入的了解。
详细内容:
标题:Mistral-small 3.1 Vision 在 PDF RAG 测试中的表现引热议
在 Reddit 上,一篇关于 Mistral-small 3.1 Vision 测试的帖子引发了众多关注。原帖称,正如之前承诺的那样,Mistral 3.1 small vision 已完成测试。值得一提的是,Mistral-small 3.1 不仅战胜了 GPT-4o mini,还超越了 Pixtral 12B 和 Pixtral Large 模型。此次测试难度颇高,仅有 Sonnet 3.7 reasoning 和 O1 reasoning 这两个模型能拿到 100%的分数,而 Mistral-small 3.1 作为唯一开源模型在该测试中得分超过 80%。帖子还提供了相关测试视频的链接:https://www.youtube.com/watch?v=ppGGEh1zEuU。这一话题吸引了大量的点赞和评论,大家纷纷发表自己的看法。
讨论的焦点主要集中在以下几个方面: 有人好奇测试所使用的后端是什么,回答称是官方的 Mistral 云 api,如果说的是工具,则是自行搭建的https://promptjudy.com/。有人表示自己尝试让 ollama 处理视觉任务但失败,而 Gemma 3 却能正常工作,还有人提到谷歌让自家工程师与 llama.cpp 团队合作,以实现 Gemma 的多模态功能,相比之下,Mistral、Qwen 和微软在这方面尚未有所行动,所以 llama.cpp 的多模态支持目前还比较薄弱。有人询问 Gemma 的得分情况,回答称不太理想,且认为 open router 部署可能存在漏洞,导致 Mistral 在 open router 上表现也不佳。还有人想知道测试中传递 PDF 图像的方式,得到的回复是将页面快照以 png 格式传递。另外,有人推荐了 InternVL2.5-MPO 用于视觉任务,原作者表示未曾听说过但会去查看。
在这场讨论中,大家各抒己见,有人对 Mistral-small 3.1 的出色表现表示赞赏,也有人对其他相关模型的情况进行了分析和比较。不同观点的碰撞,让我们对这一领域的发展有了更全面的认识。
感谢您的耐心阅读!来选个表情,或者留个评论吧!