原贴链接

大家好。正如我在上一篇文章中所承诺的，对Mistral - small 3.1视觉进行了测试。简而言之 - 特别值得注意的是，Mistral - small 3.1不仅击败了GPT - 4o mini，还胜过了Pixtral 12B和Pixtral Large模型。而且，这是一项特别难的测试。只有Sonnet 3.7推理和O1推理这两个模型能得100分。我们会问一些刁钻的问题，比如图像中没有的东西，要求用不同的语言回答，以及许多其他挑战极限的问题。Mistral - small 3.1是在此测试中得分超过80%的唯一开源模型。[https://www.youtube.com/watch?v = ppGGEh1zEuU]

讨论总结

原帖分享了Mistral - small 3.1在PDF RAG测试中的成果，包括胜过多个模型且是唯一在该测试中得分超80%的开源模型。评论者们提出各种与技术相关的问题，例如询问所使用的后端、Gemma的得分情况、测试中PDF的类型、PDF图像的传递方式等，也有分享自己技术体验如ollama视觉功能问题，还有推荐工具以及针对问题进行解答等情况，整体氛围比较积极，不过讨论热度较低。

主要观点

👍 对Mistral - small 3.1的测试成果感兴趣并询问后端情况
- 支持理由：原帖展示了Mistral - small 3.1的优秀测试成果，引发好奇。
- 反对声音：无
👍 回答关于后端的问题，指出llm的后端是官方云API，工具是自己构建的网站
- 正方观点：提问者希望得到解答，回答满足需求。
- 反方观点：无
👍 Cannavor遇到ollama视觉功能无法查看图像的问题，Gemma 3在视觉功能方面运行正常
- 支持理由：自身技术体验分享。
- 反对声音：无
🔥 谷歌让工程师与llama.cpp团队合作实现Gemma多模态功能，Mistral、Qwen和微软没有这么做，所以llama.cpp多模态支持比较基础
- 正方观点：从技术合作角度解释llama.cpp多模态支持的现状。
- 反方观点：无
💡 询问Gemma的得分情况，认为Gemma得分不好并怀疑Open Router部署存在漏洞
- 解释：基于原帖Mistral - small 3.1的测试情况对比产生疑问。

金句与有趣评论

“😂 Great what’s the backend used?”
- 亮点：直接针对原帖中Mistral - small 3.1的测试成果提问关键的后端问题。
“🤔 Not sure I understand, the backend for the llm? Its the official mistral cloud api. If you are talking about the tool, its a tool ive built [https://promptjudy.com/]”
- 亮点：详细解答关于后端的疑问。
“👀 Cannavor：I tried getting vision to work with ollama but it keeps telling me it can’t view images. Gemma 3 works fine though.”
- 亮点：分享个人在技术体验中遇到的不同情况。
“🤔 Ok - Contribution9043: Not good but I think there might be a bug with the open router deployment because mistral on open router also didn’t do so well.”
- 亮点：对Gemma得分不好提出合理怀疑并结合Mistral情况分析。
“😎 Locke_Kincaid: Have you tried InternVL2.5 - MPO? So far it’s been my go to for vision tasks.”
- 亮点：推荐在视觉任务中使用的工具。

情感分析

总体情感倾向是积极的。主要分歧点较少，整体讨论比较和谐。可能的原因是原帖是关于技术测试成果的分享，评论者大多是围绕技术问题进行理性探讨，提问得到解答，分享得到回应。

趋势与预测

新兴话题：新的工具如InternVL2.5 - MPO可能会引发后续更多关于视觉任务工具使用的讨论。
潜在影响：对于相关技术领域，如果发现Open Router部署存在漏洞，可能会促使相关人员进行检查和改进，也有助于技术人员对不同模型在不同环境下的表现有更深入的了解。

详细内容：

标题：Mistral-small 3.1 Vision 在 PDF RAG 测试中的表现引热议

在 Reddit 上，一篇关于 Mistral-small 3.1 Vision 测试的帖子引发了众多关注。原帖称，正如之前承诺的那样，Mistral 3.1 small vision 已完成测试。值得一提的是，Mistral-small 3.1 不仅战胜了 GPT-4o mini，还超越了 Pixtral 12B 和 Pixtral Large 模型。此次测试难度颇高，仅有 Sonnet 3.7 reasoning 和 O1 reasoning 这两个模型能拿到 100%的分数，而 Mistral-small 3.1 作为唯一开源模型在该测试中得分超过 80%。帖子还提供了相关测试视频的链接：https://www.youtube.com/watch?v=ppGGEh1zEuU。这一话题吸引了大量的点赞和评论，大家纷纷发表自己的看法。

讨论的焦点主要集中在以下几个方面：有人好奇测试所使用的后端是什么，回答称是官方的 Mistral 云 api，如果说的是工具，则是自行搭建的https://promptjudy.com/。有人表示自己尝试让 ollama 处理视觉任务但失败，而 Gemma 3 却能正常工作，还有人提到谷歌让自家工程师与 llama.cpp 团队合作，以实现 Gemma 的多模态功能，相比之下，Mistral、Qwen 和微软在这方面尚未有所行动，所以 llama.cpp 的多模态支持目前还比较薄弱。有人询问 Gemma 的得分情况，回答称不太理想，且认为 open router 部署可能存在漏洞，导致 Mistral 在 open router 上表现也不佳。还有人想知道测试中传递 PDF 图像的方式，得到的回复是将页面快照以 png 格式传递。另外，有人推荐了 InternVL2.5-MPO 用于视觉任务，原作者表示未曾听说过但会去查看。

在这场讨论中，大家各抒己见，有人对 Mistral-small 3.1 的出色表现表示赞赏，也有人对其他相关模型的情况进行了分析和比较。不同观点的碰撞，让我们对这一领域的发展有了更全面的认识。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#