原贴链接

该模型已于2024年5月发布,但llama.cpp终于在两天前合并了对openbmb/MiniCPM-Llama3-V-2_5的支持

希望对2.6版本的支持也即将到来。

这里是官方gguf。

来自他们Huggingface的模型总结:

MiniCPM-Llama3-V 2.5是MiniCPM-V系列的最新模型。该模型基于SigLip-400M和Llama3-8B-Instruct构建,总共有8B参数。与MiniCPM-V 2.0相比,它表现出显著的性能提升。MiniCPM-Llama3-V 2.5的显著特点包括:

  • 🔥 领先性能。MiniCPM-Llama3-V 2.5在OpenCompass上取得了65.1的平均分,这是一个涵盖11个流行基准的综合评估。仅用8B参数,它就超过了广泛使用的专有模型,如GPT-4V-1106、Gemini Pro、Claude 3和Qwen-VL-Max,并大大优于其他基于Llama 3的MLLMs。
  • 💪 强大的OCR能力。MiniCPM-Llama3-V 2.5可以处理任何宽高比的图像,最高可达180万像素(例如,1344x1344),在OCRBench上取得了700+的分数,超过了专有模型,如GPT-4o、GPT-4V-0409、Qwen-VL-Max和Gemini Pro。根据最近的用户反馈,MiniCPM-Llama3-V 2.5现已增强了全文OCR提取、表格到Markdown转换等高实用性功能,并进一步强化了指令遵循和复杂推理能力,增强了多模态交互体验。
  • 🏆 可信赖的行为。借助最新的RLAIF-V方法(RLHF-V [CVPR'24]系列的最新技术),MiniCPM-Llama3-V 2.5表现出更可信赖的行为。它在Object HalBench上的幻觉率为10.3%,低于GPT-4V-1106(13.6%),在开源社区中达到了最佳水平。数据已发布。
  • 🌏 多语言支持。得益于Llama 3的强大多语言能力和VisCPM的跨语言泛化技术,MiniCPM-Llama3-V 2.5将其双语(中英)多模态能力扩展到包括德语、法语、西班牙语、意大利语、韩语、日语等在内的30多种语言。所有支持的语言。
  • 🚀 高效部署。MiniCPM-Llama3-V 2.5系统地采用了模型量化、CPU优化、NPU优化和编译优化,实现了在边缘设备上的高效部署。对于搭载高通芯片的手机,我们首次将NPU加速框架QNN集成到llama.cpp中。经过系统优化,MiniCPM-Llama3-V 2.5在多模态大模型端侧图像编码实现了150倍的加速,语言解码速度提高了3倍。
  • 💫 易于使用。MiniCPM-Llama3-V 2.5可以通过多种方式轻松使用:(1) llama.cpp和ollama支持本地设备上的高效CPU推理,(2) GGUF格式量化模型有16种大小,(3) 仅需2块V100 GPU的高效LoRA微调,(4) 流式输出,(5) 使用Gradio和Streamlit快速本地WebUI演示设置,(6) HuggingFace Spaces上的交互式演示。

讨论总结

本次讨论主要围绕openbmb/MiniCPM-Llama3-V-2_5模型的使用、性能、兼容性和技术调整展开。参与者关注模型的版本问题,特别是Llama 3的版本差异,以及图像处理和上下文扩展的需求。此外,讨论还涉及模型的更新、技术调整和兼容性问题,以及在Android设备上的运行情况。整体氛围偏向技术探讨,参与者分享了各自的使用经验和技术见解。

主要观点

  1. 👍 Llama 3版本问题
    • 支持理由:评论者询问模型使用的是哪个版本的Llama 3,显示了对版本差异的关注。
    • 反对声音:有回复认为可能是旧版的Llama 3,而非3.1版本。
  2. 🔥 图像处理与上下文扩展
    • 正方观点:评论者指出由于图像token消耗量大,需要扩展上下文。
    • 反方观点:有回复尝试使用Llama 3.1的权重进行投影,但未明确输出效果的优劣。
  3. 💡 模型更新与性能优化
    • MiniCPM-Llama3-V 2.6版本比2.5版本有显著的性能提升,但尚未得到llama.cpp的兼容支持。
    • 评论者分享了具体的调整方法和注意事项,显示了对模型优化的关注。

金句与有趣评论

  1. “😂 Does this use old or new Llama 3? Given how much tokens each image consumes, that extended context is desperately needed here.”
    • 亮点:评论者对Llama 3版本的疑问和对上下文扩展的需求表达得非常直接。
  2. “🤔 Minicpm 2.6 came out a week ago, and it’s orders of magnitude better than 2.5, its working on ollama since this morning with a little tweak.”
    • 亮点:评论者分享了2.6版本的显著性能提升和在ollama上的运行情况。
  3. “👀 I wanna run Gemma-2-2b-it on Android but not with llama.cpp.”
    • 亮点:评论者表达了对在Android上运行模型的需求,显示了对不同运行环境的关注。

情感分析

讨论的总体情感倾向偏向中性,主要分歧点在于模型的版本选择、性能优化和兼容性问题。参与者普遍关注模型的实际效果和技术细节,对于模型的更新和优化持积极态度,但对于某些技术细节和兼容性问题表示担忧。

趋势与预测

  • 新兴话题:模型的版本选择和性能优化可能会引发更多后续讨论。
  • 潜在影响:模型的优化和兼容性改进将对开源社区和相关技术领域产生积极影响。

详细内容:

标题:关于 openbmb/MiniCPM-Llama3-V-2_5 在 llama.cpp 中的热门讨论

最近,Reddit 上关于 openbmb/MiniCPM-Llama3-V-2_5 在 llama.cpp 中的话题引发了众多关注。原帖称 llama.cpp 于两天前终于合并了对该模型的支持,还提供了相关的链接,包括模型在 GitHub 上的合并请求以及官方的 gguf 等。此帖获得了大量的浏览和众多的评论。

讨论的焦点主要集中在以下几个方面: 首先,对于模型所使用的 Llama 3 版本存在疑问。有用户猜测可能是旧版的 Llama 3,而非 3.1 版本。 其次,Minicpm 2.6 已推出,有用户表示其在 ollama 上经过微调后可以使用,但目前在大多数平台还未得到支持,且 llama.cpp 也还未兼容。 还有用户提到 InternVL2-Llama3-76B 这一模型,认为它可能是最好的开源视觉语言模型,但在 llama.cpp 中不被支持。 有用户想在 Android 上运行 Gemma-2-2b-it ,但不知道如何操作。 也有用户分享了使用 MiniCPM-Llama3-V 2.5 阅读屏幕和电子书的经历,认为其在描述和标记图像方面表现不佳,但在某些方面使用方便。

有用户分享道:“我测试了这个版本 https://ollama.com/xuxx/minicpm2.6,在 ollama 上运行良好,不过您得翻译一下中文的说明页面。在说明页面中提到,因为它与最新的 ollama 版本不兼容,所以得降级 ollama,页面中提供了清晰的解释和文件。”

另一位用户说道:“我用这个来读我的屏幕/电子书,然后对内容提问,但我发现它在描述/标记图像方面没什么用。但不管基准测试结果如何,我都更喜欢 Llama 3 而不是新的 Qwen VLM。”

讨论中存在一些共识,比如大家都对新模型的性能和兼容性非常关注,希望能够在更多平台上得到优化和支持。特别有见地的观点是关于模型在不同场景下的实际应用体验,这些观点丰富了讨论,让大家对模型有了更全面的认识。

总的来说,这次关于 openbmb/MiniCPM-Llama3-V-2_5 的讨论反映了大家对新技术的期待和探索,也为相关领域的发展提供了有价值的参考。