原贴链接

虽然我仍然是一个LLMs的新手,但我愿意学习。我成功安装了一个本地的ollama实例,并使用Perplexica进行我自己的网页搜索。

这运行得很好,我想尝试视觉模型,我发现open-webui支持文件上传和视频通话,就像ChatGPT一样。

问题是,我无法让任何视觉模型工作,它们要么完全不工作,要么我得到的预测结果完全是胡说八道,与我要求描述的图像完全不同。

我需要帮助来弄清楚我做错了什么,普通的聊天LLMs工作得很好,但无论如何我都无法使用任何具有视觉能力的模型。

我正在从Huggingface导入GGUF模型到Ollama,并传递Ollama在执行此操作时提供的默认Modelfile内容:

TEMPLATE """{{ .System }}

USER: {{ .Prompt }}

ASSISTANT: """

PARAMETER num_ctx 4096

PARAMETER stop "</s>"

PARAMETER stop "USER:"

PARAMETER stop "ASSISTANT:"

讨论总结

本次讨论主要围绕用户在使用open-webui中的视觉模型时遇到的问题展开。用户尝试了多种模型,如7b mistral llava、Phi-3.5-3.8B-vision-instruct-Q8_0等,但这些模型要么完全无法工作,要么给出的预测结果与实际图像完全不符。讨论中涉及的主要话题包括模型配置、上传方式、命令行使用以及本地模型的性能问题。用户寻求帮助以了解他们可能做错了什么,并询问是否有特定的模型推荐。

主要观点

  1. 👍 用户尝试了多种视觉模型,但效果不佳
    • 支持理由:用户尝试了7b mistral llava、Phi-3.5-3.8B-vision-instruct-Q8_0等模型,但效果不佳。
    • 反对声音:有建议尝试MiniCPM-V-2_6模型,但用户表示无法理解相关页面。
  2. 🔥 用户通过ollama命令行尝试使用模型,发现某些模型在命令行下可以正常工作
    • 正方观点:用户通过ollama命令行尝试使用模型,发现某些模型在命令行下可以正常工作。
    • 反方观点:用户在open-webui中寻找“Vision enabled”选项,但不确定其具体位置。
  3. 💡 用户询问open-webui是否支持图像上传,以及如何通过命令行传递图像
    • 解释:用户在open-webui中寻找“Vision enabled”选项,但不确定其具体位置,并询问如何通过命令行传递图像。

金句与有趣评论

  1. “😂 I found that models like 7b mistral llava fall extremely short compared to GPT4o.”
    • 亮点:用户对比了不同模型的效果,指出了7b mistral llava模型的不足。
  2. “🤔 Aside from llava the other goes absolutely bananas, i am using a road in the middle of a forest asking what is in the middle of the image and i got descriptions of an elderly man, an eye and other completely random descriptions.”
    • 亮点:用户描述了模型预测结果与实际图像完全不符的情况,形象生动。
  3. “👀 I think you just need to provide the path to the image in the prompt if i remember correctly.”
    • 亮点:评论者提供了具体的解决方案,建议用户在提示中提供图像路径。

情感分析

讨论的总体情感倾向较为消极,主要分歧点在于用户在使用视觉模型时遇到的问题。用户普遍感到困惑和失望,因为他们无法使模型正常工作或得到准确的预测结果。可能的原因包括模型配置不当、上传方式错误以及本地模型性能不佳。

趋势与预测

  • 新兴话题:用户对特定模型的推荐和配置方法的讨论可能会引发更多关于如何优化视觉模型使用的讨论。
  • 潜在影响:对视觉模型使用的优化可能会提高用户在open-webui中的体验,进而推动更多用户尝试和使用这些模型。

详细内容:

标题:在 open-webui 中使用视觉模型的难题

在 Reddit 上,有一个关于在 open-webui 中使用视觉模型的热门讨论。原帖作者表示自己虽还是新手但愿意学习,成功安装了本地 ollama 实例用于网络搜索,想尝试视觉模型却遇到问题。该帖获得了较多关注,评论也十分热烈。

主要讨论方向集中在作者尝试的各种视觉模型效果不佳,以及如何解决这些问题。

有人尝试了 7b mistral llava 等模型,发现效果不如 GPT4o,期待新的 phi 3.5 视觉模型能带来改进但还未尝试。有人表示 llava 通过 ollama 可用,通过命令行需提供图片路径。还有人建议检查模型中“Vision enabled”的勾选,或调整模型参数、使用不同的视觉模型,比如 MiniCPM-V-2_6 。但作者尝试后效果仍不理想。有人指出或许需要使用 MMPROJ ,但作者表示不太明白。还有人提到若上传图片预测错误,提供图片路径则预测准确。

讨论中的共识是本地 VLLMs 的质量存在一定局限性。

特别有见地的观点如有人详细分享了自己使用特定模型的情况,为解决问题提供了更多思路。但目前对于如何在 open-webui 中顺利使用视觉模型仍未达成明确的统一解决方案。