原贴链接

我一直在通过 ollama/Open-WebUI 组合运行所有 LLaMA 工作。这是一个很棒的设置,但有时你只需要完全控制 llama.cpp,这在 ollama 中是不可能的。我想尝试仅用 2x3090s 的 DeepSeek-Coder-236B 模型,但它在 ollama 中无法工作,所以我创建了这个小项目。

https://github.com/mpazdzioch/llamacpp-webui-glue

它非常简单,但它让你完全控制如何运行 llama.cpp,特别是这里使用的 llama-server 版本。你可以使用所有可用的 CLI 选项和最新的 llama.cpp 版本(或任何你喜欢的版本)。

使用 YAML 配置文件,你可以为每个模型设置自定义 CLI 选项或直接运行 .gguf。你还可以设置同一模型的多个配置,它们会在 WebUI 下拉菜单中显示为单独的模型。要开始使用,你只需克隆仓库并设置模型文件夹的路径。来自 WebUI 的请求通过 openresty 代理到 python flask API,该 API 按需启动/停止 llama-server 实例。它可以将多个较小的模型同时放入 VRAM 中,并在你尝试启动较大的模型时移除它们。

我正在考虑添加多个推理引擎,这样就可以同时通过 llama.cpp 运行一个模型,并通过支持 OpenAI 兼容 API 的任何其他引擎运行另一个模型,并在 Open-WebUI 中同时使用它们。

讨论总结

帖子介绍了Llamacpp + WebUI项目,该项目允许用户完全控制llama.cpp,特别是llama-server版本。评论者对项目的控制性、创新性和实用性表示赞赏,并讨论了VRAM管理和许可证问题。主要观点包括对项目的兴趣、对Ollama的不满、对自动VRAM估算的讨论以及对许可证的关注。

主要观点

  1. 👍 完全控制llama.cpp
    • 支持理由:项目提供了对llama.cpp的完全控制,这是其他后端所不具备的。
    • 反对声音:无
  2. 🔥 自动VRAM估算
    • 正方观点:采用自动VRAM估算简化了运行过程。
    • 反方观点:无
  3. 💡 对Ollama的不满
    • 解释:评论者对Ollama有其他不满,因此不使用它。

金句与有趣评论

  1. “😂 Ah cool that’s very neat!”
    • 亮点:简洁地表达了对项目实用性和创新性的认可。
  2. “🤔 I decided to do automatic vram estimation to make it simpler to run.”
    • 亮点:展示了项目在技术实现上的创新。
  3. “👀 Can you add a license to your repo?”
    • 亮点:关注项目的开源性质和使用条件。

情感分析

讨论的总体情感倾向积极,评论者对项目的控制性、创新性和实用性表示赞赏。主要分歧点在于对Ollama的不满和VRAM管理的讨论。可能的原因是用户对完全控制和创新解决方案的需求。

趋势与预测

  • 新兴话题:自动VRAM估算和多模型管理可能会引发更多技术讨论。
  • 潜在影响:项目可能会影响类似后端工具的开发,推动更多创新解决方案的出现。