我一直在通过 ollama/Open-WebUI 组合运行所有 LLaMA 工作。这是一个很棒的设置,但有时你只需要完全控制 llama.cpp,这在 ollama 中是不可能的。我想尝试仅用 2x3090s 的 DeepSeek-Coder-236B 模型,但它在 ollama 中无法工作,所以我创建了这个小项目。
https://github.com/mpazdzioch/llamacpp-webui-glue
它非常简单,但它让你完全控制如何运行 llama.cpp,特别是这里使用的 llama-server 版本。你可以使用所有可用的 CLI 选项和最新的 llama.cpp 版本(或任何你喜欢的版本)。
使用 YAML 配置文件,你可以为每个模型设置自定义 CLI 选项或直接运行 .gguf。你还可以设置同一模型的多个配置,它们会在 WebUI 下拉菜单中显示为单独的模型。要开始使用,你只需克隆仓库并设置模型文件夹的路径。来自 WebUI 的请求通过 openresty 代理到 python flask API,该 API 按需启动/停止 llama-server 实例。它可以将多个较小的模型同时放入 VRAM 中,并在你尝试启动较大的模型时移除它们。
我正在考虑添加多个推理引擎,这样就可以同时通过 llama.cpp 运行一个模型,并通过支持 OpenAI 兼容 API 的任何其他引擎运行另一个模型,并在 Open-WebUI 中同时使用它们。
讨论总结
帖子介绍了Llamacpp + WebUI项目,该项目允许用户完全控制llama.cpp,特别是llama-server版本。评论者对项目的控制性、创新性和实用性表示赞赏,并讨论了VRAM管理和许可证问题。主要观点包括对项目的兴趣、对Ollama的不满、对自动VRAM估算的讨论以及对许可证的关注。
主要观点
- 👍 完全控制llama.cpp
- 支持理由:项目提供了对llama.cpp的完全控制,这是其他后端所不具备的。
- 反对声音:无
- 🔥 自动VRAM估算
- 正方观点:采用自动VRAM估算简化了运行过程。
- 反方观点:无
- 💡 对Ollama的不满
- 解释:评论者对Ollama有其他不满,因此不使用它。
金句与有趣评论
- “😂 Ah cool that’s very neat!”
- 亮点:简洁地表达了对项目实用性和创新性的认可。
- “🤔 I decided to do automatic vram estimation to make it simpler to run.”
- 亮点:展示了项目在技术实现上的创新。
- “👀 Can you add a license to your repo?”
- 亮点:关注项目的开源性质和使用条件。
情感分析
讨论的总体情感倾向积极,评论者对项目的控制性、创新性和实用性表示赞赏。主要分歧点在于对Ollama的不满和VRAM管理的讨论。可能的原因是用户对完全控制和创新解决方案的需求。
趋势与预测
- 新兴话题:自动VRAM估算和多模型管理可能会引发更多技术讨论。
- 潜在影响:项目可能会影响类似后端工具的开发,推动更多创新解决方案的出现。
感谢您的耐心阅读!来选个表情,或者留个评论吧!