Python 在不使用 Docker 的情况下调用本地 llama

使用场景：从 Python 脚本调用 llama 模型，传递输入文本，获取返回的响应。大多数实现方法（如 ollama、llama.cpp 服务器等）都需要设置一个本地运行的 API 服务器；有没有不涉及这一步骤的方法？

我正在使用 Windows 系统，并且使用的是 RTX 3090 显卡。

Python 调用中希望具备的功能：

设置系统提示、上下文长度，
控制一些设置，如温度，
“重置”自身（开始新会话），
运行非 llama 模型（例如 Yi、Mistral 等）。

我的使用场景：一个脚本读取文件，使用 llm 进行总结，并将输出写入某个位置。

讨论总结

本次讨论主要围绕如何在Windows环境下不使用Docker和本地API服务器调用llama模型展开。讨论中涉及的主要观点包括：直接运行llama-server而不使用Docker、通过编写批处理文件简化操作、使用Python绑定避免启动服务器、以及通过ollama API进行通信等。讨论的情感倾向较为中性，主要集中在技术实现和工具使用上。

主要观点

👍 运行llama-server不需要Docker
- 支持理由：可以直接在另一个窗口中运行，与Python脚本同时进行。
- 反对声音：如果要求所有操作都在一个自包含的环境中进行，需要在Python脚本中实现llama.cpp的功能。
🔥 使用Python绑定避免启动服务器
- 正方观点：可以通过使用llama_cpp_python的Python绑定来避免启动本地API服务器。
- 反方观点：标题与内容讨论的主题不一致，可能导致误解。
💡 通过ollama API进行通信
- 解释：即使在使用终端窗口与模型聊天时，实际上也是在通过API与服务器通信。可以使用Python的requests库来发送请求。

金句与有趣评论

“😂 the_quark：You know that running llama-server from llama.cpp doesn’t require Docker, right?”
- 亮点：指出运行llama-server并不需要Docker，直接在另一个窗口中运行即可。
“🤔 aaronr_90：Your title and your question are two different topics.”
- 亮点：指出帖子的标题与内容讨论的主题不一致，可能导致误解。
“👀 robotoast："Even chatting with a model in the terminal window is really talking to the server through its API and giving you the results."”
- 亮点：解释了在使用终端窗口与模型聊天时，实际上是通过API与服务器通信。

情感分析

讨论的总体情感倾向较为中性，主要集中在技术实现和工具使用上。主要分歧点在于是否需要使用Docker和本地API服务器，以及如何简化操作流程。可能的原因是不同用户对技术实现的要求和偏好不同。

趋势与预测

新兴话题：使用Python绑定和ollama API进行模型调用可能会成为后续讨论的热点。
潜在影响：这些技术实现方法可能会简化模型调用的流程，提高开发效率。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测