自开始以来,Ollama ROCm一直让人失望。内存计算总会这样或那样地出错。在固定上下文情况下于24GB内存中运行良好的模型,有时会莫名切换到CPU。模型经常加载失败并出现500错误。最糟糕的是,每个新版本都会带来更多功能上的退化。我受够了,尤其是我的使用场景非常有限,只是单纯的推理,没有并发、调度、结构化输出甚至图像生成。所以我想知道,你们尝试过哪些在ROCm上运行稳定的推理引擎?如果还省内存就更好了。编辑:感谢大家的回复!我将放弃ollama,按照建议使用llama.cpp。
讨论总结
原帖作者对Ollama在AMD GPU上的表现失望,如内存计算出错、模型转至CPU、加载失败等,希望找到稳定运行的替代方案。评论者们纷纷给出建议,有人推荐llama.cpp及其相关工具,如llama - swap、llamafile;有人推荐koboldccp - rocm、Nexa SDK、MLC LLM等。不过也有部分人表示在自己的设备上Ollama运行没有问题,整体讨论氛围比较积极,大家都在分享自己的经验和见解。
主要观点
- 👍 Ollama存在内存计算等诸多问题,应寻找替代方案
- 支持理由:原帖作者列举了如内存计算混乱、模型转至CPU、加载失败等问题,其他评论者也有类似遭遇。
- 反对声音:部分人表示在自己的设备上Ollama运行无问题。
- 🔥 推荐llama.cpp及其相关工具作为替代方案
- 正方观点:可直接运行,参数可调节,能解决Ollama默认设置问题,有很多引擎可供选择。
- 反方观点:无明显反对声音。
- 💡 推荐koboldccp - rocm作为替代方案
- 支持理由:满足在ROCm上稳定运行的需求。
- 反对声音:无。
- 🤔 Ollama在多GPU场景下存在速度慢或运行不佳的情况
- 正方观点:多位评论者在不同设备上验证了该情况。
- 反方观点:无。
- 😎 Ollama并非真正的推理引擎,其推理基于llama.cpp
- 支持理由:实际推理是围绕llama.cpp进行的。
- 反对声音:有人指出Ollama团队自己制作了推理引擎。
金句与有趣评论
- “😂 我从Ollama转用llama.cpp直接*运行就是因为这个。”
- 亮点:直接表明从Ollama转用llama.cpp的原因。
- “🤔 I mainly use LM studio or koboldccp (not the vanilla one but the ROCm branch)”
- 亮点:简单明了地给出替代Ollama的工具。
- “👀 Ollama has been very frustrating even with Nvidia.”
- 亮点:指出Ollama在Nvidia设备上也存在问题,扩展了问题范围。
- “😎 if you are sure that the model fit on gpu, use num_gpu: 99 and the problem is solved.”
- 亮点:提供了一种可能解决Ollama问题的方案。
- “🤯 I like llamafile terminal interface.”
- 亮点:表达对llamafile终端界面的喜爱,引入新的话题元素。
情感分析
总体情感倾向比较中立。主要分歧点在于Ollama是否存在问题,部分人因为自身使用体验良好而认为Ollama没问题,而原帖作者和部分评论者则遭遇了Ollama的各种问题,如内存计算、多GPU运行等方面的问题,所以想要寻找替代方案。
趋势与预测
- 新兴话题:对llamafile终端界面的进一步探讨,不同替代方案之间更深入的性能比较。
- 潜在影响:对AMD GPU上的推理引擎使用选择产生影响,可能促使Ollama团队对产品进行改进以解决存在的问题。
详细内容:
标题:寻找适用于 AMD GPU 的替代 Ollama 的引擎
在 Reddit 上,一篇题为“Alternatives to Ollama for AMD GPUs?”的帖子引发了热烈讨论。该帖子指出,Ollama ROCm 自始至终都令人失望,存在内存计算混乱、模型加载失败等诸多问题,作者受够了,想寻求在 ROCm 上运行稳定且内存高效的其他推理引擎。此帖获得了众多关注,评论数众多。
讨论的焦点主要集中在各种替代方案上。有人表示从 Ollama 转向直接使用 llama.cpp,因为它遵循“最少意外原则”,并且可以通过设置环境变量 OLLAMA_MAX_VRAM 来解决内存估计问题。还有人提到了 llama-swap,称其添加了兼容 OpenAI API 的/models
端点,并且提供了相关的编辑说明。也有人推荐了 koboldccp 的 ROCm 分支、nexa sdk 等。
有人分享说在多 GPU 环境下,某些在 llama.cpp 上能运行的东西在 Ollama 上无法运行,并对其内存计算方式进行了分析。但也有用户表示自己使用 Ollama 没有遇到问题。
对于替代方案,有人认为 Ollama 团队自己打造的推理引擎并非完全从零开始,仍继承了一些设计选择。
总之,大家在讨论中各抒己见,有人对各种替代方案充满期待,也有人对现有方案表示满意。但核心问题仍是如何为 AMD GPU 找到更稳定、高效的推理引擎。
感谢您的耐心阅读!来选个表情,或者留个评论吧!