正如标题所述,在生产环境中运行大型语言模型(LLM)的最佳方式是什么?Ollama和llama.cpp的速度太慢,而且它们不支持多节点推理。
讨论总结
本次讨论主要围绕在生产环境中运行大型语言模型(LLM)的最佳推理引擎展开。vLLM和Aphrodite因其成熟度和性能被多次推荐,同时也有提及使用Ray进行并行化的便利性。此外,讨论还涉及了量化模型、GPU运行速度、多节点支持、技术支持等多个技术细节。总体上,讨论热度较高,参与者对不同推理引擎的性能和适用性进行了深入探讨。
主要观点
- 👍 vLLM是目前最成熟的推理引擎
- 支持理由:vLLM被多次提及,因其成熟度和性能表现优秀。
- 反对声音:无明显反对声音,多数评论持支持态度。
- 🔥 Aphrodite是另一个值得关注的选项
- 正方观点:Aphrodite被认为是一个新兴且有潜力的推理引擎。
- 反方观点:无明显反对声音,多数评论持观望态度。
- 💡 使用Ray进行并行化操作简便
- 解释:Ray的并行化能力被认为可以有效提升推理引擎的性能。
- 👀 Hugging Face的text-generation-inference表现良好
- 解释:TGI在最新的基准测试中显示出良好的性能。
- 🚀 OpenVINO支持多GPU管道和连续批处理
- 解释:OpenVINO的高效推理能力和多平台支持受到关注。
金句与有趣评论
- “😂 Lousy:vLLM is the most mature by far.”
- 亮点:直接指出vLLM的成熟度优势。
- “🤔 umarmnaq:I have been looking into vLLM. Aphodite is a new one, I’ll look into it, thanks!”
- 亮点:对Aphrodite的兴趣和探索态度。
- “👀 kryptkpr:Other then the usual vLLM and Aphrodite here’s a few less discussed options.”
- 亮点:提出了一些较少被讨论的推理引擎选项。
- “😎 danielhanchen:vLLM! There are also many cool settings you can turn on in vLLM as well to make things go brr :)”
- 亮点:强调vLLM的多种优化设置。
- “🚀 Emma_OpenVINO:You can use the OpenVINO backend into vLLM or the OVMS serving option for continuous batching/paged attention on Xeon 500-1k tokens/sec).”
- 亮点:介绍了OpenVINO的高效推理能力。
情感分析
讨论的总体情感倾向积极,多数评论者对vLLM和Aphrodite等推理引擎持肯定态度。主要分歧点在于不同推理引擎的性能和适用场景,部分评论者对新兴引擎持观望态度。可能的原因是生产环境对稳定性和性能有较高要求,因此成熟且经过验证的引擎更受欢迎。
趋势与预测
- 新兴话题:Aphrodite等新兴推理引擎可能会引发更多关注和讨论。
- 潜在影响:高效的推理引擎将进一步提升大型语言模型在生产环境中的应用效率和性能,推动相关技术的发展和应用。
详细内容:
标题:生产环境中最佳推理引擎的热议
在 Reddit 上,有一个帖子引发了广泛关注,题为“生产环境中最佳推理引擎是什么?” 该帖获得了众多用户的参与,评论数众多。帖子主要探讨了在生产环境中运行大语言模型(LLM)时,对于推理引擎的选择问题,提到 Ollama 和 llama.cpp 速度过慢且不支持多节点推理。
讨论的焦点集中在多种推理引擎的优劣上。有人认为 vLLM 是目前最成熟的选择,Aphodite 紧随其后。有用户分享道:“我使用 vLLM 搭配 Ray 进行并行化,过程非常轻松。”也有人表示自己在使用过程中遇到了问题,比如“我在使用 ray 和 vllm 时碰到了一些状况。”
还有用户提到,如果只有单个 GPU 且想快速运行量化模型,可以使用 tabbyAPI,并给出了性能数据,“我在 3090 上能达到 65 - 75t/s。”对于大规模应用,有人推荐 TRT-LLM 。
同时,也有用户提供了一些不太常被讨论的选项,并附上了相关链接。比如:“https://github.com/huggingface/text-generation-inference (较老的 OG 服务器) 、https://github.com/InternLM/lmdeploy (AWQ 聚焦) 、https://github.com/NVIDIA/TensorRT-LLM (使用困难,文档不佳,但在高端 GPU 上性能惊人) 。
有人指出,TGI 现在表现得更好,并附上了基准测试的链接“https://buildkite.com/vllm/performance-benchmark/builds/4068 ” 。还有用户推荐使用 OpenVINO 后端搭配 vLLM 或 OVMS 服务选项。
讨论中也存在不同的声音,有人认为 llama.cpp 服务器速度并非特别慢,对于单用户推理,llama.cpp 4 位比 lmdeploy awq 慢 100 - 200% 。
共识在于 vLLM 被多次提及和推荐。特别有见地的观点如强调 vLLM 运行 float16 模型时的高吞吐量。
总的来说,关于生产环境中最佳推理引擎的选择,用户们各抒己见,提供了丰富的经验和见解,为相关从业者和爱好者提供了有价值的参考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!