原贴链接

有没有好的云服务提供商,既经济实惠又能支持大约20个并发用户?

我有一个类似这样的RAG系统: 用户提出一个问题。该问题通过一个小型分类器模型进行检查,判断该问题是应该用SQL数据库(基本收集信息)还是向量数据库(用于复杂文本答案)来回答。 如果它进入SQL,有一个经过微调的Llama 3 8B文本到SQL模型生成查询,然后执行查询,输出作为生成模型(也是Llama 3 8B)的上下文进行总结。 向量搜索也是如此。顶部块被发送到生成模型进行总结。

我考虑将这两个模型托管在云服务器上,并通过API连接到我自己的主应用程序服务器(配备2x 4090)。

我可能最终需要从20个用户扩展到一百个用户。

你能推荐一个仍然经济实惠但最终可以扩展的好配置吗?我没有MLOps的经验,但我读到有一些好的推理框架可以使用,比如vLLM。

提前感谢。

讨论总结

本次讨论主要聚焦于如何为RAG系统选择一个成本效益高的云服务器,以支持20个并发用户并具备未来扩展至100个用户的能力。参与者提出了多种解决方案,包括使用Modal、AWS Bedrock、Runpod、TensorDock、LanceDB、S3等,同时也探讨了自托管和无服务器架构的可行性。讨论中涉及了成本效益、可扩展性、模型托管、推理框架等多个方面,反映了在技术选择上的多样性和复杂性。

主要观点

  1. 👍 选择成本效益高的云服务器
    • 支持理由:需要支持20个并发用户,并且能够24/7运行,同时考虑到未来可能需要扩展到更多用户。
    • 反对声音:使用两块GPU托管两个模型对于20个用户来说是资金浪费。
  2. 🔥 Modal是一个可行的解决方案
    • 正方观点:Modal易于设置和扩展,适合无服务器函数。
    • 反方观点:无具体反对意见,但需进一步研究其性能和成本。
  3. 💡 AWS Bedrock和Runpod的考虑
    • 解释:AWS Bedrock被提及作为一个可能的解决方案,但需注意潜在的安全风险;Runpod则提供了无服务器GPU的选择。
  4. 💡 自托管与无服务器架构的比较
    • 解释:在20个并发用户的情况下,自托管模型在2x 4090服务器上可能是最经济的选择;无服务器架构的冷启动时间较长,但成本较低。
  5. 💡 量化和适应技术优化模型性能
    • 解释:使用4090显卡和量化技术可以优化模型性能,提高吞吐速度。

金句与有趣评论

  1. “😂 Modal makes it easy to set up a webserver/API to serve it through and scales easily as serverless functions.”
    • 亮点:强调了Modal在设置和扩展上的便利性。
  2. “🤔 If first-inference latency isn’t a concern, or if you can hide the cold start latency, serverless GPU on runpod seems like a sensible and scalable choice.”
    • 亮点:提出了无服务器GPU在特定条件下的合理性和扩展性。
  3. “👀 For 20 users, I think the hosting the models in your 2x 4090 would be the most economical if you can.”
    • 亮点:建议在低并发用户情况下,自托管可能是最经济的选择。

情感分析

讨论的总体情感倾向较为积极,多数评论者提供了具体的解决方案和建议。主要分歧点在于选择自托管还是云服务,以及如何在成本效益和可扩展性之间找到平衡。部分评论者对发帖者的财务状况表示担忧,认为某些方案可能过于昂贵。

趋势与预测

  • 新兴话题:无服务器GPU和量化技术可能会成为未来讨论的热点。
  • 潜在影响:选择合适的云服务器和推理框架将对RAG系统的性能和成本产生重要影响,进而可能影响到相关领域的技术发展和服务模式。

详细内容:

标题:寻求成本效益高且可扩展的云服务器来托管 RAG 系统的热门讨论

在 Reddit 上,一则关于寻找成本效益高且能支持约 20 名并发用户、最终可扩展的云服务器来托管 RAG 系统的帖子引发了广泛关注。该帖子获得了众多回复,大家纷纷出谋划策。

原帖中,发帖者详细介绍了其 RAG 系统的工作流程,包括如何处理用户提问、通过分类模型决定使用 SQL 数据库还是向量数据库、以及使用 Llama 3 8B 模型进行相关处理等。发帖者表示考虑将两个模型托管在云服务器上,并作为 API 连接到自己拥有 2 个 4090 的服务器上的主应用程序,同时还提到最终可能需要从 20 个用户扩展到 100 个用户,并寻求成本效益高且可扩展的良好设置,还提到自己没有 MLOps 经验,但知道有像 vLLM 这样的推理框架可以使用。

讨论焦点主要集中在推荐合适的云服务提供商以及托管方案。有人推荐了 Modal,认为其设置网络服务器/API 简便且易于扩展;也有人提到了 Vast、TensorDock、Runpod 等,有人最喜欢 TensorDock,也有人认为 Vast 价格更优。还有人建议查看 deepinfra 或 fireworks 以获取 GPU 的精细计费。对于服务器的选择,有人提到如果不担心首推推理延迟或能隐藏冷启动延迟,Runpod 的无服务器 GPU 是一个明智且可扩展的选择;有人认为对于 20 个用户来说,在 2 个 4090 上托管模型不太经济;也有人提到 LanceDB + S3。有人认为此时应该选择自定义服务器,并给出了相关的技术建议和量化模型的选择。还有人推荐了 Inferless 等平台。

不同观点之间存在一定的争议。例如,对于某些云服务提供商的性价比和适用性,大家看法不一。但也存在一些共识,比如都在努力为发帖者提供可行且经济有效的方案。

特别有见地的观点如关于不同量化模型和框架的分析,为讨论增添了深度和专业性。

总之,这场讨论为寻求合适云服务器托管方案的发帖者提供了丰富多样的思路和建议。