大家好,
我的公司最近购买了一台新的AI机器(见附件),用于开发以下解决方案:
- 为我们的客户公司定制的ChatGPT,我们将预加载“ChatGPT”(可能是llama3.1 70B)并使用他们的文档进行RAG。我设想我们会同时运行2-3个这样的实例。
- 一个内部ChatGPT,允许我们的分析师询问任何问题,上传文档等,而不必担心数据是否发送到云端。
- 使用LLM进行临时分类和分析任务,例如用少量示例标记数据集。
对于所有三个解决方案,准确性最为重要,速度主要对解决方案1重要。
硬件配置:
- NVIDIA RTX 4000 ADA,20GB
- AMD Threadripper 7960X
- 128GB DDR5 6000MT/s RAM
我们相信,最好的方式是使用Proxmox为每个解决方案启动一个容器。我见过VMWare的Private AI Foundation与NVIDIA产品结合,尽管我认为它没有带来任何革命性的变化。
对于解决方案1中的每个客户,我们会运行一个新的容器,我考虑使用Ollama(可能是vLLM,或者Llama.cpp会更好?),并配备一个open-webui前端。我设想我们希望在GPU上运行推理,以确保响应迅速。
对于解决方案2,我们只需要一个实例,所以我设想这与解决方案1类似,尽管不需要那么快。我相信在CPU上运行对我们的分析师来说已经足够快了。
对于解决方案3,在GPU上运行可以获得最快的结果,但如果需求增加,也可以将其优先级设置为最低,这样它就会在CPU上运行,因为没有人会直接与它交互。我希望在专用的VM上运行这些类型的任务。
我有以下问题:
- 我们在硬件选择上是否做出了正确的决定?是否有人预见到任何问题或瓶颈?(希望还不算太晚退货)
- 我的后端/前端是否高效且有效?
- 还有其他评论或建议吗?
讨论总结
本次讨论主要聚焦于如何在生产环境中部署大型语言模型(LLM),特别是针对硬件配置和性能优化的问题。参与者提出了多种专业建议,包括增加显存、使用更高效的GPU、考虑量化技术等,以确保模型在实际应用中的高效运行。同时,也有讨论关于成本效益和云服务租赁的选项,以及对现有硬件配置的批评和建议。总体上,讨论强调了在选择和配置硬件时需要综合考虑性能、成本和实际应用需求。
主要观点
- 👍 显存不足问题
- 支持理由:20GB的显存对于运行大型模型如Llama 3.1 70B是不够的,建议增加至至少60GB。
- 反对声音:有建议通过量化技术来适应较低的显存配置。
- 🔥 硬件选择的争议
- 正方观点:建议使用更强大的GPU如A6000 ADA或双3090s。
- 反方观点:认为可以通过优化和量化技术来适应现有硬件。
- 💡 性能优化建议
- 通过增加更多GPU或使用特定技术如vLLM来优化性能。
- 建议在购买硬件前进行充分的测试和咨询专业意见。
金句与有趣评论
- “😂 Nuckyduck:‘I worry about your VRAM as a primary constraint.’”
- 亮点:直接指出了硬件配置中的关键限制因素。
- “🤔 Any_Elderberry_3985:‘Wrong hardware for sure. Try a A6000 ADA and you can run 4bit quantized.’”
- 亮点:提出了一个具体的硬件升级建议,并解释了其可行性。
- “👀 EmilPi:‘You need to plug 4, maybe 3 of those cards with CPU offload/quants to have tolerable response time.’”
- 亮点:强调了多GPU配置和量化技术在提高响应时间方面的重要性。
情感分析
讨论的总体情感倾向较为专业和建设性,尽管存在对硬件选择的批评,但大多数评论提供了具体的改进建议和解决方案。主要分歧点在于硬件配置的合理性和性能优化的方法,这可能源于对成本、性能和实际应用需求的权衡。
趋势与预测
- 新兴话题:量化技术和多GPU配置可能会成为未来讨论的热点。
- 潜在影响:更高效的硬件配置和优化技术将推动LLM在生产环境中的广泛应用,特别是在需要高吞吐量和低延迟的场景中。
详细内容:
标题:公司购置硬件用于部署LLM引发Reddit热议
近日,Reddit上一则关于某公司购置新AI机器以开展多项LLM相关解决方案的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。
原帖中,公司阐述了购买新硬件的目的,包括为客户公司开发定制的“ChatGPT”、建立内部的ChatGPT以及进行临时分类和分析任务等。同时公布了所购置的硬件配置,包括NVIDIA RTX 4000 ADA、AMD Threadripper 7960X和128GB DDR5 6000MT/s RAM等,并提出计划使用Proxmox为每个解决方案创建容器。然而,对于这一举措,发帖者提出了一些疑问,如硬件选择是否正确、后端/前端是否高效有效等。
讨论焦点主要集中在硬件选择的合理性上。有人指出,VRAM可能是主要限制,建议至少将VRAM提升至60GB。有用户认为使用二手的Quadro卡或许合适,也有人提到可以考虑租用云GPU来明确需求。
有人表示,所购买的硬件对于任务而言并不合适。比如,有用户称若要运行70B模型,至少需要48GB的VRAM,理想情况则更多。还有人提到,运行20GB的35GB模型并将15GB卸载到RAM的方案速度太慢,不可行。
对于后端/前端的效率和效果,有用户认为vLLM可能更适合此任务,而Llama.cpp一般针对低资源设备。同时,也有人指出在使用RAG实现时,可能需要考虑嵌入模型的VRAM需求。
一些特别有见地的观点包括,有人认为发帖者若能调整预期或许能挽救项目,但如果这是全部预算,可能会面临严重困难。还有用户提到应根据实际需求租用硬件,而非盲目购买。
总体而言,此次讨论反映出在部署LLM的硬件选择和方案规划上存在的复杂性和多样性,也凸显了充分调研和专业建议的重要性。
感谢您的耐心阅读!来选个表情,或者留个评论吧!