原贴链接

大家好,

我的公司最近购买了一台新的AI机器(见附件),用于开发以下解决方案:

  1. 为我们的客户公司定制的ChatGPT,我们将预加载“ChatGPT”(可能是llama3.1 70B)并使用他们的文档进行RAG。我设想我们会同时运行2-3个这样的实例。
  2. 一个内部ChatGPT,允许我们的分析师询问任何问题,上传文档等,而不必担心数据是否发送到云端。
  3. 使用LLM进行临时分类和分析任务,例如用少量示例标记数据集。

对于所有三个解决方案,准确性最为重要,速度主要对解决方案1重要。

硬件配置:

  • NVIDIA RTX 4000 ADA,20GB
  • AMD Threadripper 7960X
  • 128GB DDR5 6000MT/s RAM

我们相信,最好的方式是使用Proxmox为每个解决方案启动一个容器。我见过VMWare的Private AI Foundation与NVIDIA产品结合,尽管我认为它没有带来任何革命性的变化。

对于解决方案1中的每个客户,我们会运行一个新的容器,我考虑使用Ollama(可能是vLLM,或者Llama.cpp会更好?),并配备一个open-webui前端。我设想我们希望在GPU上运行推理,以确保响应迅速。

对于解决方案2,我们只需要一个实例,所以我设想这与解决方案1类似,尽管不需要那么快。我相信在CPU上运行对我们的分析师来说已经足够快了。

对于解决方案3,在GPU上运行可以获得最快的结果,但如果需求增加,也可以将其优先级设置为最低,这样它就会在CPU上运行,因为没有人会直接与它交互。我希望在专用的VM上运行这些类型的任务。

我有以下问题:

  1. 我们在硬件选择上是否做出了正确的决定?是否有人预见到任何问题或瓶颈?(希望还不算太晚退货)
  2. 我的后端/前端是否高效且有效?
  3. 还有其他评论或建议吗?

image

讨论总结

本次讨论主要聚焦于如何在生产环境中部署大型语言模型(LLM),特别是针对硬件配置和性能优化的问题。参与者提出了多种专业建议,包括增加显存、使用更高效的GPU、考虑量化技术等,以确保模型在实际应用中的高效运行。同时,也有讨论关于成本效益和云服务租赁的选项,以及对现有硬件配置的批评和建议。总体上,讨论强调了在选择和配置硬件时需要综合考虑性能、成本和实际应用需求。

主要观点

  1. 👍 显存不足问题
    • 支持理由:20GB的显存对于运行大型模型如Llama 3.1 70B是不够的,建议增加至至少60GB。
    • 反对声音:有建议通过量化技术来适应较低的显存配置。
  2. 🔥 硬件选择的争议
    • 正方观点:建议使用更强大的GPU如A6000 ADA或双3090s。
    • 反方观点:认为可以通过优化和量化技术来适应现有硬件。
  3. 💡 性能优化建议
    • 通过增加更多GPU或使用特定技术如vLLM来优化性能。
    • 建议在购买硬件前进行充分的测试和咨询专业意见。

金句与有趣评论

  1. “😂 Nuckyduck:‘I worry about your VRAM as a primary constraint.’”
    • 亮点:直接指出了硬件配置中的关键限制因素。
  2. “🤔 Any_Elderberry_3985:‘Wrong hardware for sure. Try a A6000 ADA and you can run 4bit quantized.’”
    • 亮点:提出了一个具体的硬件升级建议,并解释了其可行性。
  3. “👀 EmilPi:‘You need to plug 4, maybe 3 of those cards with CPU offload/quants to have tolerable response time.’”
    • 亮点:强调了多GPU配置和量化技术在提高响应时间方面的重要性。

情感分析

讨论的总体情感倾向较为专业和建设性,尽管存在对硬件选择的批评,但大多数评论提供了具体的改进建议和解决方案。主要分歧点在于硬件配置的合理性和性能优化的方法,这可能源于对成本、性能和实际应用需求的权衡。

趋势与预测

  • 新兴话题:量化技术和多GPU配置可能会成为未来讨论的热点。
  • 潜在影响:更高效的硬件配置和优化技术将推动LLM在生产环境中的广泛应用,特别是在需要高吞吐量和低延迟的场景中。

详细内容:

标题:公司购置硬件用于部署LLM引发Reddit热议

近日,Reddit上一则关于某公司购置新AI机器以开展多项LLM相关解决方案的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。

原帖中,公司阐述了购买新硬件的目的,包括为客户公司开发定制的“ChatGPT”、建立内部的ChatGPT以及进行临时分类和分析任务等。同时公布了所购置的硬件配置,包括NVIDIA RTX 4000 ADA、AMD Threadripper 7960X和128GB DDR5 6000MT/s RAM等,并提出计划使用Proxmox为每个解决方案创建容器。然而,对于这一举措,发帖者提出了一些疑问,如硬件选择是否正确、后端/前端是否高效有效等。

讨论焦点主要集中在硬件选择的合理性上。有人指出,VRAM可能是主要限制,建议至少将VRAM提升至60GB。有用户认为使用二手的Quadro卡或许合适,也有人提到可以考虑租用云GPU来明确需求。

有人表示,所购买的硬件对于任务而言并不合适。比如,有用户称若要运行70B模型,至少需要48GB的VRAM,理想情况则更多。还有人提到,运行20GB的35GB模型并将15GB卸载到RAM的方案速度太慢,不可行。

对于后端/前端的效率和效果,有用户认为vLLM可能更适合此任务,而Llama.cpp一般针对低资源设备。同时,也有人指出在使用RAG实现时,可能需要考虑嵌入模型的VRAM需求。

一些特别有见地的观点包括,有人认为发帖者若能调整预期或许能挽救项目,但如果这是全部预算,可能会面临严重困难。还有用户提到应根据实际需求租用硬件,而非盲目购买。

总体而言,此次讨论反映出在部署LLM的硬件选择和方案规划上存在的复杂性和多样性,也凸显了充分调研和专业建议的重要性。