原贴链接

大家好，

我的公司最近购买了一台新的AI机器（见附件），用于开发以下解决方案：

为我们的客户公司定制的ChatGPT，我们将预加载“ChatGPT”（可能是llama3.1 70B）并使用他们的文档进行RAG。我设想我们会同时运行2-3个这样的实例。
一个内部ChatGPT，允许我们的分析师询问任何问题，上传文档等，而不必担心数据是否发送到云端。
使用LLM进行临时分类和分析任务，例如用少量示例标记数据集。

对于所有三个解决方案，准确性最为重要，速度主要对解决方案1重要。

硬件配置：

NVIDIA RTX 4000 ADA，20GB
AMD Threadripper 7960X
128GB DDR5 6000MT/s RAM

我们相信，最好的方式是使用Proxmox为每个解决方案启动一个容器。我见过VMWare的Private AI Foundation与NVIDIA产品结合，尽管我认为它没有带来任何革命性的变化。

对于解决方案1中的每个客户，我们会运行一个新的容器，我考虑使用Ollama（可能是vLLM，或者Llama.cpp会更好？），并配备一个open-webui前端。我设想我们希望在GPU上运行推理，以确保响应迅速。

对于解决方案2，我们只需要一个实例，所以我设想这与解决方案1类似，尽管不需要那么快。我相信在CPU上运行对我们的分析师来说已经足够快了。

对于解决方案3，在GPU上运行可以获得最快的结果，但如果需求增加，也可以将其优先级设置为最低，这样它就会在CPU上运行，因为没有人会直接与它交互。我希望在专用的VM上运行这些类型的任务。

我有以下问题：

我们在硬件选择上是否做出了正确的决定？是否有人预见到任何问题或瓶颈？（希望还不算太晚退货）
我的后端/前端是否高效且有效？
还有其他评论或建议吗？

讨论总结

本次讨论主要聚焦于如何在生产环境中部署大型语言模型（LLM），特别是针对硬件配置和性能优化的问题。参与者提出了多种专业建议，包括增加显存、使用更高效的GPU、考虑量化技术等，以确保模型在实际应用中的高效运行。同时，也有讨论关于成本效益和云服务租赁的选项，以及对现有硬件配置的批评和建议。总体上，讨论强调了在选择和配置硬件时需要综合考虑性能、成本和实际应用需求。

主要观点

👍 显存不足问题
- 支持理由：20GB的显存对于运行大型模型如Llama 3.1 70B是不够的，建议增加至至少60GB。
- 反对声音：有建议通过量化技术来适应较低的显存配置。
🔥 硬件选择的争议
- 正方观点：建议使用更强大的GPU如A6000 ADA或双3090s。
- 反方观点：认为可以通过优化和量化技术来适应现有硬件。
💡 性能优化建议
- 通过增加更多GPU或使用特定技术如vLLM来优化性能。
- 建议在购买硬件前进行充分的测试和咨询专业意见。

金句与有趣评论

“😂 Nuckyduck：‘I worry about your VRAM as a primary constraint.’”
- 亮点：直接指出了硬件配置中的关键限制因素。
“🤔 Any_Elderberry_3985：‘Wrong hardware for sure. Try a A6000 ADA and you can run 4bit quantized.’”
- 亮点：提出了一个具体的硬件升级建议，并解释了其可行性。
“👀 EmilPi：‘You need to plug 4, maybe 3 of those cards with CPU offload/quants to have tolerable response time.’”
- 亮点：强调了多GPU配置和量化技术在提高响应时间方面的重要性。

情感分析

讨论的总体情感倾向较为专业和建设性，尽管存在对硬件选择的批评，但大多数评论提供了具体的改进建议和解决方案。主要分歧点在于硬件配置的合理性和性能优化的方法，这可能源于对成本、性能和实际应用需求的权衡。

趋势与预测

新兴话题：量化技术和多GPU配置可能会成为未来讨论的热点。
潜在影响：更高效的硬件配置和优化技术将推动LLM在生产环境中的广泛应用，特别是在需要高吞吐量和低延迟的场景中。

详细内容：

标题：公司购置硬件用于部署LLM引发Reddit热议

近日，Reddit上一则关于某公司购置新AI机器以开展多项LLM相关解决方案的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。

原帖中，公司阐述了购买新硬件的目的，包括为客户公司开发定制的“ChatGPT”、建立内部的ChatGPT以及进行临时分类和分析任务等。同时公布了所购置的硬件配置，包括NVIDIA RTX 4000 ADA、AMD Threadripper 7960X和128GB DDR5 6000MT/s RAM等，并提出计划使用Proxmox为每个解决方案创建容器。然而，对于这一举措，发帖者提出了一些疑问，如硬件选择是否正确、后端/前端是否高效有效等。

讨论焦点主要集中在硬件选择的合理性上。有人指出，VRAM可能是主要限制，建议至少将VRAM提升至60GB。有用户认为使用二手的Quadro卡或许合适，也有人提到可以考虑租用云GPU来明确需求。

有人表示，所购买的硬件对于任务而言并不合适。比如，有用户称若要运行70B模型，至少需要48GB的VRAM，理想情况则更多。还有人提到，运行20GB的35GB模型并将15GB卸载到RAM的方案速度太慢，不可行。

对于后端/前端的效率和效果，有用户认为vLLM可能更适合此任务，而Llama.cpp一般针对低资源设备。同时，也有人指出在使用RAG实现时，可能需要考虑嵌入模型的VRAM需求。

一些特别有见地的观点包括，有人认为发帖者若能调整预期或许能挽救项目，但如果这是全部预算，可能会面临严重困难。还有用户提到应根据实际需求租用硬件，而非盲目购买。

总体而言，此次讨论反映出在部署LLM的硬件选择和方案规划上存在的复杂性和多样性，也凸显了充分调研和专业建议的重要性。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#