原贴链接

大家好,我打算在我的研究所(约300人)部署一个本地LLM服务器,以处理不同部门的各种任务。我对硬件和软件栈的推荐特别感兴趣,以便有效地管理预期流量。我最近看到一个高端配置: - 顶级CPU(如Ryzen 9 9950x)搭配高质量、易于升级的主板 - 256GB DDR5内存和快速NVMe存储(2×2TB SN850X) - 冗余电源和定制水冷循环以确保可靠持续运行 - 双高端GPU(每个L40S有48GB显存)用于处理大型模型和多个并发请求 - 对于较轻的工作负载,单个GPU(如Nvidia 3090(24GB))可能就足够了。软件方面: - 使用推理容器(如Ollama)及环境变量(如OLLAMA_NUM_PARALLEL = 4)来处理多达4个并发请求,依赖连续批处理 - Web - Ui。我希望得到大家对以下问题的看法:1. 流量与并发:对于大约每100人有5个并发用户(每个会话最长一小时),管理流量的最佳方法是什么?我应该考虑单个多GPU服务器,还是分布式/多节点设置更有效?2. 软件栈推荐 - 您使用像Ollama这样的推理引擎与诸如vLLM等替代方案时有什么经验? - 是否有其他软件栈、容器编排系统或批处理策略可以帮助优化不同任务的并发请求处理? - 在动态切换任务时,您如何管理模型的智能卸载和资源分配?任何见解、实际经验或替代建议都将非常感激!提前感谢您的帮助和想法。我想为下次会议画一个技术图。

讨论总结

这是一个关于为300人研究机构部署本地LLM服务器的讨论。原帖寻求硬件和软件栈的建议,涵盖流量管理、软件引擎对比等方面。评论者们从不同角度给出观点,有对原帖硬件选择的质疑,也有关于软件选择的建议,还涉及成本考量和需求分析等方面,整体氛围比较理性和专业。

主要观点

  1. 👍 对于300人的研究机构,应深入了解组织需求、成果预期和模型质量要求等方面再部署本地LLM服务器
    • 支持理由:有助于根据组织具体情况部署服务器,避免盲目搭建。
    • 反对声音:无。
  2. 🔥 300人的研究机构使用类似消费级硬件会造成瓶颈,应考虑企业级工作站或机架服务器
    • 正方观点:300人机构是大项目,消费级硬件难以满足需求,企业级设备更可靠。
    • 反方观点:无。
  3. 💡 原帖硬件选择中的AMD 9950x不合适,应采用Threadripper或服务器平台
    • 支持理由:满足DDR5内存带宽和PCIe通道需求,有利于未来扩展。
    • 反对声音:无。
  4. 🤔 部署本地LLM服务器成本高且需要很多系统工程,建议使用云服务提供商
    • 支持理由:本地部署成本和工程复杂度高,云服务可能更经济高效。
    • 反方观点:无。
  5. 💥 在并发生产工作负载方面应选择vllm而非ollama
    • 支持理由:未详细提及,但从评论者经验判断vllm更适合。
    • 反方观点:无。

金句与有趣评论

  1. “😂 What are you wanting to do in your org that the big 3 LLM providers can’t do for you?”
    • 亮点:从独特角度提出在部署本地LLM服务器前应思考的问题,引导深入需求分析。
  2. “🤔 300 is a lot of people, I’m assuming this is a substantial undertaking, but you’ll be bottlenecking yourself with subpar hardware.”
    • 亮点:直接指出原帖硬件计划可能存在的问题,对于讨论硬件选择有重要意义。
  3. “👀 你不能使用AMD 9950x。你需要使用Threadripper,或者基于服务器的平台来获取DDR5内存带宽和PCIe通道。”
    • 亮点:明确指出原帖硬件选择中的不当之处并给出替代方案。
  4. “😎 +1. This is not cheap and also entails a lot of systems engineering. Why not use one of the cloud providers?”
    • 亮点:提出了云服务这种替代本地部署的思路,考虑到成本和工程复杂度。
  5. “💡 绝对要选择vllm而不是ollama用于并发生产工作负载。”
    • 亮点:在软件选择方面给出明确建议。

情感分析

总体情感倾向比较理性客观。主要分歧点在于原帖的硬件和软件选择是否合适,如硬件是否会成为瓶颈、软件引擎的选择等。可能的原因是不同评论者的专业背景和经验不同,对不同硬件和软件的性能、适用性有不同的理解。

趋势与预测

  • 新兴话题:关于如何进行runpod实例的工作负载基准测试可能会引发后续讨论,因为这有助于更精准地确定硬件是否满足需求。
  • 潜在影响:如果更多研究机构面临类似的本地LLM服务器部署问题,这些讨论结果将对他们在硬件投资、软件选择、成本控制等方面产生指导意义,可能影响研究机构的效率和成果产出。

详细内容:

标题:关于 300 人研究所本地 LLM 搭建的热门讨论

在 Reddit 上,一则关于为 300 人规模的研究所部署本地 LLM 服务器的帖子引起了广泛关注。该帖子详细介绍了包括硬件和软件方面的初步设想,如高端的 CPU、大量内存、快速存储设备、冗余电源和多块高端 GPU 等硬件配置,以及使用特定的推理容器和环境变量等软件设置。同时,发帖人还提出了一些关键问题,如如何管理流量和并发、软件栈的选择等。此贴获得了众多评论,引发了热烈的讨论。

在讨论焦点与观点分析中,有人指出,专业从事相关工作时,会提出诸如研究所使用本地 LLM 的独特需求、预期成功的指标、本地模型的关键质量要求等标准问题。还有用户认为,部署这样的系统不能仅依赖消费级硬件,应该考虑企业级工作站或更好的机架服务器,并列举了相关产品链接,强调投资的重要性,否则可能在研究成果上落后于其他投入更多的研究所。也有人提出不能使用 AMD 9950x,而需要 Threadripper 或基于服务器的平台以满足内存带宽和 PCIe 通道要求,同时对某些 SSD 产品的可靠性表示质疑。另外,有观点认为对于 15 个并发用户,这种硬件对于特定模型可能合适,且在并发生产工作负载中应选择 vllm 而非 ollama。

对于是否应搭建本地 LLM 服务器,各方观点存在分歧。有人认为此举可节省 ChatGPT 订阅费用并符合数据保护法律,但也有人认为这一想法缺乏合理性,涉及诸多复杂问题。而在硬件选择上,是选用消费级还是企业级硬件也存在争议。在软件栈方面,不同的推理引擎和策略的优劣也是讨论的重点。

总之,这场关于研究所本地 LLM 搭建的讨论充满了多样性和复杂性,为相关决策提供了丰富的思考角度。