原贴链接

大家好，我打算在我的研究所（约300人）部署一个本地LLM服务器，以处理不同部门的各种任务。我对硬件和软件栈的推荐特别感兴趣，以便有效地管理预期流量。我最近看到一个高端配置： - 顶级CPU（如Ryzen 9 9950x）搭配高质量、易于升级的主板 - 256GB DDR5内存和快速NVMe存储（2×2TB SN850X） - 冗余电源和定制水冷循环以确保可靠持续运行 - 双高端GPU（每个L40S有48GB显存）用于处理大型模型和多个并发请求 - 对于较轻的工作负载，单个GPU（如Nvidia 3090（24GB））可能就足够了。软件方面： - 使用推理容器（如Ollama）及环境变量（如OLLAMA_NUM_PARALLEL = 4）来处理多达4个并发请求，依赖连续批处理 - Web - Ui。我希望得到大家对以下问题的看法：1. 流量与并发：对于大约每100人有5个并发用户（每个会话最长一小时），管理流量的最佳方法是什么？我应该考虑单个多GPU服务器，还是分布式/多节点设置更有效？2. 软件栈推荐 - 您使用像Ollama这样的推理引擎与诸如vLLM等替代方案时有什么经验？ - 是否有其他软件栈、容器编排系统或批处理策略可以帮助优化不同任务的并发请求处理？ - 在动态切换任务时，您如何管理模型的智能卸载和资源分配？任何见解、实际经验或替代建议都将非常感激！提前感谢您的帮助和想法。我想为下次会议画一个技术图。

讨论总结

这是一个关于为300人研究机构部署本地LLM服务器的讨论。原帖寻求硬件和软件栈的建议，涵盖流量管理、软件引擎对比等方面。评论者们从不同角度给出观点，有对原帖硬件选择的质疑，也有关于软件选择的建议，还涉及成本考量和需求分析等方面，整体氛围比较理性和专业。

主要观点

👍 对于300人的研究机构，应深入了解组织需求、成果预期和模型质量要求等方面再部署本地LLM服务器
- 支持理由：有助于根据组织具体情况部署服务器，避免盲目搭建。
- 反对声音：无。
🔥 300人的研究机构使用类似消费级硬件会造成瓶颈，应考虑企业级工作站或机架服务器
- 正方观点：300人机构是大项目，消费级硬件难以满足需求，企业级设备更可靠。
- 反方观点：无。
💡 原帖硬件选择中的AMD 9950x不合适，应采用Threadripper或服务器平台
- 支持理由：满足DDR5内存带宽和PCIe通道需求，有利于未来扩展。
- 反对声音：无。
🤔 部署本地LLM服务器成本高且需要很多系统工程，建议使用云服务提供商
- 支持理由：本地部署成本和工程复杂度高，云服务可能更经济高效。
- 反方观点：无。
💥 在并发生产工作负载方面应选择vllm而非ollama
- 支持理由：未详细提及，但从评论者经验判断vllm更适合。
- 反方观点：无。

金句与有趣评论

“😂 What are you wanting to do in your org that the big 3 LLM providers can’t do for you?”
- 亮点：从独特角度提出在部署本地LLM服务器前应思考的问题，引导深入需求分析。
“🤔 300 is a lot of people, I’m assuming this is a substantial undertaking, but you’ll be bottlenecking yourself with subpar hardware.”
- 亮点：直接指出原帖硬件计划可能存在的问题，对于讨论硬件选择有重要意义。
“👀 你不能使用AMD 9950x。你需要使用Threadripper，或者基于服务器的平台来获取DDR5内存带宽和PCIe通道。”
- 亮点：明确指出原帖硬件选择中的不当之处并给出替代方案。
“😎 +1. This is not cheap and also entails a lot of systems engineering. Why not use one of the cloud providers?”
- 亮点：提出了云服务这种替代本地部署的思路，考虑到成本和工程复杂度。
“💡 绝对要选择vllm而不是ollama用于并发生产工作负载。”
- 亮点：在软件选择方面给出明确建议。

情感分析

总体情感倾向比较理性客观。主要分歧点在于原帖的硬件和软件选择是否合适，如硬件是否会成为瓶颈、软件引擎的选择等。可能的原因是不同评论者的专业背景和经验不同，对不同硬件和软件的性能、适用性有不同的理解。

趋势与预测

新兴话题：关于如何进行runpod实例的工作负载基准测试可能会引发后续讨论，因为这有助于更精准地确定硬件是否满足需求。
潜在影响：如果更多研究机构面临类似的本地LLM服务器部署问题，这些讨论结果将对他们在硬件投资、软件选择、成本控制等方面产生指导意义，可能影响研究机构的效率和成果产出。

详细内容：

标题：关于 300 人研究所本地 LLM 搭建的热门讨论

在 Reddit 上，一则关于为 300 人规模的研究所部署本地 LLM 服务器的帖子引起了广泛关注。该帖子详细介绍了包括硬件和软件方面的初步设想，如高端的 CPU、大量内存、快速存储设备、冗余电源和多块高端 GPU 等硬件配置，以及使用特定的推理容器和环境变量等软件设置。同时，发帖人还提出了一些关键问题，如如何管理流量和并发、软件栈的选择等。此贴获得了众多评论，引发了热烈的讨论。

在讨论焦点与观点分析中，有人指出，专业从事相关工作时，会提出诸如研究所使用本地 LLM 的独特需求、预期成功的指标、本地模型的关键质量要求等标准问题。还有用户认为，部署这样的系统不能仅依赖消费级硬件，应该考虑企业级工作站或更好的机架服务器，并列举了相关产品链接，强调投资的重要性，否则可能在研究成果上落后于其他投入更多的研究所。也有人提出不能使用 AMD 9950x，而需要 Threadripper 或基于服务器的平台以满足内存带宽和 PCIe 通道要求，同时对某些 SSD 产品的可靠性表示质疑。另外，有观点认为对于 15 个并发用户，这种硬件对于特定模型可能合适，且在并发生产工作负载中应选择 vllm 而非 ollama。

对于是否应搭建本地 LLM 服务器，各方观点存在分歧。有人认为此举可节省 ChatGPT 订阅费用并符合数据保护法律，但也有人认为这一想法缺乏合理性，涉及诸多复杂问题。而在硬件选择上，是选用消费级还是企业级硬件也存在争议。在软件栈方面，不同的推理引擎和策略的优劣也是讨论的重点。

总之，这场关于研究所本地 LLM 搭建的讨论充满了多样性和复杂性，为相关决策提供了丰富的思考角度。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#