原贴链接

你好,我所在的大学正在考虑为学生和研究人员自托管一个大语言模型。我有机会提出建议。到目前为止,我的想法如下:新的Deepsek v3(因为如果很多人使用它,推理可能会有点复杂,而且这是目前我们能得到的最好的本地模型)。如果他们想要进行推理,也许Qwen 32 qwq比较合适,因为它应该比r1更容易运行,并且有望更快。或者是llama 70b,仅仅因为它在研究中仍然常被用作参考。另外,如果我们大规模托管,我认为全fp16在吞吐量方面比量化版本优化得更好,现在仍然是这样吗?最主要的是,你们的意见是什么,你们预计这个项目需要什么硬件要求?我想我们可能会有大约1000个用户(我认为不是全校范围的,主要是计算机科学专业的)。还有要用什么推理引擎,我原以为是带有Triton的vllm,但如果有更好的想法,我非常愿意接受建议。期待听到你们的意见。

讨论总结

大学想要自托管大型语言模型(LLM)供学生和研究人员使用,原帖作者寻求建议和硬件需求估计。评论者们从不同角度给出了自己的看法,如联系英伟达经销商、推荐不同的硬件设备、提及不同的部署方式以及指出可能面临的问题等,整体讨论氛围比较积极,大家都在为大学自托管LLM出谋划策。

主要观点

  1. 👍 联系英伟达官方经销商通过大学采购团队可获优惠并得到配置定价
    • 支持理由:可能会得到一些优惠,经销商会相应地进行配置和定价
    • 反对声音:无
  2. 🔥 若不想花费大量资金,可以采用OpenRouter + LibreChat API calls
    • 正方观点:能节省资金
    • 反方观点:有人认为本地部署有其他优势,如为学生提供可集成项目的API
  3. 💡 R1在推理方面是更好的选择
    • 解释:Qwen 32 qwq在推理速度上不会比R1快,若想要中等但快速的推理,R1 distills或Reka是更好的选择
  4. 💡 本地部署LLM可能会给用户留下不好的印象
    • 解释:走本地部署路线会给终端用户留下LLM能力不佳的印象,但也有人认为本地部署目的不同,不需要做到像ChatGPT那样功能全面
  5. 💡 自托管LLM取决于多种因素和使用的推理及令牌输出类型
    • 解释:要参考多种因素,如推理和令牌输出的类型来决定自托管LLM的方案

金句与有趣评论

  1. “😂 fuutott: Talk to official nvidia resellers in your region. Likely through your uni procurement team. There might be some deals to be had and they will likely configure and price it accordingly”
    • 亮点:为解决硬件需求提供了一种可能获取优惠的途径
  2. “🤔 Johnroberts95000:Most people going this route are going to give end users a bad impression of LLM capabilities。”
    • 亮点:提出本地部署可能存在的用户体验方面的问题
  3. “👀 Noxusequal:The main point is to for example give computer science students accesse to the same model free of charge for working in to projects.”
    • 亮点:强调本地部署对学生的好处
  4. “💡 vllm is the go - to for high parallelism, you can also check out ktransformers, sglang, tgi for other specific scenarios.”
    • 亮点:针对不同需求推荐了相关的工具
  5. “😎 SirTwitchALot:I like the idea of a vendor neutral platform, but your option would be a good one as well.”
    • 亮点:在设备选择方面表达了对不同方案的看法

情感分析

总体情感倾向为积极,大家都在积极为大学自托管LLM提供建议。主要分歧点在于本地部署和采用API调用的优劣,可能的原因是大家对成本、用户体验、资源利用等方面的考量不同。

趋势与预测

  • 新兴话题:使用AI回答时应标明是AI生成的内容可能会引发后续讨论。
  • 潜在影响:如果大学成功自托管LLM,可能会对学校内的教学、科研产生积极影响,提高学生和研究人员对LLM的应用能力。

详细内容:

《关于大学考虑自托管 LLM 的热门讨论》

近日,Reddit 上一则关于某大学计划自托管 LLM 以供研究团队和学生使用,并寻求建议和硬件需求估计的帖子引起了广泛关注。该帖子获得了众多回复和热烈讨论,点赞数和评论数众多。

帖子中提到了多种可能的选择,如 Deepsek v3、Qwen 32 qwq、Llama 70b 等,并探讨了全 FP16 是否在吞吐量方面比量化版本更具优势,以及使用何种推理引擎等问题。核心问题在于硬件需求和最佳选择。

讨论焦点与观点分析: 有人建议与英伟达官方经销商沟通,可能会有优惠和合适的配置。也有人认为 vllm 适合高并行性,还可以考虑 ktransformers、sglang、tgi 等用于特定场景。有人提到如果预算充足,可以选择 OpenRouter + LibreChat API 调用,但费用高昂。

有人指出 DeepSeek - V3 并非多模态,存在局限性。还有人认为自托管在实践中可能面临诸多问题,如硬件更新快、不同部门和人员对模型需求不同等。

也有观点认为可以通过计算 3090 的数量并购买二手来托管 Deepsek v3,不过需要考虑构建多台配备大量 PCIe 16x 的电脑。有人提到可以通过租赁 GPU 来进行基准测试和临时部署。

有人认为如果走本地路线,需要一整个 GPU 服务器,成本高昂但不易很快过时。还有人探讨了不同的解决方案,如选择 H200 DGX 或构建中立平台等。

讨论中的共识是自托管需要综合考虑多种因素,包括预算、需求、硬件更新等。特别有见地的观点是指出了模型的局限性以及不同方案的优缺点,丰富了对这一问题的思考。

总之,关于大学自托管 LLM 的讨论展现了多种观点和考虑因素,为这一计划的实施提供了全面的参考和思考方向。