原贴链接

嘿,研究人员和发明家们!我现在有一台机器,配备2个7900xtx显卡,总共48GB显存和128GB内存。我也有组装新机器的零件。我还有一台M1芯片的MacBook,并且想要将本地网络的所有算力连接到一个集群上。如今,在多台机器上分布式运行大型模型的最优方式是什么呢?或者不管怎样,建造一台大型机器是否更好呢?

讨论总结

原帖作者想把多台电脑(包括已有特定配置电脑和Macbook)连接到一个强大的LLM站获取128GB显存总量,询问最优方案。评论者们给出了不同回应,有推荐Exo项目的,有提供参考链接的,有探讨网络要求和硬件配置的,还有人认为原帖是合理问题不应被点踩,整体讨论氛围比较积极,大家从不同角度发表观点试图解决原帖的问题。

主要观点

  1. 👍 Llama.cpp和vLLM支持分布式推理与ROCm,但可能不支持多节点上的张量并行,只能管道并行所以速度受限
    • 支持理由:FullstackSensei提到二者支持ROCm,但似乎不支持多节点上的张量并行,最多只能在节点间进行管道并行,速度不会很快
    • 反对声音:无
  2. 🔥 推荐Exo项目可作为连接多台电脑构建强大LLM站的一种途径
    • 正方观点:多个评论者推荐Exo项目,称其有良好的集群能力和分布式推理支持
    • 反方观点:无
  3. 💡 原帖的问题是合理的不应被点踩
    • 支持理由:有人认为原帖提出如何连接多台电脑获取128GB显存总量是合理问题
    • 反对声音:无
  4. 💡 多台机器之间没有高速连接,原帖发布者应多阅读资料或询问GPT,直接购买一台机器更好
    • 支持理由:johakine认为多台机器间无高速连接,不如直接买一台机器
    • 反方观点:djdeniro表示想要深入研究,有很多利用这种技术的方式,tinny66666认为原帖有用
  5. 💡 不同GPU和节点间分层选择很重要,高速以太网连接有助于提升整体运行效果
    • 支持理由:有评论者指出分层选择和高速以太网连接有助于运行

金句与有趣评论

  1. “😂 Llama.cpp和vLLM都支持分布式推理。它们都支持ROCm,但据我所知(AFAIK),两者都不支持在多个节点上进行张量并行,而且我不知道它们是否支持混合不同的后端。”
    • 亮点:详细阐述了Llama.cpp和vLLM在分布式推理中的支持情况
  2. “🤔 你可以看看Exo。https://github.com/exo - explore/exo”
    • 亮点:直接推荐可能解决原帖问题的项目
  3. “👀 我不明白为什么人们要给这个(帖子)点踩。这是一个合理的问题。”
    • 亮点:为原帖被点踩鸣不平并肯定原帖问题的合理性
  4. “😎 johakine:Read more, at least ask any GPT.”
    • 亮点:给出一种与原帖不同的解决思路
  5. “💪 djdeniro:I’m trying to go deeper, now we have many ways to use this amazing technology and the LocalLLaMA community is the best place to share information about each other.”
    • 亮点:表达深入研究的决心并指出技术利用方式和信息分享社区

情感分析

总体情感倾向是积极探讨的。主要分歧点在于原帖的方案是否可行,如johakine持否定态度认为直接买一台机器更好,而其他人则积极推荐方案或者探讨原帖中的技术细节。可能的原因是大家从不同的技术理解和应用场景出发看待原帖的问题。

趋势与预测

  • 新兴话题:利用LocalLLaMA社区分享和获取相关技术信息可能会成为后续话题。
  • 潜在影响:如果有更多人关注这种多台电脑连接的技术方案,可能会推动相关项目(如Exo)的发展,也会促进社区内技术交流的活跃度。

详细内容:

标题:多台电脑连接强大 LLM 站的最佳方式引发激烈讨论

在 Reddit 上,一则关于如何将多台电脑连接到一个强大的 LLM 站以获得总计 128GB VRAM 的帖子引起了广泛关注。该帖子获得了众多的回复和讨论。

原帖作者拥有一台配备 2 个 7900xtx 显卡、共 48 VRAM 和 128 RAM 的机器,还有零件可建造新机器,同时拥有一台 M1 芯片的 Macbook,并希望将本地网络的所有功率连接到一个集群,询问运行大型模型的最优方式,或者是否还是建造一台大型机器更好。

讨论的焦点主要集中在分布式推理的技术和方案选择上。有人指出 Llama.cpp 和 vLLM 都支持分布式推理,也支持 ROCm,但可能不支持多节点的张量并行,并且不知道是否支持混合不同的后端。还有人分享使用过 llama.cpp rpc 服务器在苹果硅和英伟达 GPU 上运行的经历,并强调需要非常快速的网络连接,因为模型权重在启动时是从一个节点分发的。

对于是否能实现跨节点的张量并行,存在不同观点。有人认为,如果能实现并拥有快速连接,效果应该差不多,优势在于可以使用更便宜的硬件构建集群,拥有比单节点更多的 GPU,更具弹性。但也有人认为,速度上在每个节点上运行权重而不是跨所有节点进行张量并行可能更好,特别是当 GPU 不对称时,跨节点会有显著的开销,而且 LLM 推理对延迟高度敏感。

有人认为 HPC 领域就是围绕这种分布式构建的,分布式矩阵乘法有很多相关的库和算法,所以在 LLM 推理中也应该可行。但反对者指出,HPC 配置通常是同质的,软件是专门为其互联编写的,而且在这个领域,跨节点分布的目标通常是训练而非推理。

也有一些有趣的观点,比如有人认为 Infiniband 是一种好的方式,硬件便宜且性能惊人,只是相关文档稀少。还有人提到 vLLM 文档中明确提到了这种情况,并指出可以在分布式 vLLM 集群中同时使用张量并行和流水线并行。此外,有人推荐了 Exo 并提供了相关链接。

讨论中的共识在于大家都在积极探讨如何优化多台电脑连接以实现更高效的 LLM 推理。而特别有见地的观点是关于不同方案在性能、成本、延迟等方面的深入分析,为解决这一复杂问题提供了丰富的思路。

那么,在当前技术条件下,如何才能找到真正最优的多台电脑连接方案,实现高效的 LLM 推理呢?这仍然是一个值得深入探索和研究的问题。