原贴链接

我用旧显卡(1张3060和3张P40)搭建了第二套设备,主设备是6张3090。我将它们联网,使用llama.rpc在这些设备间分配模型。我的设备存在PCIe3、部分插槽为x8、以太网为千兆以太网、交换机也是千兆交换机等限制。我进行了不同测试以查看性能,使用的是Qwen2.5 - Math - 72b模型,从主设备通过RPC连接到第二套设备运行。结果表明,RPC连接数量不是性能下降的原因,而是模型处理速度,当向显卡输入更多数据时速度就会下降。这让我相信如果第二套设备也全是3090,性能下降就不会这么严重。以下是数据,可自行查看。当然,资金才是真正的瓶颈,我的设备都是低成本搭建的,廉价的双x99主板搭配10年前5美元的CPU,15美元的千兆交换机等。最后假设未来有开放权重的AGI且和DSR1或封闭模型一样大,若有钱的话可以想象在家运行它所需的条件,开始存钱吧。后面是不同设备组合下的llama性能测试数据(如采样时间、加载时间、提示评估时间、评估时间、总时间等)。

讨论总结

原帖作者分享了使用不同显卡构建设备并进行性能测试的结果,重点探讨了RPC连接数量对性能的影响。评论者们关注的点较为分散,包括对原帖结果呈现方式的看法(如建议以表格形式呈现)、对原帖中一些观点的反对(如RPC连接数量与速度的关系)、对测试设置的质疑(如提示处理速度测试的缺陷)、对原帖内容的总结需求以及关于硬件混合的疑问等,整体讨论氛围比较理性和平和,有少量不友好的互动但很快被缓和。

主要观点

  1. 👍 原帖结果呈现不易理解,应改为表格形式
    • 支持理由:当前呈现方式难以轻松阅读、理解并认识到价值
    • 反对声音:有人拒绝做出改变,态度恶劣
  2. 🔥 不同意原帖关于RPC连接数量与速度关系的观点
    • 正方观点:自身使用RPC发现连接越多速度越慢,有多种类似情况可证
    • 反方观点:原帖认为RPC连接数量不是导致速度变慢的原因
  3. 💡 原帖测试设置对提示处理速度的测试存在缺陷
    • 解释:原帖中提示token数量过少无法得出可靠数值,但token生成速度方面表现较好,若只关注此数值会更易理解
  4. 💡 原帖内容需要一个总结(tldr)
    • 解释:原帖内容复杂,有较多数据和测试结果,需要一个总结来快速理解
  5. 💡 可以在同一机箱混合不同类型GPU运行
    • 解释:有多种方式(如RPC或Vulkan)可以实现不同GPU(包括不同厂商)在同一机箱运行,但较慢的GPU会成为瓶颈

金句与有趣评论

  1. “😂 ShinyAnkleBalls: I was excited to read the results until I got to the results. Please make a table or of it if you want people to easily read it, understand it and recognize the value of what you did.”
    • 亮点:直白地表达了对原帖结果呈现方式的不满,反映出很多读者的心声
  2. “🤔 That’s not what I’ve seen. I’ve been using RPC for a while now. The more connections, the slower it gets.”
    • 亮点:直接反对原帖观点,且有自身使用经验作为依据
  3. “👀 The test setup is flawed for prompt processing speed. The prompt is just 40 tokens. We’d need 4k prompt tokens to get reliable numbers here.”
    • 亮点:指出原帖测试设置的缺陷所在,逻辑清晰
  4. “😉 StandardLovers: Lol, so true but very undiplomatic!”
    • 亮点:对不友好回应的一种幽默评价
  5. “👍 crazzydriver77:You can get 96 GB VRAM for $240 (P104 - 100) and solve tasks that do not require interactive performance.”
    • 亮点:提供了一种获取VRAM解决特定任务的经济方式

情感分析

总体情感倾向比较中性,主要分歧点在于原帖的一些观点(如RPC连接数量与速度关系、原帖结果呈现方式)和部分态度问题(如拒绝改进结果呈现方式的不友好回应)。可能的原因是大家基于不同的经验和需求来看待原帖内容,例如在RPC使用上不同的体验导致对其与速度关系有不同看法,而对结果呈现方式的不同态度可能源于不同的阅读习惯和期望。

趋势与预测

  • 新兴话题:关于是否能以特定价格获取足够VRAM触及Deepseek R1以及相关硬件的技术探讨(如张量并行、不同GPU的PCIe对速度的影响等)可能会引发后续讨论。
  • 潜在影响:如果关于硬件组合和性能优化的讨论继续深入,可能会对相关领域(如深度学习、AI模型训练等)的硬件选择和成本控制产生影响,让更多人能够以较低成本构建适合自己需求的设备。

详细内容:

标题:关于 llama.cpp RPC 性能的热门讨论

在 Reddit 上,有一个关于 llama.cpp RPC 性能的热门帖子引起了大家的关注。原帖作者分享了自己用不同配置的显卡进行的一系列测试结果,包括 3060 和 P40 等,还提到了网络和硬件配置对性能的影响。此帖获得了众多评论和讨论。

讨论的焦点主要集中在以下几个方面: 有人认为原帖中的测试结果展示不够清晰,比如 [ShinyAnkleBalls] 就提出应该做成表格以便更容易阅读和理解。 也有人对测试的设置提出质疑,像 [Chromix_] 指出测试设置对于提示处理速度存在缺陷,提示过短难以得出有意义的数字。 对于网络是否是瓶颈这一问题,观点不一。[segmond] 表示加载模型与存储和网卡速度有关,若硬件不足,网络会成为瓶颈;但 [fallingdowndizzyvr] 则称自己的经历表明更多的 RPC 连接会使速度变慢。

有人分享了自己在类似方面的经历,比如 [MatterMean5176] 表示自己在盲目尝试 rpc - server 和 llama.cpp 时遇到了问题。

还有关于不同型号 GPU 混合使用的讨论,[beedunc] 询问混合不同型号的 GPU 是否能运行良好,[fallingdowndizzyvr] 表示可以通过 llama.cpp 的 RPC 或 Vulkan 方式实现,且 [segmond] 称可以混合不同类型的 Nvidia GPU,但较慢的会成为瓶颈。

总之,这一话题引发了大家对 llama.cpp RPC 性能的深入探讨,不同的观点和经历丰富了讨论内容,也让人们对这一技术有了更全面的认识。