我用旧显卡(1张3060和3张P40)搭建了第二套设备,主设备是6张3090。我将它们联网,使用llama.rpc在这些设备间分配模型。我的设备存在PCIe3、部分插槽为x8、以太网为千兆以太网、交换机也是千兆交换机等限制。我进行了不同测试以查看性能,使用的是Qwen2.5 - Math - 72b模型,从主设备通过RPC连接到第二套设备运行。结果表明,RPC连接数量不是性能下降的原因,而是模型处理速度,当向显卡输入更多数据时速度就会下降。这让我相信如果第二套设备也全是3090,性能下降就不会这么严重。以下是数据,可自行查看。当然,资金才是真正的瓶颈,我的设备都是低成本搭建的,廉价的双x99主板搭配10年前5美元的CPU,15美元的千兆交换机等。最后假设未来有开放权重的AGI且和DSR1或封闭模型一样大,若有钱的话可以想象在家运行它所需的条件,开始存钱吧。后面是不同设备组合下的llama性能测试数据(如采样时间、加载时间、提示评估时间、评估时间、总时间等)。
讨论总结
原帖作者分享了使用不同显卡构建设备并进行性能测试的结果,重点探讨了RPC连接数量对性能的影响。评论者们关注的点较为分散,包括对原帖结果呈现方式的看法(如建议以表格形式呈现)、对原帖中一些观点的反对(如RPC连接数量与速度的关系)、对测试设置的质疑(如提示处理速度测试的缺陷)、对原帖内容的总结需求以及关于硬件混合的疑问等,整体讨论氛围比较理性和平和,有少量不友好的互动但很快被缓和。
主要观点
- 👍 原帖结果呈现不易理解,应改为表格形式
- 支持理由:当前呈现方式难以轻松阅读、理解并认识到价值
- 反对声音:有人拒绝做出改变,态度恶劣
- 🔥 不同意原帖关于RPC连接数量与速度关系的观点
- 正方观点:自身使用RPC发现连接越多速度越慢,有多种类似情况可证
- 反方观点:原帖认为RPC连接数量不是导致速度变慢的原因
- 💡 原帖测试设置对提示处理速度的测试存在缺陷
- 解释:原帖中提示token数量过少无法得出可靠数值,但token生成速度方面表现较好,若只关注此数值会更易理解
- 💡 原帖内容需要一个总结(tldr)
- 解释:原帖内容复杂,有较多数据和测试结果,需要一个总结来快速理解
- 💡 可以在同一机箱混合不同类型GPU运行
- 解释:有多种方式(如RPC或Vulkan)可以实现不同GPU(包括不同厂商)在同一机箱运行,但较慢的GPU会成为瓶颈
金句与有趣评论
- “😂 ShinyAnkleBalls: I was excited to read the results until I got to the results. Please make a table or of it if you want people to easily read it, understand it and recognize the value of what you did.”
- 亮点:直白地表达了对原帖结果呈现方式的不满,反映出很多读者的心声
- “🤔 That’s not what I’ve seen. I’ve been using RPC for a while now. The more connections, the slower it gets.”
- 亮点:直接反对原帖观点,且有自身使用经验作为依据
- “👀 The test setup is flawed for prompt processing speed. The prompt is just 40 tokens. We’d need 4k prompt tokens to get reliable numbers here.”
- 亮点:指出原帖测试设置的缺陷所在,逻辑清晰
- “😉 StandardLovers: Lol, so true but very undiplomatic!”
- 亮点:对不友好回应的一种幽默评价
- “👍 crazzydriver77:You can get 96 GB VRAM for $240 (P104 - 100) and solve tasks that do not require interactive performance.”
- 亮点:提供了一种获取VRAM解决特定任务的经济方式
情感分析
总体情感倾向比较中性,主要分歧点在于原帖的一些观点(如RPC连接数量与速度关系、原帖结果呈现方式)和部分态度问题(如拒绝改进结果呈现方式的不友好回应)。可能的原因是大家基于不同的经验和需求来看待原帖内容,例如在RPC使用上不同的体验导致对其与速度关系有不同看法,而对结果呈现方式的不同态度可能源于不同的阅读习惯和期望。
趋势与预测
- 新兴话题:关于是否能以特定价格获取足够VRAM触及Deepseek R1以及相关硬件的技术探讨(如张量并行、不同GPU的PCIe对速度的影响等)可能会引发后续讨论。
- 潜在影响:如果关于硬件组合和性能优化的讨论继续深入,可能会对相关领域(如深度学习、AI模型训练等)的硬件选择和成本控制产生影响,让更多人能够以较低成本构建适合自己需求的设备。
详细内容:
标题:关于 llama.cpp RPC 性能的热门讨论
在 Reddit 上,有一个关于 llama.cpp RPC 性能的热门帖子引起了大家的关注。原帖作者分享了自己用不同配置的显卡进行的一系列测试结果,包括 3060 和 P40 等,还提到了网络和硬件配置对性能的影响。此帖获得了众多评论和讨论。
讨论的焦点主要集中在以下几个方面: 有人认为原帖中的测试结果展示不够清晰,比如 [ShinyAnkleBalls] 就提出应该做成表格以便更容易阅读和理解。 也有人对测试的设置提出质疑,像 [Chromix_] 指出测试设置对于提示处理速度存在缺陷,提示过短难以得出有意义的数字。 对于网络是否是瓶颈这一问题,观点不一。[segmond] 表示加载模型与存储和网卡速度有关,若硬件不足,网络会成为瓶颈;但 [fallingdowndizzyvr] 则称自己的经历表明更多的 RPC 连接会使速度变慢。
有人分享了自己在类似方面的经历,比如 [MatterMean5176] 表示自己在盲目尝试 rpc - server 和 llama.cpp 时遇到了问题。
还有关于不同型号 GPU 混合使用的讨论,[beedunc] 询问混合不同型号的 GPU 是否能运行良好,[fallingdowndizzyvr] 表示可以通过 llama.cpp 的 RPC 或 Vulkan 方式实现,且 [segmond] 称可以混合不同类型的 Nvidia GPU,但较慢的会成为瓶颈。
总之,这一话题引发了大家对 llama.cpp RPC 性能的深入探讨,不同的观点和经历丰富了讨论内容,也让人们对这一技术有了更全面的认识。
感谢您的耐心阅读!来选个表情,或者留个评论吧!