原贴链接

我用旧显卡（1张3060和3张P40）搭建了第二套设备，主设备是6张3090。我将它们联网，使用llama.rpc在这些设备间分配模型。我的设备存在PCIe3、部分插槽为x8、以太网为千兆以太网、交换机也是千兆交换机等限制。我进行了不同测试以查看性能，使用的是Qwen2.5 - Math - 72b模型，从主设备通过RPC连接到第二套设备运行。结果表明，RPC连接数量不是性能下降的原因，而是模型处理速度，当向显卡输入更多数据时速度就会下降。这让我相信如果第二套设备也全是3090，性能下降就不会这么严重。以下是数据，可自行查看。当然，资金才是真正的瓶颈，我的设备都是低成本搭建的，廉价的双x99主板搭配10年前5美元的CPU，15美元的千兆交换机等。最后假设未来有开放权重的AGI且和DSR1或封闭模型一样大，若有钱的话可以想象在家运行它所需的条件，开始存钱吧。后面是不同设备组合下的llama性能测试数据（如采样时间、加载时间、提示评估时间、评估时间、总时间等）。

讨论总结

原帖作者分享了使用不同显卡构建设备并进行性能测试的结果，重点探讨了RPC连接数量对性能的影响。评论者们关注的点较为分散，包括对原帖结果呈现方式的看法（如建议以表格形式呈现）、对原帖中一些观点的反对（如RPC连接数量与速度的关系）、对测试设置的质疑（如提示处理速度测试的缺陷）、对原帖内容的总结需求以及关于硬件混合的疑问等，整体讨论氛围比较理性和平和，有少量不友好的互动但很快被缓和。

主要观点

👍 原帖结果呈现不易理解，应改为表格形式
- 支持理由：当前呈现方式难以轻松阅读、理解并认识到价值
- 反对声音：有人拒绝做出改变，态度恶劣
🔥 不同意原帖关于RPC连接数量与速度关系的观点
- 正方观点：自身使用RPC发现连接越多速度越慢，有多种类似情况可证
- 反方观点：原帖认为RPC连接数量不是导致速度变慢的原因
💡 原帖测试设置对提示处理速度的测试存在缺陷
- 解释：原帖中提示token数量过少无法得出可靠数值，但token生成速度方面表现较好，若只关注此数值会更易理解
💡 原帖内容需要一个总结（tldr）
- 解释：原帖内容复杂，有较多数据和测试结果，需要一个总结来快速理解
💡 可以在同一机箱混合不同类型GPU运行
- 解释：有多种方式（如RPC或Vulkan）可以实现不同GPU（包括不同厂商）在同一机箱运行，但较慢的GPU会成为瓶颈

金句与有趣评论

“😂 ShinyAnkleBalls: I was excited to read the results until I got to the results. Please make a table or of it if you want people to easily read it, understand it and recognize the value of what you did.”
- 亮点：直白地表达了对原帖结果呈现方式的不满，反映出很多读者的心声
“🤔 That’s not what I’ve seen. I’ve been using RPC for a while now. The more connections, the slower it gets.”
- 亮点：直接反对原帖观点，且有自身使用经验作为依据
“👀 The test setup is flawed for prompt processing speed. The prompt is just 40 tokens. We’d need 4k prompt tokens to get reliable numbers here.”
- 亮点：指出原帖测试设置的缺陷所在，逻辑清晰
“😉 StandardLovers: Lol, so true but very undiplomatic!”
- 亮点：对不友好回应的一种幽默评价
“👍 crazzydriver77：You can get 96 GB VRAM for $240 (P104 - 100) and solve tasks that do not require interactive performance.”
- 亮点：提供了一种获取VRAM解决特定任务的经济方式

情感分析

总体情感倾向比较中性，主要分歧点在于原帖的一些观点（如RPC连接数量与速度关系、原帖结果呈现方式）和部分态度问题（如拒绝改进结果呈现方式的不友好回应）。可能的原因是大家基于不同的经验和需求来看待原帖内容，例如在RPC使用上不同的体验导致对其与速度关系有不同看法，而对结果呈现方式的不同态度可能源于不同的阅读习惯和期望。

趋势与预测

新兴话题：关于是否能以特定价格获取足够VRAM触及Deepseek R1以及相关硬件的技术探讨（如张量并行、不同GPU的PCIe对速度的影响等）可能会引发后续讨论。
潜在影响：如果关于硬件组合和性能优化的讨论继续深入，可能会对相关领域（如深度学习、AI模型训练等）的硬件选择和成本控制产生影响，让更多人能够以较低成本构建适合自己需求的设备。

详细内容：

标题：关于 llama.cpp RPC 性能的热门讨论

在 Reddit 上，有一个关于 llama.cpp RPC 性能的热门帖子引起了大家的关注。原帖作者分享了自己用不同配置的显卡进行的一系列测试结果，包括 3060 和 P40 等，还提到了网络和硬件配置对性能的影响。此帖获得了众多评论和讨论。

讨论的焦点主要集中在以下几个方面：有人认为原帖中的测试结果展示不够清晰，比如 [ShinyAnkleBalls] 就提出应该做成表格以便更容易阅读和理解。也有人对测试的设置提出质疑，像 [Chromix_] 指出测试设置对于提示处理速度存在缺陷，提示过短难以得出有意义的数字。对于网络是否是瓶颈这一问题，观点不一。[segmond] 表示加载模型与存储和网卡速度有关，若硬件不足，网络会成为瓶颈；但 [fallingdowndizzyvr] 则称自己的经历表明更多的 RPC 连接会使速度变慢。

有人分享了自己在类似方面的经历，比如 [MatterMean5176] 表示自己在盲目尝试 rpc - server 和 llama.cpp 时遇到了问题。

还有关于不同型号 GPU 混合使用的讨论，[beedunc] 询问混合不同型号的 GPU 是否能运行良好，[fallingdowndizzyvr] 表示可以通过 llama.cpp 的 RPC 或 Vulkan 方式实现，且 [segmond] 称可以混合不同类型的 Nvidia GPU，但较慢的会成为瓶颈。

总之，这一话题引发了大家对 llama.cpp RPC 性能的深入探讨，不同的观点和经历丰富了讨论内容，也让人们对这一技术有了更全面的认识。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#