原贴链接

想在此发起一个讨论。随着O1和O3将提高质量的责任推向推理时间,利用分布式网络来做这件事非常有意义。

与训练不同,推理在多个GPU上是非常、非常可并行化的——即使是在具有毫秒级延迟的分布式网络上。实时共享数据包很小,我们或许可以制作一些类似以太坊的分布式包装器,以确保计算隐私并激励防止搭便车行为。

计算分布式推理变慢程度的公式为:1 / (1 + 每令牌传输和触发处理的时间(秒))。这意味着在不太理想的情况下,即每个令牌的惩罚为5毫秒时,计算结果将是在假设具有所需全部VRAM但其他规格相同的单个GPU上进行计算结果的约0.99502487562倍。这种惩罚也不是很明显。

所以——分布式没有真正显著的损失。


粗略计算(由o1提供):

  • 全球拥有超过24GB VRAM的消费设备可能有大约100 - 200 PFLOPs的总计算能力
  • 以每次推理约50美元的低计算模式运行o3的估计值:5 - 30 exaFLOPs
  • 以每次推理约5000美元的高计算SOTA模式运行o3的估计值:1 - 2 zetaFLOPs

所以,如果能以某种方式利用整个网络,o3低计算模式每天大约有1000次推理,高计算模式每天约10次推理。当然实际不会这样,而且当然所有这些数字的效率很快就会改变,但这仍然是相当可观的计算量。

现在,模型仍然可以在网络上的多个GPU之间进行分割,但减速风险较高,例如当基础模型远大于24GB或者我们想要使用较小的GPU/CPU/旧硬件时这就很重要。如果我们这样做,如果我们将<24GB的GPU、CPU和旧硬件组成一个单独的“慢池”,我们的总计算能力可能会扩展2 - 5倍。


我发现了一些类似的项目,其中AI Horde似乎最适用,但我很好奇是否还有其他人知道其他项目或者在这个领域有专业知识: https://aihorde.net/ https://boinc.berkeley.edu/projects.php https://petals.dev/


另外,请记住,未来会有重要的新硬件架构出现,它们会放弃现代GPU的复杂性和灵活性,而仅仅在更粗糙的芯片架构上进行强力的Transformer推理。甚至在三元加法器之类的东西之前,就可能有10 - 100倍的加速和100 - 1000倍的能效提升。把它们放到分布式网络中并持续运行。它们对于新模型训练可能很脆弱,但对于强力推理可能足够了。


总结:所以,即使这个网络可能现在作用不大(实际上,比如现在每天只有1次好的o3查询,哈哈),但随着世界计算能力的提高,它仍然会很好地扩展,并且能够几乎与企业产品竞争或超越它们。如果它主要局限于对世界很重要的敏感话题的查询,并且需要被证明不受黑箱企业模型的影响,那仍然非常有用。仍然可以将廉价的数据中心计算用于其他任何事情,并在绝大多数低智能问题上运行更高效的模型。

谢谢阅读! -W

讨论总结

原帖提出应进行群集推理(swarm - inferencing),认为在推理阶段利用分布式网络很有意义,还列举了一些相关的计算数据和类似项目。评论者们从多个方面进行了讨论,包括对原帖设想的支持与质疑、相关项目的分享、技术细节如模型拆分在不同GPU上的性能、可能面临的隐私和高延迟问题等,整体氛围比较丰富多样。

主要观点

  1. 👍 进行相关计算需要o3级别的预训练模型
    • 支持理由:测试时计算取决于后端模型好坏,o3级别的预训练模型是基础。
    • 反对声音:无。
  2. 🔥 在未通过nvlink连接的GPU上拆分模型运行可能比单GPU运行慢
    • 正方观点:实际运行测试发现拆分模型到未连接的GPU会显著变慢。
    • 反方观点:若模型能装入节点显存或接受性能损失,网络节点间并行计算在延迟或效率方面性能损失小。
  3. 💡 无信任的去中心化计算分配用于推理,隐私和访问问题不易克服
    • 解释:从区块链背景出发,在隐私和访问方面存在挑战,对于更多产生价值的应用可能更希望计算独立。

金句与有趣评论

  1. “😂 First of you need an o3 level pre trained model to be available. Test time compute only matters based on how good your backend model is”
    • 亮点:明确指出进行相关计算对预训练模型级别的要求以及测试计算与后端模型的关系。
  2. “🤔 I’m not sure how this works. Splitting my model across GPUs not connected by nvlink is significantly slower than running it all on one GPU.”
    • 亮点:直观表述了对分布式计算中模型拆分在GPU上运行速度的疑惑与发现。
  3. “👀 Dumbest post I’ve read today, dude thinks the throughput of a Raspberry Pi cluster is acceptable.”
    • 亮点:表达出一种强烈的负面态度,与其他理性讨论的评论形成对比。

情感分析

总体情感倾向比较复杂,既有积极支持原帖观点愿意投入资源参与的,也有负面评价认为原帖愚蠢的。主要分歧点在于原帖提出的群集推理设想在技术和实际应用方面的可行性,如模型拆分的性能、隐私问题、延迟问题等。可能的原因是评论者们来自不同的技术背景和应用场景考量,对原帖中的技术设想和应用场景有不同的理解和预期。

趋势与预测

  • 新兴话题:如利用群集计算重新验证公司答案确保无不良信息嵌入,以及类似加密货币“挖矿”的计算资源贡献与收益模式等可能引发后续讨论。
  • 潜在影响:如果相关的分布式推理设想能够实现并优化,可能会改变人工智能计算资源利用的方式,影响相关硬件如GPU的使用模式,也可能对涉及隐私、数据验证等社会方面产生一定影响。

详细内容:

标题:关于分布式推理计算的热烈讨论

最近,Reddit 上出现了一个引发广泛关注的话题——“We Should Be Swarm-Inferencing”。此贴获得了众多关注,评论数众多。原帖主要探讨了在 O1 和 O3 推动将质量改进的重点放在推理时间的情况下,通过分布式网络进行推理计算具有很大的意义。帖子中还提供了多个相关链接,比如https://news.ycombinator.com/item?id=42308590#42313885等。

这一话题引发了多方面的讨论,核心问题在于分布式推理计算的可行性、优势与挑战。

在讨论中,主要观点如下: 有人认为首先需要有可用的 o3 级别预训练模型,测试时间的计算取决于后端模型的质量。也有人表示不相信 o3 有什么特别之处,只是在推理时使用了大量的计算能力,也许没有它,o3 与 gpt-4o 相当。还有人觉得我们会使用当时最好的开源模型,考虑到我们一直差距不大,现在至少能与 gpt4 相匹配,似乎有可能获得接近 o1/o3 甚至更好的模型。

有人指出将模型在未通过 nvlink 连接的 GPU 之间拆分,速度明显慢于在一个 GPU 上运行。有人则认为在网络上的两个 GPU 之间进行适当的流水线拆分,效率或速度可能只会降低 10-30%,但需要在更多 GPU 之间拆分时情况会更糟。

有人认为对于分布式推理计算,要么需要付出大量开销来在沙盒中运行计算并检查每一步,要么需要依赖基于信任或权益的系统,并偶尔在多个节点上重新运行计算步骤以检查诚实性。

然而,也有人认为隐私和访问方面的问题难以通过无信任的去中心化推理计算分布来轻易克服。

在这场讨论中,存在一些共识,比如大家都认可分布式推理计算在某些特定情况下可能具有价值,但对于其广泛应用的可行性存在不同看法。

特别有见地的观点是,有人提到可以利用类似 MCTS 生成大量训练数据,或者重新验证企业提供的答案以确保其没有嵌入广告、虚假内容或政治偏见。

总之,这场关于分布式推理计算的讨论展示了其复杂性和多样性,也为我们对这一新兴领域的思考提供了丰富的素材。