原贴链接

如果我堆叠3块那种主板,我能在Q3km运行R1,而且因为它是更多(此处moe疑似more),它们之间的网络带宽不会是个问题,并且我应该能够达到大约13tps(每秒事务处理量)。我认为这个每秒事务处理量是可用的,而且量化(此处quant疑为quantization)不会太弱智。是否有其他方法能让我以更快速度在大约5千(此处5k未明确单位,推测为成本相关)的情况下运行Q3km的R1呢?

讨论总结

原帖探讨用3块主板运行R1是否为5000美元左右运行R1的最佳方式,希望达到约13tps的速度。评论者们从不同方面提出反对观点,如主板距离发货时间长、有更好的替代产品、原方案不是最佳方式、高估了慢速模型的实用性等,还从硬件配置、运行效率等角度提出了自己的看法和建议,整体氛围偏向技术讨论。

主要观点

  1. 👍 相关主板距离发货至少半年,半年后有更好产品,不应围绕此计划
    • 支持理由:根据产品发货时间和发展趋势做出判断
    • 反对声音:无
  2. 🔥 在5000美元预算下Genoa设置是更好的替代方案
    • 正方观点:Genoa设置有更多内存、带宽和GPU扩展,功耗低
    • 反方观点:无
  3. 💡 人们高估了慢速运行的r1模型的实用性
    • 解释:以编程问题为例,模型回答效率低且效果有限,多方面有进展前不实用
  4. 💡 EPYC9124是较便宜的选择且配置可运行相关任务
    • 解释:从性价比、配置和理论速度等方面阐述其可行性
  5. 💡 集群会受网络带宽限制达不到13t/s
    • 解释:单个系统可能达到,但集群因网络带宽会使速度大幅下降

金句与有趣评论

  1. “😂 They are at least half a year away from shipping, expect something newer and better than R1 by that time, so definitely don’t plan around it.”
    • 亮点:明确指出原计划的不合理性,基于产品发货和发展趋势
  2. “🤔 With 5k you might find a genoa setup with more ram and ram bandwidth and extensions for gpus.”
    • 亮点:提出了更优的替代方案的部分优势
  3. “👀 我觉得人们严重高估了像r1这样慢速运行模型的效用。”
    • 亮点:对模型实用性提出质疑
  4. “😎 理论上,这个构建的速度是MoE活动参数37B除以带宽460GB/s,得到13T/s。”
    • 亮点:给出了理论速度的计算方式
  5. “💥 13t/s only if you have a single EPYC based system with heaps of RAM。”
    • 亮点:指出单个系统和集群在速度上的差异原因

情感分析

总体情感倾向为反对原帖观点。主要分歧点在于原帖提出的用3块主板运行R1的方案是否为最佳方式,可能的原因是评论者们从不同角度考虑,如硬件发展趋势、性价比、模型实用性、网络带宽等方面,发现存在更优方案或原方案存在的问题。

趋势与预测

  • 新兴话题:不同硬件在运行R1时的性能优化及新的性价比方案。
  • 潜在影响:可能影响相关硬件的市场选择,促使人们更深入研究R1运行的最佳配置,对模型运行效率的提升有一定推动作用。

详细内容:

标题:关于以 5k 预算运行 r1 本地的最佳方式的热门讨论

在 Reddit 上,有一个引发热烈讨论的帖子,题为“Is 3 of framework’s ryzen 395 boards the best way to run r1 locally at around 5k?”。该帖子获得了众多关注,评论数众多。帖子主要探讨了通过堆叠 3 块特定主板来运行 r1,认为这样可以在 q3km 环境下达到约 13tps,并且网络带宽不会成为问题。

文章将要探讨的核心问题是:这种方式是否是在 5k 预算内运行 r1 的最佳方式。

讨论焦点与观点分析如下: 有人认为至少半年内相关产品无法发货,到那时可能会有比 R1 更好的新品,所以不建议以此来做规划。还有人提到 GMK 即将推出,当前 X1 模型在清仓甩卖,这似乎暗示在为 X2 腾出空间。也有人觉得 GMK X2 看起来很有趣,因为它有 oculink,无需 M.2 转 oculink 适配器,但担心其散热问题。 有人指出 5k 预算或许可以选择 Genoa 配置,它具有更多的内存和内存带宽,以及 GPU 扩展。还有人认为像 r1 这样的模型在如此低速运行时的效用被严重高估,实际应用中量化问题比基准测试的影响更显著。也有人认为 V3 与 R1 运行方式几乎相同,在 13tps 下可能相当实用,未来可能会有更多类似的大型 MoE 模型,因此这样的配置可能值得投资。 有人提到以 6K 可以在 6 到 8tps 下运行 R1 768b Q8,并提供了相关链接。有人研究发现,以 4000 欧元左右可以获得具有足够带宽来运行完整 Deepseek-R1 671B Q8 的配置。 关于网络带宽和性能方面,有人认为 T4 的带宽较差且不支持 RDMA,会占用 CPU 带宽从而显著影响整体性能。但也有人认为使用 USB4 网格适配器在双/三系统中更合理,速度比 5G 以太网更快。有人提出对于不同模型,所需的负载量不同,不清楚具体情况。

总的来说,对于在 5k 预算内运行 r1 的最佳方式,大家观点不一,存在诸多争议和讨论。