原贴链接

刚在抖音看到了一篇关于中国微型电脑AXB35 - 2原型机(搭载AI MAX+ pro 395和128GB内存)的评测。在Windows系统下的LM studio 0.3.9版本上运行deepseek r1 Q8(2k上下文,无闪速注意力机制),评测者称其速度约为每秒3个令牌。来源:抖音id 141zhf666,2月13日发布。为作比较:我有一台MacBook Pro m4 MAX(40核GPU、128GB内存),运行LM studio 0.3.10版本,运行经过蒸馏的deepseek r1 70B Q8(2k上下文,无闪速注意力机制或k、v缓存),速度为每秒5.46个令牌。更新测试:在Mac上使用MLX而非GGUF格式:使用MLX的Deepseek R1蒸馏版Llama - 70B 8位。2k上下文时,以每秒6.29个令牌的速度输出1140个令牌;8k上下文时,以每秒5.59个令牌的速度输出1365个令牌;13k最大上下文时,以每秒6.31个令牌的速度输出1437个令牌,1.1%的上下文已满;13k最大上下文时,以每秒6.36个令牌的速度输出1437个令牌,1.4%的上下文已满;13k最大上下文时,以每秒5.86个令牌的速度输出3422个令牌,3.7%的上下文已满;13k最大上下文时,以每秒5.62个令牌的速度输出1624个令牌,4.6%的上下文已满。

讨论总结

这个讨论围绕AMD Strix Halo 128GB的性能展开,主要是通过与其他设备(如MacBook、中国微型电脑AXB35 - 2原型机等)运行deepseek r1相关模型的性能对比。同时也涉及设备价格、电池消耗、内存带宽等方面的讨论,整体氛围较为理性、专业,大家在分享数据和观点。

主要观点

  1. 👍 对70B@q8的3tk/s对应的内存带宽数值表示认可
    • 支持理由:FullstackSensei给出对应数值约为210GB/s且有The Phawx测试数据参考
    • 反对声音:无
  2. 🔥 AMD Strix Halo速度比双E5 - 2660v3设备快约3.3倍且功耗更低
    • 正方观点:有具体速度和功耗数据对比
    • 反方观点:无
  3. 💡 原帖无链接作用不大且关注产品价格
    • 解释:segmond认为无链接难以获取更多信息并询问价格,hardware_bro回复产品未定价并给出类似产品价格
  4. 💡 不同并行方式下运行速度不同
    • 解释:ortegaalfredo给出4x3090在不同并行方式下运行速度的数据
  5. 💡 上下文大小增加会导致处理速度减慢
    • 解释:Murky - Ladder8684明确表示无论使用多少,仅上下文大小增加就会减慢速度

金句与有趣评论

  1. “😂 Sounds about right. 3tk/s for a 70B@q8 is 210GB/s. The Phawx tested Strix Halo at ~217GB/s.”
    • 亮点:提供了关于70B@q8的3tk/s对应的内存带宽数值以及Strix Halo的测试数据
  2. “🤔 Battery life is meaningless for running a 70B model. You’ll need to be plugged to do any meaningful work anyways.”
    • 亮点:对运行70B模型时电池寿命的独特看法
  3. “👀 I still can’t comprehend how 600B model could run 5t/s on 128GB of ram, especially in Q8.”
    • 亮点:对特定模型运行数据表示疑惑
  4. “😉 They would have been better value for money if they could nearly double the memory bandwidth at say 30 - 50% more price.”
    • 亮点:对AMD产品性价比提升的看法
  5. “💥 But IG AMD wanted to play a bit safe to be able to price affordably.”
    • 亮点:解释AMD定价保守的原因

情感分析

总体情感倾向较为中性。主要分歧点较少,在部分数据的理解和设备性能评价上存在一些小的差异。可能的原因是大家更多是基于数据进行理性的讨论,较少涉及主观的喜好或偏见。

趋势与预测

  • 新兴话题:不同设备在运行模型时的功率消耗情况可能会引发后续讨论。
  • 潜在影响:对于硬件设备在AI相关任务中的性能优化和性价比考量,可能会影响消费者的购买决策以及硬件厂商的产品研发方向。

详细内容:

标题:关于 AMD Strix Halo 128GB 在深度计算中的性能讨论

最近,Reddit 上一个有关 AMD Strix Halo 128GB 性能的帖子引发了热烈讨论。原帖主要对比了不同设备在运行特定模型时的性能表现,如在特定条件下,Chinese mini PC AXB35-2 原型机的性能约为 3token/秒,而 Macbook Pro M4 MAX 40core GPU 128GB 的性能为 5.46tok/秒。该帖子获得了众多关注,评论数众多,引发了关于设备性能、电池续航、散热、成本效益等多个方面的深入探讨。

在讨论焦点与观点分析中,有人认为 AMD Strix Halo 的性能表现还算合理,其数据与相关测试结果相符。有用户分享,自己购买的翻新 1TB 版本的苹果设备,在运行时电池消耗较大。同时,也有人指出电池续航对于运行大型模型来说意义不大,因为通常需要接通电源才能进行有意义的工作。还有人提到运行大型语言模型(LLM)时,Macbook 散热不足,难以长时间全功率运行,而这一点在多数评测中未被提及。

关于不同设备的性能对比,有人表示自己的旧设备性能远逊于 AMD Strix Halo,而也有人认为与其他设备相比,AMD Strix Halo 在性价比上仍有待提升。在模型运行格式方面,有用户分享了使用 MLX 格式后的测试结果。还有人对长上下文的提示处理时间表示关注,得到的反馈是处理时间较长。

在讨论中,大家对于设备性能的评估存在一定共识,即不同设备在不同场景下各有优劣。特别有见地的观点是,有人从成本效益角度分析了 AMD Strix Halo 在特定地区电费情况下的优势。然而,对于一些问题,如设备的实际应用价值、性能提升的优化空间等,仍存在争议。

总之,这次关于 AMD Strix Halo 128GB 性能的讨论让我们更全面地了解了不同设备在特定任务中的表现和面临的挑战,也为大家在选择和使用相关设备时提供了更多的思考。