原贴链接

很抱歉这么激动,但我再也无法忍受M2 Ultra在基准测试中的低得分了。https://llminfo.image.fangd123.cn/images/tvkobl58mtoe1.png!/format/webp我使用过192GB、76个GPU核心的M2 Ultra和512GB、80个GPU核心的M3 Ultra。我在每台机器上重复了相同的测试,每台测试3次,以下是我的结果:GGUF版本的M2 Ultra为82.75个标记/秒(远高于58);GGUF版本的M3 Ultra为88.08个标记/秒;MLX版本的M2 Ultra为119.32个标记/秒;MLX版本的M3 Ultra为118.74个标记/秒。这是YouTube视频链接:Link。我在X平台上发布了一个关于这个的帖子:here

讨论总结

原帖对M2 Ultra与M3 Ultra基准测试结果表示质疑,认为M2 Ultra的测试数值过低。评论者们从不同角度展开讨论,包括对测试模型选择的质疑,如总是选择特定模型进行测试是否合理;对测试本身合理性的质疑,如测试应先完善自身、最低测试配置应包含什么等;还有对测试结果可靠性的质疑,像怀疑原测试者使用旧数据、是否存在热节流影响结果等。此外,也有评论者通过自己的测试得到与原帖类似或不同的结果,还有人讨论了不同硬件之间的性能比较以及性价比等问题。

主要观点

  1. 👍 质疑原测试中M2 Ultra数值过低
    • 支持理由:评论者自己测试结果与原测试差异大。
    • 反对声音:无。
  2. 🔥 测试应先完善自身
    • 正方观点:测试存在问题,如选择模型不合理,不应在未做好测试前得出结论。
    • 反方观点:无。
  3. 💡 人们购买高性能机器运行低性能要求内容可能存在资源浪费
    • 解释:从花费与运行内容不匹配角度提出可能存在资源浪费。
  4. 🌟 原帖中M2 Ultra基准测试数值过低不符合自己的测试结果
    • 支持理由:TechNerd10191给出自己测试结果与原测试不同。
    • 反对声音:无。
  5. 🤔 人们不应只关注内存量而应关注芯片对比
    • 解释:强调芯片对比才是重点,原测试数据不符可能影响人们对昂贵硬件决策。

金句与有趣评论

  1. “😂 I like how people drop serious money on a machine just to run something that would also work on a potato.”
    • 亮点:用诙谐的方式表达对购买高性能机器运行低要求内容现象的看法。
  2. “🤔 kendrick90:Sorry for the outburst, but I can’t see M2 Ultra numbers so low in benchmarks any more.”
    • 亮点:直接表达对原测试结果中M2 Ultra数值过低的质疑。
  3. “👀 Mobile_Tart_1016:7b for a 512GB of memory machine. Mobile_Tart_1016:What the hell is this stuff”
    • 亮点:对512GB内存机器的7b数值表示疑惑,体现对测试配置的疑问。
  4. “😎 justGuy007:感谢你在一个无用的测试上浪费时间,我想。”
    • 亮点:表达对原帖作者测试的消极态度。
  5. “💡 not very sure why people are so negative - the point is the M3 Ultra chip vs the M2 Ultra, not the specific amount of memory.”
    • 亮点:指出人们关注重点不应是内存量而是芯片对比。

情感分析

总体情感倾向为质疑与不满。主要分歧点在于原测试结果的可靠性以及测试的合理性。可能的原因是原测试结果与部分评论者自己的测试结果差异较大,以及测试在模型选择、配置等方面存在让人觉得不合理之处。

趋势与预测

  • 新兴话题:可能会进一步探讨M3 Ultra是否真的在性能上有提升,以及苹果在人工智能机器方面的改进方向。
  • 潜在影响:如果更多证据表明测试结果存在问题,可能会影响人们对M2 Ultra和M3 Ultra的购买决策,也会促使苹果在人工智能机器的研发和营销上做出调整。

详细内容:

标题:关于 M2 Ultra 与 M3 Ultra 基准测试的热门讨论

近日,Reddit 上一则关于 M2 Ultra 和 M3 Ultra 基准测试的帖子引发了网友们的热烈讨论。原帖作者表示对 Matt Tech Talks 给出的 M2 Ultra 基准测试结果过低感到不满,并分享了自己使用 M2 Ultra 192GB 76 GPU 核心和 M3 Ultra 512GB 80 GPU 核心进行的测试结果。该帖子获得了众多关注,评论数众多。讨论主要围绕测试的合理性、不同模型的性能表现以及对硬件配置的看法等方面展开。

在讨论中,主要观点如下: 有人质疑为何总是在 192GB 和 512GB VRAM 上测试 3/7/8B 模型,认为测试 70B 模型可能更有意义。但也有人表示这样做数字会不好看,人们可能不喜欢。 有用户认为大多数基准测试使用的 4K 上下文长度对 RAG 应用无用,希望看到更多针对大型模型和更大上下文的基准测试。 还有人分享了自己的个人经历,比如Southern_Sun_2106 表示在阅读相关内容后取消了 M3 Ultra 的预订单。 关于测试结果差异的原因,有人猜测可能是使用了旧数据,忽略了软件优化的进步,也有人怀疑是否存在热节流问题。

有人指出更多的内存对于批量大小为 1 可能并不重要,也有人认为不同的配置不能简单对比,因为不是相同的机器。 一些用户发表了有趣或引发思考的观点,比如有人提到自己对食物的偏好,还有人表示希望苹果能推出更专业的 AI 机器。

总的来说,这次关于 M2 Ultra 和 M3 Ultra 基准测试的讨论,充分展现了网友们对硬件性能和测试方法的关注与思考,大家各抒己见,讨论热烈。但对于测试结果的解读和原因分析,仍存在诸多争议和不同看法。