原贴链接

很抱歉这么激动，但我再也无法忍受M2 Ultra在基准测试中的低得分了。https://llminfo.image.fangd123.cn/images/tvkobl58mtoe1.png!/format/webp我使用过192GB、76个GPU核心的M2 Ultra和512GB、80个GPU核心的M3 Ultra。我在每台机器上重复了相同的测试，每台测试3次，以下是我的结果：GGUF版本的M2 Ultra为82.75个标记/秒（远高于58）；GGUF版本的M3 Ultra为88.08个标记/秒；MLX版本的M2 Ultra为119.32个标记/秒；MLX版本的M3 Ultra为118.74个标记/秒。这是YouTube视频链接：Link。我在X平台上发布了一个关于这个的帖子：here。

讨论总结

原帖对M2 Ultra与M3 Ultra基准测试结果表示质疑，认为M2 Ultra的测试数值过低。评论者们从不同角度展开讨论，包括对测试模型选择的质疑，如总是选择特定模型进行测试是否合理；对测试本身合理性的质疑，如测试应先完善自身、最低测试配置应包含什么等；还有对测试结果可靠性的质疑，像怀疑原测试者使用旧数据、是否存在热节流影响结果等。此外，也有评论者通过自己的测试得到与原帖类似或不同的结果，还有人讨论了不同硬件之间的性能比较以及性价比等问题。

主要观点

👍 质疑原测试中M2 Ultra数值过低
- 支持理由：评论者自己测试结果与原测试差异大。
- 反对声音：无。
🔥 测试应先完善自身
- 正方观点：测试存在问题，如选择模型不合理，不应在未做好测试前得出结论。
- 反方观点：无。
💡 人们购买高性能机器运行低性能要求内容可能存在资源浪费
- 解释：从花费与运行内容不匹配角度提出可能存在资源浪费。
🌟 原帖中M2 Ultra基准测试数值过低不符合自己的测试结果
- 支持理由：TechNerd10191给出自己测试结果与原测试不同。
- 反对声音：无。
🤔 人们不应只关注内存量而应关注芯片对比
- 解释：强调芯片对比才是重点，原测试数据不符可能影响人们对昂贵硬件决策。

金句与有趣评论

“😂 I like how people drop serious money on a machine just to run something that would also work on a potato.”
- 亮点：用诙谐的方式表达对购买高性能机器运行低要求内容现象的看法。
“🤔 kendrick90：Sorry for the outburst, but I can’t see M2 Ultra numbers so low in benchmarks any more.”
- 亮点：直接表达对原测试结果中M2 Ultra数值过低的质疑。
“👀 Mobile_Tart_1016：7b for a 512GB of memory machine. Mobile_Tart_1016：What the hell is this stuff”
- 亮点：对512GB内存机器的7b数值表示疑惑，体现对测试配置的疑问。
“😎 justGuy007：感谢你在一个无用的测试上浪费时间，我想。”
- 亮点：表达对原帖作者测试的消极态度。
“💡 not very sure why people are so negative - the point is the M3 Ultra chip vs the M2 Ultra, not the specific amount of memory.”
- 亮点：指出人们关注重点不应是内存量而是芯片对比。

情感分析

总体情感倾向为质疑与不满。主要分歧点在于原测试结果的可靠性以及测试的合理性。可能的原因是原测试结果与部分评论者自己的测试结果差异较大，以及测试在模型选择、配置等方面存在让人觉得不合理之处。

趋势与预测

新兴话题：可能会进一步探讨M3 Ultra是否真的在性能上有提升，以及苹果在人工智能机器方面的改进方向。
潜在影响：如果更多证据表明测试结果存在问题，可能会影响人们对M2 Ultra和M3 Ultra的购买决策，也会促使苹果在人工智能机器的研发和营销上做出调整。

详细内容：

标题：关于 M2 Ultra 与 M3 Ultra 基准测试的热门讨论

近日，Reddit 上一则关于 M2 Ultra 和 M3 Ultra 基准测试的帖子引发了网友们的热烈讨论。原帖作者表示对 Matt Tech Talks 给出的 M2 Ultra 基准测试结果过低感到不满，并分享了自己使用 M2 Ultra 192GB 76 GPU 核心和 M3 Ultra 512GB 80 GPU 核心进行的测试结果。该帖子获得了众多关注，评论数众多。讨论主要围绕测试的合理性、不同模型的性能表现以及对硬件配置的看法等方面展开。

在讨论中，主要观点如下：有人质疑为何总是在 192GB 和 512GB VRAM 上测试 3/7/8B 模型，认为测试 70B 模型可能更有意义。但也有人表示这样做数字会不好看，人们可能不喜欢。有用户认为大多数基准测试使用的 4K 上下文长度对 RAG 应用无用，希望看到更多针对大型模型和更大上下文的基准测试。还有人分享了自己的个人经历，比如Southern_Sun_2106 表示在阅读相关内容后取消了 M3 Ultra 的预订单。关于测试结果差异的原因，有人猜测可能是使用了旧数据，忽略了软件优化的进步，也有人怀疑是否存在热节流问题。

有人指出更多的内存对于批量大小为 1 可能并不重要，也有人认为不同的配置不能简单对比，因为不是相同的机器。一些用户发表了有趣或引发思考的观点，比如有人提到自己对食物的偏好，还有人表示希望苹果能推出更专业的 AI 机器。

总的来说，这次关于 M2 Ultra 和 M3 Ultra 基准测试的讨论，充分展现了网友们对硬件性能和测试方法的关注与思考，大家各抒己见，讨论热烈。但对于测试结果的解读和原因分析，仍存在诸多争议和不同看法。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#