原贴链接

对于好奇的人来说，这里是Deepseek V3 q4_K_M（旧版本，不是本周最新的版本）的gguf数据。我昨晚加载了它并测试了一些提示：

M3 Ultra Mac Studio 512GB，Deepseek V3 671b q4_K_M，无Flash Attention的gguf： CtxLimit:8102/16384，Amt:902/4000，Init:0.04s，Process:792.65s (9.05T/s)，Generate:146.21s (6.17T/s)，Total:938.86s。注意：通常我在调试模式下运行以获取每个token的毫秒数，但这次忘记启用了。得出prompt处理大约每个token 110ms，prompt响应大约每个token 162ms。

M3 Ultra Mac Studio 512GB，Deepseek V3 671b q4_K_M，开启Flash Attention的gguf： CtxLimit:7847/16384，Amt:647/4000，Init:0.04s，Process:793.14s (110.2ms/T = 9.08T/s)，Generate:103.81s (160.5ms/T = 6.23T/s)，Total:896.95s (0.72T/s)。

作为比较，这里是开启Flash Attention的Llama 3.3 70b q8： CtxLimit:6293/16384，Amt:222/800，Init:0.07s，Process:41.22s (8.2ms/T = 121.79T/s)，Generate:35.71s (160.8ms/T = 6.22T/s)，Total:76.92s (2.89T/s)

讨论总结

原帖分享了M3 Ultra Mac Studio 512GB运行Deepseek V3 671b q4_K_M的gguf速度测试结果。评论者们展开多方面讨论，许多人对测试中的速度感到失望，也有人质疑测试环境或数据，还有部分人认可这类数据对购买决策的价值，总体氛围显示出对该设备性能不太满意。

主要观点

👎 对M3 Ultra Mac Studio 512GB运行Deepseek V3的速度测试结果失望
- 支持理由：测试结果中的处理速度和响应速度较慢，如约110ms每token的处理速度和约162ms每token的响应速度。
- 反对声音：无。
🤔 分享真实性能数据容易遭反对
- 正方观点：很多人购买Mac时不清楚状况，这类帖子通常会得到很多负面反馈，因为大家不想看到不理想的真实数据。
- 反方观点：无。
👍 认可原帖测试价值
- 支持理由：对刚涉足这个领域的新手来说，在决定购买什么产品时非常有价值。
- 反对声音：无。
🔥 M3 Ultra Mac Studio的相关数字是苹果购买英伟达硬件的原因
- 正方观点：M3 Ultra Mac Studio的相关数字测试结果表明其性能有不足，所以苹果可能有从英伟达购买硬件的倾向。
- 反方观点：无。
💡 70b数据在特定情况下（如涉及KoboldCpp）很实用
- 支持理由：SomeOddCodeGuy等提到70b很实用，尤其是涉及KoboldCpp时。
- 反对声音：无。

金句与有趣评论

“😂 Damn, that’s a bit slower than I was hoping for?”
- 亮点：直接表达出对M3 Ultra Mac Studio运行速度的失望，简单明了。
“🤔 I generally get a decent bit of hate for these posts, and they usually get a pretty low upvote ratio, because ultimately its not fun to see the real numbers.”
- 亮点：解释了分享真实性能数据容易遭反对的原因。
“👀 I don’t want someone running out and dropping $10,000 without knowing the full story of what they’re buying.”
- 亮点：表明分享数据是为了让人们清楚所购买的产品情况。
“💡 70b is very usable, especially once you get KoboldCpp involved.”
- 亮点：强调70b在特定情况下的实用性。
“😉 I’m surprised there is no M4 Ultra chip yet.”
- 亮点：表达出对M4 Ultra芯片未出现的惊讶之情。

情感分析

总体情感倾向为负面，主要分歧点在于对M3 Ultra Mac Studio性能的看法，部分人认为其速度慢、性能不佳，是不值得购买的设备；而另一些人则从不同角度看待这些数据，如认为可以为购买决策提供参考，或对设备能运行某些模型表示惊叹。产生这种分歧的原因可能是不同用户的需求和期望不同，例如一些用户注重设备的性能速度，而一些新手用户更看重数据对购买决策的辅助作用。

趋势与预测

新兴话题：对M4 max等新设备配置在本地推理方面的探讨可能会引发后续讨论，还有NVIDIA新产品与Mac在LLMs相关应用方面的对比也可能成为后续话题。
潜在影响：如果更多类似性能比较的讨论出现，可能会影响消费者对Mac设备用于人工智能相关任务的购买意愿，也可能促使硬件制造商对产品性能进行优化改进。

详细内容：

《关于 M3 Ultra Mac Studio 512GB 运行 Deepseek V3 速度的热门讨论》

在 Reddit 上，一则有关“M3 Ultra Mac Studio 512GB prompt and write speeds for Deepseek V3 671b gguf q4_K_M, for those curious”的帖子引起了广泛关注。该帖子详细测试并分享了 M3 Ultra Mac Studio 512GB 运行 Deepseek V3 671b gguf 时的相关数据，获得了众多点赞和大量评论。

帖子主要引发了关于 M3 Ultra Mac Studio 512GB 运行该模型性能表现的热烈讨论。有人认为，很多人购买 Mac 时并不清楚其性能，可能会产生后悔情绪；也有人指出，在实际应用中，如与 Llama 3.3 70b 相比，M3 Ultra Mac Studio 512GB 的性能存在不足。同时，还提到了不同模型和配置在处理速度和效率上的差异。

讨论焦点主要集中在以下几个方面：有人表示 M3 Ultra Mac Studio 512GB 的处理速度不尽人意，比如 [SomeOddCodeGuy] 提到自己等待 10 多分钟才得到 7000 个令牌的响应。但也有人认为，使用特定的技术如 MLX 可以显著提高处理速度，[chibop1] 就分享了使用 MLX-LM 时的出色表现。有人拿其他硬件配置进行对比，像 [Conscious_Cut_6144] 提到使用 16 个 3090 在 VLLM 运行时的速度优势。对于模型优化方面，[dampflokfreund] 猜测可能是某些优化措施的缺失导致了处理速度的缓慢。

有用户分享道：“作为一名在相关领域探索许久的爱好者，我一直期待能有更出色的性能表现。但这次 M3 Ultra Mac Studio 512GB 的测试结果，让我有些失望。”

讨论中的共识在于，大家都认为准确了解硬件设备在运行特定模型时的真实性能非常重要，以便做出更明智的购买决策。

特别有见地的观点如 [SomeOddCodeGuy] 关于 KoboldCpp 的“Context Shifting”特性的介绍，让大家对模型处理机制有了更深入的理解。

总之，这次关于 M3 Ultra Mac Studio 512GB 运行 Deepseek V3 性能的讨论，为广大用户提供了丰富的参考和思考，也让大家更加关注硬件与模型的适配性以及性能优化的重要性。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#