原贴链接

我一直在我的Macbook M4 Max上测试一些小模型的营销/编码能力。流行的DeepSeek - R1 - Distill - Qwen - 32B是我首次尝试在本地实际运行的模型。它还可以，但后来我发现了这个得分更高的版本 - 测试结果在模型页面上：[https://huggingface.co/FuseAI/FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview](https://huggingface.co/FuseAI/FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview)。我没有看到8位量化MLX版本，所以我自己做了一个 - 然后，瞧，这个版本效果更好。它甚至不是专注于代码的，但编码效果更好……至少在我看来是这样。它的交流方式肯定更友好。不管怎样，我其实不太清楚自己在做什么，但我建议使用8位量化。如果使用Mac，在HF的存储库中有一个6位量化MLX，但那个版本的性能明显更差。不确定如何上传我的MLX_8bit……但也许真正懂行的人能比我处理得更好。

讨论总结

原帖作者分享了在Macbook M4 Max上使用FuseAI的DeepSeek R1 Distill模型自制8 - Bit Quant MLX版本的体验，认为这个版本表现更好。评论者们从不同角度进行了讨论，如评价该模型是70B以下最佳开源权重推理模型、比较多个推理模型的性能、分享在不同设备上使用相关模型的技术经验、探讨模型的内存占用情况、进行模型版本相关的问答、询问模型兼容性和对比情况、表达测试意向、请求发布基准测试结果等，整个讨论氛围比较技术向和平和。

主要观点

👍 该模型在评论者的体验中更好
- 支持理由：评论者在自己的使用过程中得出此结论
- 反对声音：无
🔥 完整R1在代码分析代理任务中结果最佳
- 正方观点：评论者经过多种模型的测试得出此结果
- 反方观点：无
💡 存在表现大致相同但思考时间短的闪存版本
- 解释：评论者在自身使用中发现这一版本的特点
💡 Fuse的32B Q8_0与其他模型相比，每个上下文标记占用的内存要少得多
- 解释：评论者在对相关模型比较时发现这一情况
💡 特定模型存在两个版本且存在差异
- 解释：评论者指出特定模型的版本差异，如Flash版本和非Flash版本

金句与有趣评论

“😂 It’s definitely better in my experience.”
- 亮点：直接表明模型在自己体验中的优越性
“🤔 Full R1 gave the best results for my agent (code analysys) Followed by o3 - mini, and then QwQ.”
- 亮点：清晰地列出不同模型在代码分析代理任务中的结果排序
“👀 There’s also a flash version which performs roughly the same but doesn’t spend as much time thinking.”
- 亮点：提出一个有特色的模型版本，其思考时间较短
“💡 At the least, it’s eating far less RAM per token of context.”
- 亮点：指出模型在内存占用方面的优势
“🙄 It doesn’t need to beat Qwen or QwQ native (Nemo was shit at benchmarks too but it was awesome in general) but a baseline would be very useful.”
- 亮点：用类比的方式解释基准测试结果的重要性

情感分析

总体情感倾向是正面的，大家主要是在积极分享和交流关于FuseAI的DeepSeek R1 Distill模型相关的使用经验、评价和问题。主要分歧点较少，因为大多数评论都是基于自己的使用经验或者技术探讨。可能的原因是这个话题比较专业和小众，大家都是抱着交流技术的目的参与讨论。

趋势与预测

新兴话题：关于模型的MMLU - Pro计算机科学运行结果可能会成为后续讨论点，因为有评论者提出请求。
潜在影响：如果这些模型在相关测试和应用中表现出色，可能会对人工智能领域的模型开发和应用有一定的推动作用，尤其是在开源权重推理模型相关的开发和优化方面。

详细内容：

标题：关于 FUSEAI 的 DeepSeek R1 Distill（Merge）模型的热门讨论

在 Reddit 上，一则有关“FUSEAI 的 DeepSeek R1 Distill（Merge）似乎更好”的帖子引发了众多关注。原帖作者在自己的 Macbook M4 Max 上尝试了一些小型模型的营销和编码能力，发现 DeepSeek-R1-Distill-Qwen-32B 表现不错，自己制作的 8 位量化版本效果更佳。该帖子获得了大量点赞和众多评论。

讨论的焦点主要集中在不同用户对该模型的使用体验和性能评价。有人表示在自己的经验中它确实更好，认为它是小于 70B 的最佳开放权重推理模型。还有用户尝试了多种推理模型，指出 Full R1 在其代理（代码分析）中给出了最佳结果。也有人提到有一个闪存版本，性能大致相同但思考时间更短，在 3090 上使用效果很好。

有用户分享道：“我尝试了所有推理模型。QwQ、FuseAI、o1 - mini、o3 - mini 以及所有大型 R1 蒸馏和完整 R1。我在本地以 fp8 运行所有本地模型。Full R1 为我的代理（代码分析）提供了最佳结果，其次是 o3 - mini，然后是 QwQ。所有其他模型似乎处于同一水平，并且效果不如在 fp8 下的好老 QwQ。”

在讨论中，大家对模型的量化版本、与其他模型的对比、在不同设备上的表现等方面存在不同看法。同时，也有用户分享了相关的链接和自己的操作经历，如如何将 GGUFs 转换为 MLX 等。

不过，讨论中也存在一些尚未达成共识的问题，比如对于该模型与其他特定模型的对比效果，以及如何进一步优化其性能等。

总的来说，关于 FUSEAI 的 DeepSeek R1 Distill（Merge）模型的讨论展现了用户对其的浓厚兴趣和多样化的看法，为更多人深入了解和使用该模型提供了有价值的参考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#