文章链接:https://blog.exolabs.net/day-2/
讨论总结
该讨论主要围绕在M4 Mac Mini AI集群上运行DeepSeek - V3这个671B MoE模型展开。评论者从不同角度探讨了相关话题,包括对技术操作表示尊重、好奇模型运行的功耗、比较Mac集群与3090集群的性价比、对运行速度和设备成本的分析,还有一些人提出了关于在其他设备上运行该模型的疑问等,整体氛围偏向于技术交流探讨。
主要观点
- 👍 对在M4 Mac Mini AI集群上运行DeepSeek - V3这一技术操作表示尊重
- 支持理由:没有明确表述,仅用“respect”表达敬意。
- 反对声音:无。
- 🔥 Mac和3090在不同的模型规模需求下各有优劣
- 正方观点:在运行能装入显存的模型时,3090集群性价比更高;若要运行最大的模型,Mac集群更具优势;Mac在轻负载工作下更高效,3090在批量处理时表现更好等。
- 反方观点:无明确反方观点,只是对各自优势的比较。
- 💡 想了解模型运行时的总功耗情况
- 支持理由:认为知道推理时的总功耗是有趣的事情。
- 反对声音:无。
- 💡 在特定价格和硬件条件下认可当前运行方式
- 支持理由:如果找不到比20000美元更便宜且带有英伟达(NVidia)的设备,这种在M4 Mac Mini AI集群上运行的方式就是可行的选择。
- 反对声音:无。
- 💡 670b模型处理提示评估速度比405b快让人意外
- 支持理由:评论者原本以为670b的MoE模型在处理提示评估速度方面不会比405b快。
- 反对声音:无。
金句与有趣评论
- “😂 IxinDow: respect”
- 亮点:简洁地表达了对标题中技术操作的尊重态度。
- “🤔 synn89: Huh. Would be interesting to know the total watts usage for inference. And I wonder how it would run on fewer Ultras.”
- 亮点:提出了对模型运行功耗以及在不同设备上运行情况的好奇。
- “👀 Definetely, the 3090 cluster wins for models that fit into VRAM. But if you are rich/want to run largest models, Macs are better.”
- 亮点:清晰地阐述了3090集群和Mac集群在不同模型规模需求下的性价比差异。
- “😎 This is amazingly cool.”
- 亮点:表达了对在M4 Mac Mini AI集群上运行DeepSeek - V3这一事件的正面感受。
- “🤨 This is the way! Unless you can find something cheaper than $20k with NVidia.”
- 亮点:从性价比考量的角度对当前运行方式表示认可。
情感分析
总体情感倾向是积极正面的,大多数评论者对在M4 Mac Mini AI集群上运行DeepSeek - V3这一事件表现出好奇、尊重或者认可的态度。主要分歧点在于对设备性价比的看法,例如Mac集群和3090集群在不同场景下的性价比各有优劣。可能的原因是不同用户的使用需求和成本考量不同,有的用户更注重轻负载下的效率,有的用户则更关注批量处理能力或者设备成本等因素。
趋势与预测
- 新兴话题:使用具有大量内存的廉价二手服务器来托管相关项目的可能性。
- 潜在影响:如果找到性价比更高的设备或者托管方式,可能会影响到相关技术在不同规模企业或个人用户中的推广和应用。
详细内容:
标题:在 M4 Mac Mini AI 集群上运行 DeepSeek-V3 的热议
最近,Reddit 上一篇关于在 M4 Mac Mini AI 集群上运行 DeepSeek-V3 的帖子引起了广泛关注。该帖子(https://blog.exolabs.net/day-2/)提到了 671B MoE 模型分布在 8 个 M4 Pro 64GB Mac Minis 上,吸引了众多网友参与讨论,点赞数和评论数众多。
此次讨论的核心问题主要围绕着 Mac 集群与 3090 集群在价格性能比、能耗以及实际应用效果等方面的比较。
有人表示好奇这种配置下的总瓦特使用量用于推理,以及在更少的 Ultras 上运行的效果会如何。还有人提供了相关的链接https://support.apple.com/en-us/103253,指出最大功耗为 1120 W,最小闲置功耗为 40W,并考虑了必要的网络设备和客户端计算机等因素。
在观点方面,有人认为如果使用 MoE 模型,Mac 集群在价格性能方面可能比 3090 集群更出色;但也有人坚定地认为 3090 集群对于能适配 VRAM 的模型更具优势,而且二手 3090 的价格性能比相当惊人。即使考虑到能耗,运行多年也能与 Mac 系统的初始成本持平。有人提到公司一般不会购买大量二手 3090。还有人指出在电力成本低的地方,情况可能不同,但在加州等地区就并非如此。有人认为还需计算两种解决方案的每秒令牌数,或许 3090 仍会更高效。也有人认为这取决于具体情况。
有人分享说原本以为 MoE 只会影响输出速度,没想到对提示评估速度也有影响。还有人询问是否可以用便宜的二手服务器和大量内存来实现,以及拥有双 Xeon 配置和 512GB DDR4 RAM 是否值得尝试。有人好奇为此付出的成本可以支付多少年的 API。也有人想知道如何用一堆随机的 PC 来实现。更有人指出要达到每秒 20/40 令牌,可能需要至少 19 个 Mac Minis Pro,设备成本约 5 万美元。
总体来看,关于 Mac 集群和 3090 集群的优劣讨论尚无定论,各种观点都有其依据和合理性,这也反映了在 AI 计算领域中,选择合适的硬件配置需要综合考虑多种因素。
感谢您的耐心阅读!来选个表情,或者留个评论吧!