感觉好像每个人都有llama 7b的基准测试,这很好,但很难找到像Mistral Small或者Qwen2.5 32b这样20 - 32B模型的基准测试。我已经基本确定在即将推出的新M4 Max Mac Studios上只使用32gb内存,正如u/SomeOddCodeGuy所测试的,70b模型使用起来非常痛苦,即使在他的M2 Ultra上也是如此,所以我认为20 - 32b范围对于日常使用来说是最好的。如果你有M1 - 3 Max苹果电脑并且使用过这些模型,我很想知道你得到的速度是多少!如果你有Ultra(型号),这个信息也很有价值,因为如果我从ggerganovs测试中理解正确的话,我可以把那个数值取1/2,这将与Max(型号)得到的速度非常匹配。
讨论总结
原帖作者想了解M1 - 3 Max上20 - 32B模型的处理和生成速度,因为目前大多是7B模型的基准测试。评论主要围绕设备内存选择与模型使用关系、不同设备上模型的速度测试结果、对不同模型的性能评价、对基准测试的期望等展开,是一个以技术探讨为主的讨论,大家分享自己的使用经验和测试数据。
主要观点
- 👍 认为选择M3或M4 Max机器时仅32GB内存不是好主意
- 支持理由:应增加内存以充分利用强大的CPU
- 反对声音:无
- 🔥 M1/M2/M3 Max设备上70B模型每秒读取速度为6 - 9个token
- 正方观点:通过实际测试得出此数据
- 反方观点:无
- 💡 倾向于使用较小模型
- 支持理由:认为更大模型性能差,如使用qwen2.5 70b 4bit mlx模型速度约为3.8t/s觉得很慢
- 反对声音:无
- 🤔 希望有更多针对Mistral Small等规模模型的基准测试
- 支持理由:目前这种规模模型的基准测试较少,如22B是自己能使用的最大规模,需要更多测试数据
- 反对声音:无
- 👀 32GB内存对于使用70B模型来说不够
- 支持理由:要为模型、应用、系统和上下文分配内存,实际使用中32GB内存不够用
- 反对声音:无
金句与有趣评论
- “😂 我认为如果已经打算购买配备M3或M4 Max的电脑,只选择32GB内存不是一个好主意。”
- 亮点:直接提出与原帖作者可能决策相关的不同观点,引发后续讨论。
- “🤔 我后悔几年前在M1 Ultra上没有选择更多的内存,所以今年我选择了最大内存的M2 Ultra。”
- 亮点:以自身经历说明内存选择的重要性。
- “👀 On an M1/M2/M3 Max you can expect between 6 and 9 tokens per second (reading speed) with 70B.”
- 亮点:提供了M1 - 3 Max设备上70B模型读取速度的具体数据。
- “😎 I would say it’s very usable with 4 bit GGUF or MLX but not with 32GB.”
- 亮点:表明特定格式下模型的可用性与内存的关系。
- “💡 我倾向于不利用64GB内存,而坚持使用较小的模型,如4bit 32b等,因为在我看来,任何更大模型的性能都相当差。”
- 亮点:表达了对模型大小和性能关系的看法。
情感分析
总体情感倾向是中性的,主要是技术分享和讨论。分歧点较少,主要分歧在于内存选择上,部分人认为32GB内存对于一些操作足够,部分人则认为不够。可能的原因是大家的使用场景和对设备性能要求不同。
趋势与预测
- 新兴话题:关于令牌生成速度测量标准工具或方法可能会引发后续讨论。
- 潜在影响:有助于提高模型在不同设备上性能评估的准确性,对硬件设备和模型选择的决策产生更科学的依据。
详细内容:
《关于 M1-3 Max 上 20-32B 模型处理和生成速度的热门讨论》
在 Reddit 上,一则题为“What processing and generation speeds are you getting on 20-32B models on M1-3 Max?”的帖子引发了广泛关注。该帖称, llama 7b 的基准测试随处可见,但像 Mistral Small 或 Qwen2.5 32b 这样 20-32B 模型的基准测试却很难找到。发帖人表示已决定在新推出的 M4 Max Mac Studios 上选择 32GB 内存,但有人测试指出 70b 模型使用起来很困难,甚至在 M2 Ultra 上也是如此,认为 20-32B 范围对于日常使用可能是最佳的。此帖获得了众多点赞和大量评论。
讨论的焦点主要集中在不同型号 Mac 设备的内存选择以及模型的处理和生成速度。有人认为,如果已经打算购买 M3 或 M4 Max 机器,选择 32GB 内存不是个好主意,应该配置更多内存才能发挥其性能。比如有用户表示几年前购买 M1 Ultra 时内存选少了,今年换成了内存更大的 M2 Ultra,认为这是个很棒的决定,而且苹果还提供 0%的融资。还有用户称在 M1/M2/M3 Max 上,70B 模型每秒能处理 6 到 9 个 token(读取速度),随着上下文变大速度会变慢,使用 4 位 GGUF 或 MLX 时 32GB 内存不够,至少需要 64GB。也有人分享了自己在 M3 Max 128 GB MBP 上使用 Openai 兼容 API MLX 服务器项目的测试结果,称对于短提示的处理速度不太可靠,长提示能更真实地反映处理速度,而且 MLX 的加载时间很快,即使是 70B 模型也不到 5 秒。
有人反驳说自己使用 M1 Max 64GB 时倾向于选择较小的模型,因为较大模型的性能不佳,比如 70B 模型每秒只能处理约 3.8 个 token,而有人在 M2 Max 上能达到每秒 7 个以上 token 的处理速度。还有人在 16GB 的 M1 Pro 上使用 Mistral Small 能达到每秒 7 个 token 的处理速度,并希望能有更多针对这种规模模型的基准测试。
关于是否有测量 token 生成速度的标准工具或方法,也引发了大家的讨论。
在这场热烈的讨论中,大家对于不同设备和模型的性能表现各抒己见。有人强调内存配置的重要性,有人分享了实际测试数据和个人使用体验。这场讨论为想要了解相关信息的人们提供了丰富的参考和思考方向。
感谢您的耐心阅读!来选个表情,或者留个评论吧!