原贴链接

感觉好像每个人都有llama 7b的基准测试,这很好,但很难找到像Mistral Small或者Qwen2.5 32b这样20 - 32B模型的基准测试。我已经基本确定在即将推出的新M4 Max Mac Studios上只使用32gb内存,正如u/SomeOddCodeGuy所测试的,70b模型使用起来非常痛苦,即使在他的M2 Ultra上也是如此,所以我认为20 - 32b范围对于日常使用来说是最好的。如果你有M1 - 3 Max苹果电脑并且使用过这些模型,我很想知道你得到的速度是多少!如果你有Ultra(型号),这个信息也很有价值,因为如果我从ggerganovs测试中理解正确的话,我可以把那个数值取1/2,这将与Max(型号)得到的速度非常匹配。

讨论总结

原帖作者想了解M1 - 3 Max上20 - 32B模型的处理和生成速度,因为目前大多是7B模型的基准测试。评论主要围绕设备内存选择与模型使用关系、不同设备上模型的速度测试结果、对不同模型的性能评价、对基准测试的期望等展开,是一个以技术探讨为主的讨论,大家分享自己的使用经验和测试数据。

主要观点

  1. 👍 认为选择M3或M4 Max机器时仅32GB内存不是好主意
    • 支持理由:应增加内存以充分利用强大的CPU
    • 反对声音:无
  2. 🔥 M1/M2/M3 Max设备上70B模型每秒读取速度为6 - 9个token
    • 正方观点:通过实际测试得出此数据
    • 反方观点:无
  3. 💡 倾向于使用较小模型
    • 支持理由:认为更大模型性能差,如使用qwen2.5 70b 4bit mlx模型速度约为3.8t/s觉得很慢
    • 反对声音:无
  4. 🤔 希望有更多针对Mistral Small等规模模型的基准测试
    • 支持理由:目前这种规模模型的基准测试较少,如22B是自己能使用的最大规模,需要更多测试数据
    • 反对声音:无
  5. 👀 32GB内存对于使用70B模型来说不够
    • 支持理由:要为模型、应用、系统和上下文分配内存,实际使用中32GB内存不够用
    • 反对声音:无

金句与有趣评论

  1. “😂 我认为如果已经打算购买配备M3或M4 Max的电脑,只选择32GB内存不是一个好主意。”
    • 亮点:直接提出与原帖作者可能决策相关的不同观点,引发后续讨论。
  2. “🤔 我后悔几年前在M1 Ultra上没有选择更多的内存,所以今年我选择了最大内存的M2 Ultra。”
    • 亮点:以自身经历说明内存选择的重要性。
  3. “👀 On an M1/M2/M3 Max you can expect between 6 and 9 tokens per second (reading speed) with 70B.”
    • 亮点:提供了M1 - 3 Max设备上70B模型读取速度的具体数据。
  4. “😎 I would say it’s very usable with 4 bit GGUF or MLX but not with 32GB.”
    • 亮点:表明特定格式下模型的可用性与内存的关系。
  5. “💡 我倾向于不利用64GB内存,而坚持使用较小的模型,如4bit 32b等,因为在我看来,任何更大模型的性能都相当差。”
    • 亮点:表达了对模型大小和性能关系的看法。

情感分析

总体情感倾向是中性的,主要是技术分享和讨论。分歧点较少,主要分歧在于内存选择上,部分人认为32GB内存对于一些操作足够,部分人则认为不够。可能的原因是大家的使用场景和对设备性能要求不同。

趋势与预测

  • 新兴话题:关于令牌生成速度测量标准工具或方法可能会引发后续讨论。
  • 潜在影响:有助于提高模型在不同设备上性能评估的准确性,对硬件设备和模型选择的决策产生更科学的依据。

详细内容:

《关于 M1-3 Max 上 20-32B 模型处理和生成速度的热门讨论》

在 Reddit 上,一则题为“What processing and generation speeds are you getting on 20-32B models on M1-3 Max?”的帖子引发了广泛关注。该帖称, llama 7b 的基准测试随处可见,但像 Mistral Small 或 Qwen2.5 32b 这样 20-32B 模型的基准测试却很难找到。发帖人表示已决定在新推出的 M4 Max Mac Studios 上选择 32GB 内存,但有人测试指出 70b 模型使用起来很困难,甚至在 M2 Ultra 上也是如此,认为 20-32B 范围对于日常使用可能是最佳的。此帖获得了众多点赞和大量评论。

讨论的焦点主要集中在不同型号 Mac 设备的内存选择以及模型的处理和生成速度。有人认为,如果已经打算购买 M3 或 M4 Max 机器,选择 32GB 内存不是个好主意,应该配置更多内存才能发挥其性能。比如有用户表示几年前购买 M1 Ultra 时内存选少了,今年换成了内存更大的 M2 Ultra,认为这是个很棒的决定,而且苹果还提供 0%的融资。还有用户称在 M1/M2/M3 Max 上,70B 模型每秒能处理 6 到 9 个 token(读取速度),随着上下文变大速度会变慢,使用 4 位 GGUF 或 MLX 时 32GB 内存不够,至少需要 64GB。也有人分享了自己在 M3 Max 128 GB MBP 上使用 Openai 兼容 API MLX 服务器项目的测试结果,称对于短提示的处理速度不太可靠,长提示能更真实地反映处理速度,而且 MLX 的加载时间很快,即使是 70B 模型也不到 5 秒。

有人反驳说自己使用 M1 Max 64GB 时倾向于选择较小的模型,因为较大模型的性能不佳,比如 70B 模型每秒只能处理约 3.8 个 token,而有人在 M2 Max 上能达到每秒 7 个以上 token 的处理速度。还有人在 16GB 的 M1 Pro 上使用 Mistral Small 能达到每秒 7 个 token 的处理速度,并希望能有更多针对这种规模模型的基准测试。

关于是否有测量 token 生成速度的标准工具或方法,也引发了大家的讨论。

在这场热烈的讨论中,大家对于不同设备和模型的性能表现各抒己见。有人强调内存配置的重要性,有人分享了实际测试数据和个人使用体验。这场讨论为想要了解相关信息的人们提供了丰富的参考和思考方向。