原贴链接

我拿到了512GB(内存?),到目前为止很满意。对于700亿参数模型来说,提示处理还不错——在约7800个上下文标记的情况下,8位的MLX Llama 3.3 70b每秒处理约145个标记,并且在LM studio中如果不改变之前的上下文(由于它会缓存上下文)就不需要处理额外的提示,然后它的生成速度约为每秒8.5个标记。而Q4 70b模型在这种不大的上下文规模下推理速度大约是前者的两倍。

能够向模型输入这么多上下文并且它还能运行得相当好是很酷的。我刚刚把美国和法国大革命的维基百科文章放入一个L3.3 70b 8位微调模型中,总共有39686个上下文标记,这需要额外大约30GB的内存。我得到的评估速度是每秒101个标记,推理速度为每秒6.53个标记。对于4位版本,推理速度为每秒9.57个标记,提示评估时间类似,为每秒103个标记。

R1在提示处理方面较慢,但推理速度更快——在没有太多上下文的情况下能达到之前报道的每秒18个标记。不过在大的上下文情况下提示处理会非常慢——比如每秒30个标记。不确定这是否是我设置的问题,因为这个速度比我在别处看到的要低。

我得说,我是通过取“第一个提示的时间”并将提示标记数除以这个秒数来测量提示评估的。我不知道在LM studio中是否有更好的方法来找到评估时间。

讨论总结

原帖作者分享了MLX模型在LM Studio中的使用体验,包括不同模型在不同语境下的处理速度等情况。评论者主要围绕模型相关的话题进行讨论,包括请求原帖作者进行特定模型的测试、对原帖中提到的模型性能表示好奇或疑惑、对原帖中涉及的硬件版本进行询问等。同时,对于价值10000美元的机器性能是否符合预期存在不同观点,有人认为应具备更好性能,也有人对其表示满意并列举了相比其他设备的优势。

主要观点

  1. 👍 希望原帖作者进行特定模型和条件下的测试
    • 支持理由:想要更多关于特定模型在不同条件下性能的数据
    • 反对声音:无
  2. 🔥 对10000美元机器的性能有不同看法
    • 正方观点:认为10000美元的机器应具备更好性能
    • 反方观点:这台机器相比之前设备有很大提升,有很多优点如低功耗、小巧、低噪、现货等
  3. 💡 原帖作者寻找适用于批处理应用的方案
    • 解释:原帖作者目前使用的Nvidia方案耗电量过大,所以在寻找新方案
  4. 💡 不同模型在不同语境下有不同的处理速度和生成速度
    • 解释:原帖作者给出了不同模型如70b模型、Mistral 123b微调模型等在不同语境下的速度数据

金句与有趣评论

  1. “😂 Could you test the new command - a and/or mistral large at full context and Q8 quant?”
    • 亮点:直接向原帖作者提出测试请求,开启话题讨论
  2. “🤔 It’s weird that you have a 512 gb Unified Ram machine but you are still using 70B models.”
    • 亮点:对原帖作者的设备使用情况提出疑惑,引起思考
  3. “👀 I’m satisfied. It’s almost 4x faster generation than my previous setup with a 3090 and a P40. And has 10x more memory.”
    • 亮点:通过与之前设备对比,阐述对当前机器性能满意的原因

情感分析

总体情感倾向比较复杂,存在分歧。主要分歧点在于对价值10000美元机器性能的看法。部分人对机器性能失望,认为其价格昂贵应该有更好表现;另一部分人则满意,觉得相比之前设备有很大提升并且具有多种优点。可能的原因是不同用户对于机器性能的期望不同,使用场景和需求也不同。

趋势与预测

  • 新兴话题:原帖作者对不同模型的测试可能会引发更多关于模型性能和适用性的讨论。
  • 潜在影响:如果更多关于模型性能和优势的信息被发掘,可能会影响用户对于不同设备和模型的选择,对相关硬件和软件市场产生一定影响。

详细内容:

标题:关于 MLX 模型在 LM Studio 中的性能测试讨论

最近,Reddit 上一篇题为“Any m3 ultra test requests for MLX models in LM Studio?”的帖子引发了热烈讨论。原帖作者分享了自己对 512 gb 版本的使用感受,称其目前体验不错,例如 70b 模型的提示处理在一定条件下表现尚可,还介绍了不同模型和设置下的处理速度等详细数据。该帖子获得了众多关注,评论数众多。

帖子主要引发了关于不同模型性能测试的讨论,比如是否测试新的命令和特定模型在不同量化方式下的表现,以及对不同配置机器性能的看法等。

本文将要探讨的核心问题是:这些模型在不同条件下的性能表现究竟如何,以及用户对其性价比的评价。

在讨论中,各种观点精彩纷呈。有人希望测试 Command-a 和 Mistral 大型模型在全上下文和 Q8 量化下的情况;也有人分享了 Gemma 3 27B 和 Mistral 3.1 Small 等模型在特定上下文下的处理速度。

有人对 R1 的速度表示好奇,而原帖作者表示会稍后回复长上下文下的相关数据,并解释了选择 70B 模型的原因,比如通过了对自己重要的测试,有众多可用的微调格式等。

对于这台价值 10,000 美元的机器,有人直言期待更高,认为应该更快;但也有人表示满意,认为相比之前的配置有很大提升,生成速度几乎是 4 倍,内存是 10 倍,而且在低功耗、小体积、低噪音等方面有优势,能够现买现用。

总之,讨论中既有对高性能的期待,也有对现有表现的肯定,充分展示了用户对该产品复杂多样的看法。