原贴链接

到目前为止,我运行过的最大模型是通过Ollama量化为8位的LLama 3.2 Vision 90b,以及通过llama.cpp量化为4位的Mixtral 8x22b。两者的运行速度都相当可用:LLama为每秒6个标记(t/s),Mixtral为每秒16个标记(t/s)。两者都非常棒。显然,它们不一定能与当前前沿模型相媲美,但与ChatGPT 3.5相当。我正在下载4位版本的90b的llama,以进行一些质量方面的A/B测试。小模型的运行速度为每秒100多个标记。我有一个问题,就是如何考虑上下文大小和内存(RAM)需求?例如,我试过Mixtral的5位量化版本,它勉强能运行,只要我指定的上下文大小小于8000,它就能正常工作。如果我指定更大的值,它就会停止运行(我猜是因为它填满了键/值(k/v)缓存并且内存耗尽)。

讨论总结

原帖作者拥有M4 128设备,分享了运行不同模型(如LLama 3.2 Vision 90b、Mixtral 8x22b等)的情况,包括量化方式、运行速度、质量对比测试以及遇到的关于上下文大小和内存要求的问题。评论者们主要从模型运行相关的各个方面展开讨论,如不同模型在不同设备、量化版本、语境下的运行速度,不同设备运行模型的成本效益比较,推荐各种值得尝试的模型,也有一些与设备本身相关的话题如设备规格、价格等,整体氛围积极,充满技术交流探讨的氛围。

主要观点

  1. 👍 不同设备运行模型各有优劣
    • 支持理由:如苹果设备在某些方面(如感知响应性)优于其他设备,5000美元电脑运行70B模型速度低于5T/s不值得,租用GPU在价格和计算能力上可能更有优势等例子。
    • 反对声音:无。
  2. 🔥 对特定模型长语境场景的速度测试很有必要
    • 正方观点:有助于了解模型在不同场景下的性能,为使用者提供参考。
    • 反方观点:无。
  3. 💡 推荐Qwen2 - vl - 72b是最好的视觉语言模型
    • 支持理由:评论者称其远优于llama vision。
    • 反对声音:无。
  4. 💪 启用Flash Attention有助于提升速度和减少内存使用
    • 支持理由:从技术原理上可以加快处理速度并减少一点内存使用。
    • 反对声音:无。
  5. 🤔 若内存充足,优先尝试Mistral Large 2 LoRA和Llama 3.1 70B LoRA微调
    • 支持理由:可以探索模型在不同设置下的性能。
    • 反对声音:无。

金句与有趣评论

  1. “😂 Minecraft”
    • 亮点:回复简洁,可能是推荐在M4 128上玩《我的世界》,也可能是幽默回应,充满趣味和想象空间。
  2. “🤔 Have you enabled flash attention? It helps speed up processing and reduce memory usage a bit.”
    • 亮点:直接给出技术建议,对于模型运行速度和内存使用优化有一定价值。
  3. “👀 I like the configurability of llama.cpp, but I must say Ollama has a much higher "just works" factor.”
    • 亮点:比较了两种工具的特性,让读者能快速了解它们在使用上的差异。
  4. “😎 I’m download the 4 bit version of llama 90b now, to run some a/b tests on quality.”
    • 亮点:体现原帖作者对模型质量测试的积极探索态度。
  5. “🤓 Qwen2.5 - 72B - Instruct - Q4_K_M runs 10k context at ~4.6 t/s, and 20k context at ~3.3 t/s.”
    • 亮点:给出了具体模型在不同语境下的运行速度,具有很强的参考价值。

情感分析

总体情感倾向为积极,大家积极分享自己的观点、经验和建议。主要分歧点较少,偶尔存在对模型价值的不同看法,如有人认为花费金钱运行与ChatGPT 3.5相当的模型不值得,而有人认为不同模型有不同的优势。可能的原因是大家从不同的使用需求、成本效益等角度出发看待模型的价值。

趋势与预测

  • 新兴话题:随着更多人对不同模型的探索,可能会有更多关于新模型在M4 128设备或者其他设备上的运行测试和比较,也可能会出现更多模型优化(如微调)相关的讨论。
  • 潜在影响:对于模型开发者来说,可以根据这些用户反馈优化模型性能和适配性;对于普通用户来说,可以获取更多关于模型使用的经验和建议,以便更好地选择适合自己需求的模型。

详细内容:

标题:关于新入手 M4 128 的热门讨论

在 Reddit 上,一则关于刚入手 M4 128 的帖子引发了广泛关注。原帖中,作者分享了自己在新设备上运行模型的经验,如 LLama 3.2 Vision 90b 和 Mixtral 8x22b 等,还提到了不同模型的运行速度。此帖获得了众多评论,引发了热烈的讨论。

讨论焦点主要集中在设备性能、模型运行速度、成本效益以及与其他设备的比较等方面。有人表示羡慕能拥有如此强大的设备,但也有人质疑其性价比。

有用户分享道:“我已经从事 LLM 相关开发有一段时间了,但主要是在前沿模型上,所以从未需要担心从我的 M1 16gb 升级,因为它通过 API 调用就可以很好地工作。当然也玩过超小型模型,但它们的趣味性有限。我想要 M4 128 将近一年了,因为旧电脑还能用就一直等着,唯一失望的是这次迭代没有 256 版本。而且除了 LLMs,我还希望能同时运行 10 个 Docker 镜像,不用去折腾云服务,所以对我来说这是一笔合理的业务支出。”

也有人认为:“你几乎不需要 M4 128GB 来运行 10 个 Docker 镜像,除非这些 Docker 是巨大的野兽。这有点过度配置了。一个 Rpi 都能运行带有 20 个 Docker 的家庭服务器。”但另有人反驳:“像您这样不构建数据仓库或机器学习管道的人当然这么说,哈哈。每个人的需求都不同。而且我不能否认我确实可以用不同的方式做我想做的事情。只是这样不用操心本地内存,非常方便。”

还有用户好奇地询问:“能否测试一下 70b 模型在长上下文场景下的速度?我想了解 10k - 15k 的情况。”对此,有人回复了具体的运行速度数据。

关于设备与其他产品的比较,讨论也十分热烈。有人说:“MacBooks 在质量、设计、便携性和整体舒适度方面远远领先于 Windows 笔记本。”但也有人反驳:“现在的差距没那么大,而且 PC 能有更好的规格。但 PC 原始设备制造商无法与苹果竞争,他们没有足够的资金或利润率。”

总之,这次关于 M4 128 的讨论展示了大家对于新设备性能和应用的多样观点和思考。