原贴链接

到目前为止，我运行过的最大模型是通过Ollama量化为8位的LLama 3.2 Vision 90b，以及通过llama.cpp量化为4位的Mixtral 8x22b。两者的运行速度都相当可用：LLama为每秒6个标记（t/s），Mixtral为每秒16个标记（t/s）。两者都非常棒。显然，它们不一定能与当前前沿模型相媲美，但与ChatGPT 3.5相当。我正在下载4位版本的90b的llama，以进行一些质量方面的A/B测试。小模型的运行速度为每秒100多个标记。我有一个问题，就是如何考虑上下文大小和内存（RAM）需求？例如，我试过Mixtral的5位量化版本，它勉强能运行，只要我指定的上下文大小小于8000，它就能正常工作。如果我指定更大的值，它就会停止运行（我猜是因为它填满了键/值（k/v）缓存并且内存耗尽）。

讨论总结

原帖作者拥有M4 128设备，分享了运行不同模型（如LLama 3.2 Vision 90b、Mixtral 8x22b等）的情况，包括量化方式、运行速度、质量对比测试以及遇到的关于上下文大小和内存要求的问题。评论者们主要从模型运行相关的各个方面展开讨论，如不同模型在不同设备、量化版本、语境下的运行速度，不同设备运行模型的成本效益比较，推荐各种值得尝试的模型，也有一些与设备本身相关的话题如设备规格、价格等，整体氛围积极，充满技术交流探讨的氛围。

主要观点

👍 不同设备运行模型各有优劣
- 支持理由：如苹果设备在某些方面（如感知响应性）优于其他设备，5000美元电脑运行70B模型速度低于5T/s不值得，租用GPU在价格和计算能力上可能更有优势等例子。
- 反对声音：无。
🔥 对特定模型长语境场景的速度测试很有必要
- 正方观点：有助于了解模型在不同场景下的性能，为使用者提供参考。
- 反方观点：无。
💡 推荐Qwen2 - vl - 72b是最好的视觉语言模型
- 支持理由：评论者称其远优于llama vision。
- 反对声音：无。
💪 启用Flash Attention有助于提升速度和减少内存使用
- 支持理由：从技术原理上可以加快处理速度并减少一点内存使用。
- 反对声音：无。
🤔 若内存充足，优先尝试Mistral Large 2 LoRA和Llama 3.1 70B LoRA微调
- 支持理由：可以探索模型在不同设置下的性能。
- 反对声音：无。

金句与有趣评论

“😂 Minecraft”
- 亮点：回复简洁，可能是推荐在M4 128上玩《我的世界》，也可能是幽默回应，充满趣味和想象空间。
“🤔 Have you enabled flash attention? It helps speed up processing and reduce memory usage a bit.”
- 亮点：直接给出技术建议，对于模型运行速度和内存使用优化有一定价值。
“👀 I like the configurability of llama.cpp, but I must say Ollama has a much higher "just works" factor.”
- 亮点：比较了两种工具的特性，让读者能快速了解它们在使用上的差异。
“😎 I’m download the 4 bit version of llama 90b now, to run some a/b tests on quality.”
- 亮点：体现原帖作者对模型质量测试的积极探索态度。
“🤓 Qwen2.5 - 72B - Instruct - Q4_K_M runs 10k context at ~4.6 t/s, and 20k context at ~3.3 t/s.”
- 亮点：给出了具体模型在不同语境下的运行速度，具有很强的参考价值。

情感分析

总体情感倾向为积极，大家积极分享自己的观点、经验和建议。主要分歧点较少，偶尔存在对模型价值的不同看法，如有人认为花费金钱运行与ChatGPT 3.5相当的模型不值得，而有人认为不同模型有不同的优势。可能的原因是大家从不同的使用需求、成本效益等角度出发看待模型的价值。

趋势与预测

新兴话题：随着更多人对不同模型的探索，可能会有更多关于新模型在M4 128设备或者其他设备上的运行测试和比较，也可能会出现更多模型优化（如微调）相关的讨论。
潜在影响：对于模型开发者来说，可以根据这些用户反馈优化模型性能和适配性；对于普通用户来说，可以获取更多关于模型使用的经验和建议，以便更好地选择适合自己需求的模型。

详细内容：

标题：关于新入手 M4 128 的热门讨论

在 Reddit 上，一则关于刚入手 M4 128 的帖子引发了广泛关注。原帖中，作者分享了自己在新设备上运行模型的经验，如 LLama 3.2 Vision 90b 和 Mixtral 8x22b 等，还提到了不同模型的运行速度。此帖获得了众多评论，引发了热烈的讨论。

讨论焦点主要集中在设备性能、模型运行速度、成本效益以及与其他设备的比较等方面。有人表示羡慕能拥有如此强大的设备，但也有人质疑其性价比。

有用户分享道：“我已经从事 LLM 相关开发有一段时间了，但主要是在前沿模型上，所以从未需要担心从我的 M1 16gb 升级，因为它通过 API 调用就可以很好地工作。当然也玩过超小型模型，但它们的趣味性有限。我想要 M4 128 将近一年了，因为旧电脑还能用就一直等着，唯一失望的是这次迭代没有 256 版本。而且除了 LLMs，我还希望能同时运行 10 个 Docker 镜像，不用去折腾云服务，所以对我来说这是一笔合理的业务支出。”

也有人认为：“你几乎不需要 M4 128GB 来运行 10 个 Docker 镜像，除非这些 Docker 是巨大的野兽。这有点过度配置了。一个 Rpi 都能运行带有 20 个 Docker 的家庭服务器。”但另有人反驳：“像您这样不构建数据仓库或机器学习管道的人当然这么说，哈哈。每个人的需求都不同。而且我不能否认我确实可以用不同的方式做我想做的事情。只是这样不用操心本地内存，非常方便。”

还有用户好奇地询问：“能否测试一下 70b 模型在长上下文场景下的速度？我想了解 10k - 15k 的情况。”对此，有人回复了具体的运行速度数据。

关于设备与其他产品的比较，讨论也十分热烈。有人说：“MacBooks 在质量、设计、便携性和整体舒适度方面远远领先于 Windows 笔记本。”但也有人反驳：“现在的差距没那么大，而且 PC 能有更好的规格。但 PC 原始设备制造商无法与苹果竞争，他们没有足够的资金或利润率。”

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#