原贴链接

我知道这个帖子可能会被狂踩。我正在48GB和64GB版的MacBook Pro之间做选择。如果你有64GB内存的M4版MacBook Pro，能否下载50GB的Q5_K_M模型（https://huggingface.co/mradermacher/Llama - 3.1 - Nemotron - 70B - Instruct - HF - i1 - GGUF），然后告诉我你的标记（token）速度和首次标记（token）的时间速度是多少？并且能否进行一个约8000个标记（token）的对话，看看它的速度会多快降下来？如果我能在MacBook Pro上以每秒约4个标记（token）的速度运行Nemotron Q5_K_M量化模型，那就没有理由再启动家庭办公室里又吵又耗电的AI服务器了。谢谢，希望你百忙之中抽出时间帮忙，祝你好运。

讨论总结

原帖主想在两款不同内存的Macbook Pro型号间做出选择，希望有64GB版本的用户下载特定模型测试token速度和首次token产生时间等，以便确定是否有必要使用家中吵闹且耗电的AI服务器。评论者们从不同角度进行了回应，包括分享自己的测试结果、提出模型运行的技术建议、分享自己设备的运行速度，也有人提供相关链接资源，还有人从购买尝试的角度给出了建议。整体氛围围绕技术测试与Macbook Pro的性能讨论，比较专业和务实。

主要观点

👍 Retnik会进行相关测试并在下班后分享结果
- 支持理由：Retnik主动下载模型并承诺分享结果，有助于原帖主获取参考数据。
- 反对声音：无
🔥 ChimataNoKami认为50GB模型可在64GB设备运行但需调整参数
- 正方观点：调整参数可让模型在有限内存设备运行。
- 反方观点：NEEDMOREVRAM对调整上下文大小的具体数值有疑问。
💡 在8k上下文情况下内存占用量较高，可能不适合64gb内存（Retnik测试结果）
- 这一结果对原帖主在内存选择上有参考价值。
🤔 ChimataNoKami称自己M2 Max运行特定程序时能达到8tps的速度
- 提供了不同设备运行速度的参考。
😎 Eptiaph建议购买Macbook Pro并可在15天内退货
- 为原帖主提供了一种简单直接的抉择方式。

金句与有趣评论

“😂 Retnik: I have the model downloading right now. When I get off work, I’ll let you know what I get.”
- 亮点：积极回应原帖主请求，体现乐于助人的态度。
“🤔 NEEDMOREVRAM: Ok, thanks. Was wondering if 50GB was too big for the 64GB model and if it will slow it down.”
- 亮点：提出关于模型大小与设备内存匹配以及速度影响的关键问题。
“👀 ChimataNoKami: You can run 50gb models but you need to bump the macOS user space vram limit and tune down the context size”
- 亮点：给出了50GB模型在64GB设备运行的解决方案。
“😎 Eptiaph: Buy it. Try it. Return within 15 days.”
- 亮点：提供一种简单直接的产品选择尝试策略。
“💪 后端: Koboldcpp最新版本。前端: Silly Tavern。在8k上下文时占用61gb内存。（Retnik）”
- 亮点：详细的测试环境和结果分享。

情感分析

总体情感倾向为中性。主要分歧点在于50GB模型在64GB设备上运行的参数调整问题，可能的原因是不同用户对技术细节的理解和经验不同。部分用户积极分享自己的测试结果或设备运行情况，是为了给原帖主提供帮助，没有明显的情绪偏向。

趋势与预测

新兴话题：可能会引发关于不同Macbook Pro型号在更多不同模型运行时的性能讨论。
潜在影响：对于那些在Macbook Pro上运行大型模型的用户，在设备选择、模型优化等方面有更多参考依据，也有助于推动相关技术社区对Macbook Pro在AI应用场景下性能研究的发展。

详细内容：

标题：关于 M4 Macbook Pro 不同内存型号运行模型的热门讨论

在 Reddit 上，有一篇题为“Request: Someone with an M4 Macbook Pro Max 64GB”的帖子引发了广泛关注。该帖获得了众多点赞和大量评论。帖子作者在纠结是选择 Macbook Pro 的 48GB 还是 64GB 内存型号，并询问拥有 64GB 内存的 M4 Macbook Pro Max 用户下载特定模型后的相关性能数据，比如令牌和首次令牌生成速度等。

讨论的焦点主要集中在不同内存型号运行特定模型的速度和效果上。有人分享自己拥有 128GB 版本，称下载模型后会告知结果；有人指出可以运行 50GB 模型，但需要调整 macOS 用户空间 VRAM 限制和上下文大小；还有人提到 M3 65GB 型号的相关性能数据。

比如，有用户称自己使用 8K 上下文时，首次生成花费 158 秒，速度约 1.87 令牌每秒；在新聊天中生成速度约 5.51 令牌每秒。也有人提到风扇运行情况，称虽然风扇转动但比 4090 安静，电脑底部只是微热。还有用户指出 M4 Max 128GB 比 M3 Max 64GB 快约 40%。

对于是否选择 48GB 还是 64GB 内存型号，有人表示不知所措，有人则认为 5 令牌每秒的速度还算不错。讨论中也有共识，比如认为一旦加载了上下文，即使 3 - 4 令牌每秒也是可用的。

总之，这次讨论为那些在不同内存型号间纠结的用户提供了丰富的参考和思考。但最终如何选择，还需根据个人需求和预算来决定。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#