原贴链接

嘿，团队。在我的4090设备上，最基本的ollama拉取以及运行llama3.3 70B时，情况如下：成功启动，显存明显被占满；用一个要求对1500字采访进行总结的提示进行快速测试，在大约220秒内得到了214字的高质量总结，也就是大约每秒一个字。所以如果你想尝试，至少要知道在4090上是可以运行的。当然速度很慢，但我们都知道还有进一步提升速度的可能。未来看起来很光明 - 感谢meta团队！

讨论总结

原帖分享了Llama 3.3在4090上运行的基本情况，包括成功启动、显存占用情况和处理速度等。评论者们纷纷分享自己在不同设备（如AMD设备、MacBook、M4系列等）上运行相关模型的速度、性能表现，还探讨了多GPU运行的方法、量化设置对速度的影响、设备性价比等话题，总体氛围是技术交流分享。

主要观点

👍 不同设备有不同的运行速度表现
- 支持理由：众多评论者分享自己设备的运行速度，如在两块Rx 6700上运行Q4_K_M速度为2.1 Tokens/秒，在7900 XTX + 64GB RAM设备上对于简单提示达到1.5 - 2.2个token/秒等。
- 反对声音：无
🔥 多GPU运行可提升性能，但存在不同方式和注意事项
- 正方观点：ForsookComparison提到拆分模型到GPU，设置合适的 -ngl值有意义，可以让Llama cpp决定显存分配或自己设置等；也有人提到在特定机器上用Vulkan后端或者不同机器上用RPC来运行跨不同GPU的模型推理。
- 反方观点：无
💡 默认的ollama量化设置可能不佳，有更好的替代方案
- 支持理由：kiselsa认为在4090上运行llama3.3时默认的ollama量化设置可能存在问题，推荐使用IQ2_XSS llama.cpp量化或等效的exl2量化来快速运行。
- 反对声音：无
👍 不同设备的运行情况可对比参考
- 支持理由：许多评论者在分享自己设备运行速度等情况时都与原帖4090设备的运行情况形成对比，如zappaal分享M4 Max设备上的运行速度并与4090对比。
- 反对声音：无
🔥 对4090的性价比存在质疑与解释
- 正方观点：PawelSalsa从性价比角度质疑4090，认为一个4090的价格可以买到3个3090且总速度能达到10每秒。
- 反方观点：1010012从硬件设备角度解释自己只能运行一个4090，没有足够设备运行3个3090。

金句与有趣评论

“😂 ForsookComparison：Q4_K_M - running on two Rx 6700’s and averaging 2.1 Tokens/Sec. 3200mhz DDR4 for system memory.”
- 亮点：明确给出特定设备的运行速度和系统内存情况，是关于设备性能的典型数据分享。
“🤔 badabimbadabum2：My 2x 7900 xtx gives 12tokens/s.”
- 亮点：简洁地展示自己设备的高性能运行速度。
“👀 kiselsa：To run llama 3.3 fast on your 4090 (10+) t/s you need to use IQ2_XSS llama.cpp quant or equivalent exl2 quant.”
- 亮点：针对4090运行llama 3.3提出具体的量化改进建议。
“😂 jzn21：I am getting 10 t/s with 4bit mlx on my brand new M4 MBP 16/40/128.”
- 亮点：提供了新设备M4 MBP上的运行速度情况。
“🤔 PawelSalsa：For the price of one 4090 you can get 3x 3090 with 10/s total. Why bother with 4090 then?”
- 亮点：引发对4090性价比的讨论。

情感分析

总体情感倾向是积极的技术交流分享。主要分歧点在于对4090性价比的看法，原因是不同用户从自身硬件设备条件、使用需求等方面出发有不同的考量。

趋势与预测

新兴话题：可能会有更多关于不同量化设置在各种设备上优化运行的讨论。
潜在影响：对相关硬件设备的选择、模型运行效率提升等方面有积极的参考价值，有助于用户根据自己的设备和需求来优化Llama相关模型的运行。

详细内容：

标题：关于 Llama 3.3 在不同硬件配置上的性能讨论

嘿，各位！最近在 Reddit 上有个热门话题，一位用户分享了在其 4090 显卡上运行 Llama 3.3 70B 的情况。该帖子获得了众多关注，评论数众多，引发了大家对不同硬件配置下运行性能的热烈讨论。

讨论的焦点主要集中在不同显卡及配置的运行速度和效果上。有人表示，在两个 Rx 6700 上运行，平均每秒能产生 2.1 个令牌。还有用户询问如何在多个 GPU 上运行，比如拥有 4 个 Tesla V100 32GB 显卡的情况。

有用户分享道：“在我的 7900 XTX + 64 GB RAM 6000 MHz CL30 配置下，对于简单提示能达到每秒 1.5 - 2.2 个令牌，考虑到是 CPU + GPU 组合，不算太差，GPU 利用率约 22%，对于异步任务来说相当可用，特别是在 Linux 系统生成过程中电脑依然运行流畅。”

也有人提到：“我的 M4 Pro mini 配备 64GB 内存，每秒能达到 5 个令牌，原本以为 7900 XTX 会超过这个速度。”

关于不同显卡的比较，观点各异。有人认为 4090 在某些方面有优势，也有人觉得 AMD 显卡在特定情况下表现出色。

有用户指出：“Apple silicon 在 CPU 和 GPU 之间共享 RAM，所以实际上有近 64GB 的 VRAM，而 7900 只有 24GB。计算能力会受到影响，所以不如具有 64GB 专用 VRAM 的 x86 机器快，但仍然不错。”

还有用户提到：“对于 7900xtx，如果存在具有 64GB VRAM 的版本，那么在计算和带宽方面将超越 Mac。”

同时，关于不同量化方式对性能的影响也有讨论。有人建议使用特定的量化方式以提高运行速度。

总的来说，这场讨论展示了大家在不同硬件配置下运行 Llama 3.3 的多样体验和见解，为想要尝试的用户提供了丰富的参考。但对于如何选择最适合自己的配置，仍需根据具体需求和预算来决定。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#