嘿,团队。在我的4090设备上,最基本的ollama拉取以及运行llama3.3 70B时,情况如下:成功启动,显存明显被占满;用一个要求对1500字采访进行总结的提示进行快速测试,在大约220秒内得到了214字的高质量总结,也就是大约每秒一个字。所以如果你想尝试,至少要知道在4090上是可以运行的。当然速度很慢,但我们都知道还有进一步提升速度的可能。未来看起来很光明 - 感谢meta团队!
讨论总结
原帖分享了Llama 3.3在4090上运行的基本情况,包括成功启动、显存占用情况和处理速度等。评论者们纷纷分享自己在不同设备(如AMD设备、MacBook、M4系列等)上运行相关模型的速度、性能表现,还探讨了多GPU运行的方法、量化设置对速度的影响、设备性价比等话题,总体氛围是技术交流分享。
主要观点
- 👍 不同设备有不同的运行速度表现
- 支持理由:众多评论者分享自己设备的运行速度,如在两块Rx 6700上运行Q4_K_M速度为2.1 Tokens/秒,在7900 XTX + 64GB RAM设备上对于简单提示达到1.5 - 2.2个token/秒等。
- 反对声音:无
- 🔥 多GPU运行可提升性能,但存在不同方式和注意事项
- 正方观点:ForsookComparison提到拆分模型到GPU,设置合适的 -ngl值有意义,可以让Llama cpp决定显存分配或自己设置等;也有人提到在特定机器上用Vulkan后端或者不同机器上用RPC来运行跨不同GPU的模型推理。
- 反方观点:无
- 💡 默认的ollama量化设置可能不佳,有更好的替代方案
- 支持理由:kiselsa认为在4090上运行llama3.3时默认的ollama量化设置可能存在问题,推荐使用IQ2_XSS llama.cpp量化或等效的exl2量化来快速运行。
- 反对声音:无
- 👍 不同设备的运行情况可对比参考
- 支持理由:许多评论者在分享自己设备运行速度等情况时都与原帖4090设备的运行情况形成对比,如zappaal分享M4 Max设备上的运行速度并与4090对比。
- 反对声音:无
- 🔥 对4090的性价比存在质疑与解释
- 正方观点:PawelSalsa从性价比角度质疑4090,认为一个4090的价格可以买到3个3090且总速度能达到10每秒。
- 反方观点:1010012从硬件设备角度解释自己只能运行一个4090,没有足够设备运行3个3090。
金句与有趣评论
- “😂 ForsookComparison:Q4_K_M - running on two Rx 6700’s and averaging 2.1 Tokens/Sec. 3200mhz DDR4 for system memory.”
- 亮点:明确给出特定设备的运行速度和系统内存情况,是关于设备性能的典型数据分享。
- “🤔 badabimbadabum2:My 2x 7900 xtx gives 12tokens/s.”
- 亮点:简洁地展示自己设备的高性能运行速度。
- “👀 kiselsa:To run llama 3.3 fast on your 4090 (10+) t/s you need to use IQ2_XSS llama.cpp quant or equivalent exl2 quant.”
- 亮点:针对4090运行llama 3.3提出具体的量化改进建议。
- “😂 jzn21:I am getting 10 t/s with 4bit mlx on my brand new M4 MBP 16/40/128.”
- 亮点:提供了新设备M4 MBP上的运行速度情况。
- “🤔 PawelSalsa:For the price of one 4090 you can get 3x 3090 with 10/s total. Why bother with 4090 then?”
- 亮点:引发对4090性价比的讨论。
情感分析
总体情感倾向是积极的技术交流分享。主要分歧点在于对4090性价比的看法,原因是不同用户从自身硬件设备条件、使用需求等方面出发有不同的考量。
趋势与预测
- 新兴话题:可能会有更多关于不同量化设置在各种设备上优化运行的讨论。
- 潜在影响:对相关硬件设备的选择、模型运行效率提升等方面有积极的参考价值,有助于用户根据自己的设备和需求来优化Llama相关模型的运行。
详细内容:
标题:关于 Llama 3.3 在不同硬件配置上的性能讨论
嘿,各位!最近在 Reddit 上有个热门话题,一位用户分享了在其 4090 显卡上运行 Llama 3.3 70B 的情况。该帖子获得了众多关注,评论数众多,引发了大家对不同硬件配置下运行性能的热烈讨论。
讨论的焦点主要集中在不同显卡及配置的运行速度和效果上。有人表示,在两个 Rx 6700 上运行,平均每秒能产生 2.1 个令牌。还有用户询问如何在多个 GPU 上运行,比如拥有 4 个 Tesla V100 32GB 显卡的情况。
有用户分享道:“在我的 7900 XTX + 64 GB RAM 6000 MHz CL30 配置下,对于简单提示能达到每秒 1.5 - 2.2 个令牌,考虑到是 CPU + GPU 组合,不算太差,GPU 利用率约 22%,对于异步任务来说相当可用,特别是在 Linux 系统生成过程中电脑依然运行流畅。”
也有人提到:“我的 M4 Pro mini 配备 64GB 内存,每秒能达到 5 个令牌,原本以为 7900 XTX 会超过这个速度。”
关于不同显卡的比较,观点各异。有人认为 4090 在某些方面有优势,也有人觉得 AMD 显卡在特定情况下表现出色。
有用户指出:“Apple silicon 在 CPU 和 GPU 之间共享 RAM,所以实际上有近 64GB 的 VRAM,而 7900 只有 24GB。计算能力会受到影响,所以不如具有 64GB 专用 VRAM 的 x86 机器快,但仍然不错。”
还有用户提到:“对于 7900xtx,如果存在具有 64GB VRAM 的版本,那么在计算和带宽方面将超越 Mac。”
同时,关于不同量化方式对性能的影响也有讨论。有人建议使用特定的量化方式以提高运行速度。
总的来说,这场讨论展示了大家在不同硬件配置下运行 Llama 3.3 的多样体验和见解,为想要尝试的用户提供了丰富的参考。但对于如何选择最适合自己的配置,仍需根据具体需求和预算来决定。
感谢您的耐心阅读!来选个表情,或者留个评论吧!