原贴链接

嘿,团队。在我的4090设备上,最基本的ollama拉取以及运行llama3.3 70B时,情况如下:成功启动,显存明显被占满;用一个要求对1500字采访进行总结的提示进行快速测试,在大约220秒内得到了214字的高质量总结,也就是大约每秒一个字。所以如果你想尝试,至少要知道在4090上是可以运行的。当然速度很慢,但我们都知道还有进一步提升速度的可能。未来看起来很光明 - 感谢meta团队!

讨论总结

原帖分享了Llama 3.3在4090上运行的基本情况,包括成功启动、显存占用情况和处理速度等。评论者们纷纷分享自己在不同设备(如AMD设备、MacBook、M4系列等)上运行相关模型的速度、性能表现,还探讨了多GPU运行的方法、量化设置对速度的影响、设备性价比等话题,总体氛围是技术交流分享。

主要观点

  1. 👍 不同设备有不同的运行速度表现
    • 支持理由:众多评论者分享自己设备的运行速度,如在两块Rx 6700上运行Q4_K_M速度为2.1 Tokens/秒,在7900 XTX + 64GB RAM设备上对于简单提示达到1.5 - 2.2个token/秒等。
    • 反对声音:无
  2. 🔥 多GPU运行可提升性能,但存在不同方式和注意事项
    • 正方观点:ForsookComparison提到拆分模型到GPU,设置合适的 -ngl值有意义,可以让Llama cpp决定显存分配或自己设置等;也有人提到在特定机器上用Vulkan后端或者不同机器上用RPC来运行跨不同GPU的模型推理。
    • 反方观点:无
  3. 💡 默认的ollama量化设置可能不佳,有更好的替代方案
    • 支持理由:kiselsa认为在4090上运行llama3.3时默认的ollama量化设置可能存在问题,推荐使用IQ2_XSS llama.cpp量化或等效的exl2量化来快速运行。
    • 反对声音:无
  4. 👍 不同设备的运行情况可对比参考
    • 支持理由:许多评论者在分享自己设备运行速度等情况时都与原帖4090设备的运行情况形成对比,如zappaal分享M4 Max设备上的运行速度并与4090对比。
    • 反对声音:无
  5. 🔥 对4090的性价比存在质疑与解释
    • 正方观点:PawelSalsa从性价比角度质疑4090,认为一个4090的价格可以买到3个3090且总速度能达到10每秒。
    • 反方观点:1010012从硬件设备角度解释自己只能运行一个4090,没有足够设备运行3个3090。

金句与有趣评论

  1. “😂 ForsookComparison:Q4_K_M - running on two Rx 6700’s and averaging 2.1 Tokens/Sec. 3200mhz DDR4 for system memory.”
    • 亮点:明确给出特定设备的运行速度和系统内存情况,是关于设备性能的典型数据分享。
  2. “🤔 badabimbadabum2:My 2x 7900 xtx gives 12tokens/s.”
    • 亮点:简洁地展示自己设备的高性能运行速度。
  3. “👀 kiselsa:To run llama 3.3 fast on your 4090 (10+) t/s you need to use IQ2_XSS llama.cpp quant or equivalent exl2 quant.”
    • 亮点:针对4090运行llama 3.3提出具体的量化改进建议。
  4. “😂 jzn21:I am getting 10 t/s with 4bit mlx on my brand new M4 MBP 16/40/128.”
    • 亮点:提供了新设备M4 MBP上的运行速度情况。
  5. “🤔 PawelSalsa:For the price of one 4090 you can get 3x 3090 with 10/s total. Why bother with 4090 then?”
    • 亮点:引发对4090性价比的讨论。

情感分析

总体情感倾向是积极的技术交流分享。主要分歧点在于对4090性价比的看法,原因是不同用户从自身硬件设备条件、使用需求等方面出发有不同的考量。

趋势与预测

  • 新兴话题:可能会有更多关于不同量化设置在各种设备上优化运行的讨论。
  • 潜在影响:对相关硬件设备的选择、模型运行效率提升等方面有积极的参考价值,有助于用户根据自己的设备和需求来优化Llama相关模型的运行。

详细内容:

标题:关于 Llama 3.3 在不同硬件配置上的性能讨论

嘿,各位!最近在 Reddit 上有个热门话题,一位用户分享了在其 4090 显卡上运行 Llama 3.3 70B 的情况。该帖子获得了众多关注,评论数众多,引发了大家对不同硬件配置下运行性能的热烈讨论。

讨论的焦点主要集中在不同显卡及配置的运行速度和效果上。有人表示,在两个 Rx 6700 上运行,平均每秒能产生 2.1 个令牌。还有用户询问如何在多个 GPU 上运行,比如拥有 4 个 Tesla V100 32GB 显卡的情况。

有用户分享道:“在我的 7900 XTX + 64 GB RAM 6000 MHz CL30 配置下,对于简单提示能达到每秒 1.5 - 2.2 个令牌,考虑到是 CPU + GPU 组合,不算太差,GPU 利用率约 22%,对于异步任务来说相当可用,特别是在 Linux 系统生成过程中电脑依然运行流畅。”

也有人提到:“我的 M4 Pro mini 配备 64GB 内存,每秒能达到 5 个令牌,原本以为 7900 XTX 会超过这个速度。”

关于不同显卡的比较,观点各异。有人认为 4090 在某些方面有优势,也有人觉得 AMD 显卡在特定情况下表现出色。

有用户指出:“Apple silicon 在 CPU 和 GPU 之间共享 RAM,所以实际上有近 64GB 的 VRAM,而 7900 只有 24GB。计算能力会受到影响,所以不如具有 64GB 专用 VRAM 的 x86 机器快,但仍然不错。”

还有用户提到:“对于 7900xtx,如果存在具有 64GB VRAM 的版本,那么在计算和带宽方面将超越 Mac。”

同时,关于不同量化方式对性能的影响也有讨论。有人建议使用特定的量化方式以提高运行速度。

总的来说,这场讨论展示了大家在不同硬件配置下运行 Llama 3.3 的多样体验和见解,为想要尝试的用户提供了丰富的参考。但对于如何选择最适合自己的配置,仍需根据具体需求和预算来决定。