原贴链接

我即将拥有一台小主机加上外接显卡(eGPU)的设备,我想将其用作Llama3.1 70b以及其他类似规模的大型语言模型(LLM)的主机。该设备有32GB DDR5 5600(英睿达内存),可升级到96GB内存。如果我进行升级,速度和性能会有显著差异吗?其他配置:AMD Ryzen 7 8845HS,eGPU是通过oculink OCUP4v2连接到小主机的XFX RX 6750XT QICK 319。感谢建议🙏

讨论总结

原帖主打算用即将到手的迷你电脑加eGPU运行llama3.1 70b等大型语言模型,想知道32GB内存升级到96GB是否会对速度和性能有明显影响。评论者们从自身经验、理论分析等方面进行了回复,主要涉及不同硬件配置下模型的运行情况、性能表现、内存需求等,大家分享数据、给出建议,讨论氛围积极且专注于技术交流。

主要观点

  1. 👍 48GB内存可运行Q3 gguf quants且有正常语境。
    • 支持理由:评论者cm8t表明自己在这种情况下能正常运行。
    • 反对声音:无
  2. 🔥 2张x7900xtx显卡搭配64GB内存运行Llama 3.1 70b效果更好。
    • 正方观点:评论者在测试中发现此组合比128GB内存搭配1张显卡运行效果好。
    • 反方观点:无
  3. 💡 70b在编码方面比3b好。
    • 支持理由:DinoAmino表示按任何标准70b都优于3b,在编码方面70b表现更好。
    • 反对声音:无
  4. 🤔 对于CPU推理,应在最高时钟速度下最大化内存。
    • 支持理由:评论者lacerating_aura根据自己的经验给出该建议。
    • 反对声音:无
  5. 😎 GPU内存对于运行Llama 3.1 70b很重要,越多越好。
    • 支持理由:评论者在不同显卡与内存组合的测试中发现GPU内存越多运行越好。
    • 反对声音:无

金句与有趣评论

  1. “😂 cm8t:I can run Q3 gguf quants with normal context on 48GB”
    • 亮点:直接给出自己在48GB内存下的运行情况,是对原帖主问题的一种实际回应。
  2. “🤔 我的当前Qwen 2.5 72B IQ4XS在32K上下文下的分割使用情况是64GB DDR4 3200内存中的37GB和RTX 3060 12GB中的8.2GB显存。这使我得到大约1t/s的速度。”
    • 亮点:详细分享自己的模型运行数据,对其他人有参考价值。
  3. “👀 DinoAmino: 70b is weigh, weigh better :)”
    • 亮点:用一种诙谐的方式表达70b更好的观点。
  4. “😎 你真的想要GPU内存,越多越好。”
    • 亮点:简洁明了地强调了GPU内存对运行模型的重要性。
  5. “🤓 对于你的单卡设置,唯一真正的选择是a6000,因为它有48gb vram。”
    • 亮点:针对原帖主的单卡设置给出具体的硬件选择建议。

情感分析

总体情感倾向为积极正向。主要分歧点较少,大家基本都在围绕如何更好地运行模型分享经验和给出建议。可能的原因是这是一个比较专业的技术话题,大家都专注于技术层面的交流,目标是解决原帖主的问题。

趋势与预测

  • 新兴话题:不同版本模型之间比较(如llama3.1 70b和llama3.2 3b)可能会引发后续更多的讨论。
  • 潜在影响:这些关于硬件配置与模型运行性能的讨论,有助于相关技术爱好者在选择硬件和运行模型时做出更合理的决策,推动大型语言模型在不同硬件环境下的优化运行。

详细内容:

《关于运行 llama3.1 70b 所需内存的热门讨论》

在 Reddit 上,有一则题为“How much ram to run llama3.1 70b?”的帖子引发了广泛关注。这篇帖子的作者表示,想使用即将到手的迷你 PC + eGPU 配置作为 llama3.1 70b 及其他类似规模的语言模型的主机,该设备有 32GB DDR5 5600 内存且可升级到 96GB。作者询问若升级内存,在速度和性能上是否会有明显差异。此帖获得了众多关注,引发了大量讨论。

文章将要探讨的核心问题是:在这种配置下,升级内存对运行 llama3.1 70b 的性能提升究竟有多大。

在讨论中,主要观点如下: 有人表示自己能在 48GB 内存下运行 Q3 gguf 量化;也有人在尝试 4 位量化时效果不佳。还有人使用 awq 获得了很好的结果。

有人分享道,其当前使用 Qwen 2.5 72B IQ4XS 在 32K 上下文时,64GB DDR4 3200 内存中的 37GB 被占用,搭配 RTX 3060 12GB 显卡的 8.2GB 显存,大约每秒生成 1T。也有人指出,拥有 AMD 7950X 和 DDR5@5200 时,内存使用约 57Gb。

有人提到,使用 GPU 主要用于提示处理,刚加载模型时能得到特定的内存和速度等数据。还有人表示自己主要使用本地 llms,对于 llama3,认为 7 或 8b 质量还行但存在一些问题,70B 由于自身系统较慢还未尝试。

有用户在升级 CPU 和内存并测试系统后分享了个人经历,称 Llama 3.1 70b 在 128GB 内存、单卡时运行缓慢,双卡和 64GB 内存时效果好多了。

在观点的争议方面,有人询问 Qwen 2.5 72B 与 Llama 3.1 70B 或 GPT-4o 相比如何;也有人探讨 3.1 70b 与 3.2 3b 孰优孰劣,以及在编码方面 70b 的表现等。

讨论中的共识是,GPU 内存越多越好,模型规模越大通常需要的内存也越大。特别有见地的观点如有人指出对于 CPU 推断,应将内存最大化并提高时钟速度,这丰富了讨论的深度。