原贴链接

我即将拥有一台小主机加上外接显卡（eGPU）的设备，我想将其用作Llama3.1 70b以及其他类似规模的大型语言模型（LLM）的主机。该设备有32GB DDR5 5600（英睿达内存），可升级到96GB内存。如果我进行升级，速度和性能会有显著差异吗？其他配置：AMD Ryzen 7 8845HS，eGPU是通过oculink OCUP4v2连接到小主机的XFX RX 6750XT QICK 319。感谢建议🙏

讨论总结

原帖主打算用即将到手的迷你电脑加eGPU运行llama3.1 70b等大型语言模型，想知道32GB内存升级到96GB是否会对速度和性能有明显影响。评论者们从自身经验、理论分析等方面进行了回复，主要涉及不同硬件配置下模型的运行情况、性能表现、内存需求等，大家分享数据、给出建议，讨论氛围积极且专注于技术交流。

主要观点

👍 48GB内存可运行Q3 gguf quants且有正常语境。
- 支持理由：评论者cm8t表明自己在这种情况下能正常运行。
- 反对声音：无
🔥 2张x7900xtx显卡搭配64GB内存运行Llama 3.1 70b效果更好。
- 正方观点：评论者在测试中发现此组合比128GB内存搭配1张显卡运行效果好。
- 反方观点：无
💡 70b在编码方面比3b好。
- 支持理由：DinoAmino表示按任何标准70b都优于3b，在编码方面70b表现更好。
- 反对声音：无
🤔 对于CPU推理，应在最高时钟速度下最大化内存。
- 支持理由：评论者lacerating_aura根据自己的经验给出该建议。
- 反对声音：无
😎 GPU内存对于运行Llama 3.1 70b很重要，越多越好。
- 支持理由：评论者在不同显卡与内存组合的测试中发现GPU内存越多运行越好。
- 反对声音：无

金句与有趣评论

“😂 cm8t：I can run Q3 gguf quants with normal context on 48GB”
- 亮点：直接给出自己在48GB内存下的运行情况，是对原帖主问题的一种实际回应。
“🤔 我的当前Qwen 2.5 72B IQ4XS在32K上下文下的分割使用情况是64GB DDR4 3200内存中的37GB和RTX 3060 12GB中的8.2GB显存。这使我得到大约1t/s的速度。”
- 亮点：详细分享自己的模型运行数据，对其他人有参考价值。
“👀 DinoAmino: 70b is weigh, weigh better :)”
- 亮点：用一种诙谐的方式表达70b更好的观点。
“😎 你真的想要GPU内存，越多越好。”
- 亮点：简洁明了地强调了GPU内存对运行模型的重要性。
“🤓 对于你的单卡设置，唯一真正的选择是a6000，因为它有48gb vram。”
- 亮点：针对原帖主的单卡设置给出具体的硬件选择建议。

情感分析

总体情感倾向为积极正向。主要分歧点较少，大家基本都在围绕如何更好地运行模型分享经验和给出建议。可能的原因是这是一个比较专业的技术话题，大家都专注于技术层面的交流，目标是解决原帖主的问题。

趋势与预测

新兴话题：不同版本模型之间比较（如llama3.1 70b和llama3.2 3b）可能会引发后续更多的讨论。
潜在影响：这些关于硬件配置与模型运行性能的讨论，有助于相关技术爱好者在选择硬件和运行模型时做出更合理的决策，推动大型语言模型在不同硬件环境下的优化运行。

详细内容：

《关于运行 llama3.1 70b 所需内存的热门讨论》

在 Reddit 上，有一则题为“How much ram to run llama3.1 70b?”的帖子引发了广泛关注。这篇帖子的作者表示，想使用即将到手的迷你 PC + eGPU 配置作为 llama3.1 70b 及其他类似规模的语言模型的主机，该设备有 32GB DDR5 5600 内存且可升级到 96GB。作者询问若升级内存，在速度和性能上是否会有明显差异。此帖获得了众多关注，引发了大量讨论。

文章将要探讨的核心问题是：在这种配置下，升级内存对运行 llama3.1 70b 的性能提升究竟有多大。

在讨论中，主要观点如下：有人表示自己能在 48GB 内存下运行 Q3 gguf 量化；也有人在尝试 4 位量化时效果不佳。还有人使用 awq 获得了很好的结果。

有人分享道，其当前使用 Qwen 2.5 72B IQ4XS 在 32K 上下文时，64GB DDR4 3200 内存中的 37GB 被占用，搭配 RTX 3060 12GB 显卡的 8.2GB 显存，大约每秒生成 1T。也有人指出，拥有 AMD 7950X 和 DDR5@5200 时，内存使用约 57Gb。

有人提到，使用 GPU 主要用于提示处理，刚加载模型时能得到特定的内存和速度等数据。还有人表示自己主要使用本地 llms，对于 llama3，认为 7 或 8b 质量还行但存在一些问题，70B 由于自身系统较慢还未尝试。

有用户在升级 CPU 和内存并测试系统后分享了个人经历，称 Llama 3.1 70b 在 128GB 内存、单卡时运行缓慢，双卡和 64GB 内存时效果好多了。

在观点的争议方面，有人询问 Qwen 2.5 72B 与 Llama 3.1 70B 或 GPT-4o 相比如何；也有人探讨 3.1 70b 与 3.2 3b 孰优孰劣，以及在编码方面 70b 的表现等。

讨论中的共识是，GPU 内存越多越好，模型规模越大通常需要的内存也越大。特别有见地的观点如有人指出对于 CPU 推断，应将内存最大化并提高时钟速度，这丰富了讨论的深度。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#