原贴链接

我的目标是运行33B(q4)模型,并以尽可能高的能效将其提供给4-6名家庭成员。

我目前的服务器配置包括一个AMD Athlon 3000G,配备16GB 2666Mhz的RAM,没有GPU(由于能效考虑)。这不足以运行33B模型,因此我计划升级到Ryzen 8700G,配备64GB 5200Mhz的RAM。

这样的配置是否适合以大约4-5 t/s的速度运行33B(q4)模型?并且能够继续运行我的其他服务器活动,如文件服务器、Plex和虚拟机?或者我需要添加一个廉价的8GB GPU进行卸载,或者升级到AMD Epyc组合?

提前感谢!

讨论总结

本次讨论主要围绕如何在家庭服务器环境中以尽可能低的功耗运行33B模型。参与者们探讨了不同CPU和GPU组合的性能表现,以及是否需要增加GPU来提高处理速度和效率。讨论中涉及了硬件配置、功耗效率、模型运行速度等多个方面,同时也关注了成本效益和内存带宽的影响。

主要观点

  1. 👍 需要至少24GB的GPU才能达到4-5t/s的处理速度。
    • 支持理由:GPU在处理大型模型时比CPU更高效,尤其是在考虑功耗时。
    • 反对声音:增加GPU会增加功耗和成本。
  2. 🔥 使用RTX 4060 Ti 16GB VRAM和64GB RAM DDR4可以实现超过3 t/s的速度。
    • 正方观点:这种配置能够提供足够的性能和效率。
    • 反方观点:成本较高,可能不适合所有用户。
  3. 💡 使用CPU进行处理时,GPU的加入可以显著提高效率。
    • 解释:尽管会增加功耗,但GPU在处理低精度计算时比CPU更高效。
  4. 🚀 选择硬件时需要在价格和功耗效率之间做出权衡。
    • 解释:不同的硬件组合有不同的成本和性能表现,用户需要根据自己的需求做出选择。
  5. 🌟 GPU在处理大型模型时比CPU更高效,尤其是在考虑功耗时。
    • 解释:GPU的并行处理能力使其在处理大型模型时更具有优势。

金句与有趣评论

  1. “😂 You need a 24gb gpu. You won’t get 4-5t/s with offloading”
    • 亮点:直接指出了达到目标处理速度所需的硬件要求。
  2. “🤔 A gpu is going to be much more power efficient than a CPU.”
    • 亮点:强调了GPU在功耗效率方面的优势。
  3. “👀 I get 3 t/s on Ryzen 7700 (2167 FCLK / ~68GB/s read in AIDA) without any offloading.”
    • 亮点:展示了在无GPU情况下CPU的性能表现。

情感分析

讨论的总体情感倾向较为积极,参与者们分享了各自的硬件配置和性能测试结果,提供了实用的建议和见解。主要的分歧点在于是否需要增加GPU来提高效率,以及如何在成本和功耗之间做出权衡。

趋势与预测

  • 新兴话题:GPU在模型运行中的应用和优化。
  • 潜在影响:随着模型规模的增大,GPU的需求和优化将成为未来讨论的重点。

详细内容:

标题:关于运行 33B 模型的硬件配置讨论在 Reddit 上引发热议

在 Reddit 上,一则题为“CPU + RAM for 33B models”的帖子引起了众多网友的关注。帖子中,发帖者表示自己的目标是以尽可能节能的方式为 4 - 6 名家庭成员运行 33B(q4)模型,目前的服务器配置包括 AMD Athlon 3000G 和 16GB 2666Mhz 的 RAM 且无 GPU(出于节能考虑),但这不足以运行 33B 模型,因此计划升级到 Ryzen 8700G 和 64GB 5200Mhz 的 RAM,并询问这是否适合以约 4 - 5 t/s 的速度运行 33B(q4)模型,以及能否继续进行文件服务器、Plex 和 VM 等其他服务器活动,还是需要添加一个便宜的 8GB GPU 进行卸载或升级到 AMD Epyc 组合。该帖子获得了大量的点赞和众多的评论。

在讨论中,观点各异。有人认为需要一个 24GB 的 GPU,仅依靠卸载无法达到 4 - 5t/s 的速度。也有人指出,在 RTX 4060 Ti 16GB VRAM 和 64GB DDR4 RAM 的配置下运行 c4ai-command-r-08-2024-Q4_K_M,速度明显可用,超过 3 t/s,但这取决于配置的上下文长度。还有用户提到,由于 GPU 价格和能效问题,这不是一个可行的选择,并询问 gemma2 27B 是否可以仅依靠 CPU 并可能卸载到小型 GPU。

有观点认为,GPU 在能效方面比 CPU 出色得多。虽然运行时会消耗更多功率,但运行时间大幅缩短,空闲时的 GPU 功率可能只占系统空闲总功率的一小部分。但也有人在 Ryzen 7700 上无需任何卸载就能达到 3 t/s 的速度。

还有用户表示,在 2 个 P102 GPU 上运行 Gemma2 27B q4 时能达到 11 tk/s 的速度。也有人提到,使用 LM studio 运行 Phind Codefuse 34B Q4_K_M 时,将部分层卸载到 GPU 对 tok/s 的提升不大,但显著改善了首次生成令牌的时间。

有观点认为,对于 CPU 推理,最大的问题不是评估速度,而是提示评估速度(生成第一个令牌的时间)。也有人认为,4 位量化大约需要 20GB 的内存,所以 24GB 是足够运行 33B 模型的。

有人认为,升级到 Ryzen 8700G 搭配 64GB RAM 对于 33B 模型以 4 - 5 t/s 的速度运行是足够的。但也有人认为,仅依靠 CPU 推理无法达到 4 - 5 t/s 的速度,而且 Ryzen 平台在价格和能效方面可能不如 Epyc 组合。

总的来说,关于运行 33B 模型的最佳硬件配置,大家各抒己见,争论的焦点主要在于 CPU 和 GPU 的选择,以及内存和带宽的配置等方面。是选择更节能但可能性能受限的 CPU 方案,还是选择性能出色但功耗较高的 GPU 方案,成为了讨论的核心争议点。