原贴链接

我正在研究能否构建双路7002(CPU)运行而不存在CPU到CPU的瓶颈。这是一个1 - 2TB内存的构建,所以我正试图获取非常便宜的内存并且能够以小于1TB/秒的速度运行像405b和700B这样的大模型。我读过一些关于NUMA节点的内容,但我不知道从哪里着手实际解决双路CPU的瓶颈问题。有人能帮忙吗?

讨论总结

原帖作者想要构建双7002系统并避免CPU - CPU瓶颈以运行大模型,在1 - 2TB内存的情况下寻求帮助。评论者从多个方面进行讨论,包括双CPU性能不会是单CPU的2倍会有瓶颈、不同软件和BIOS设置对性能的影响、Llama.cpp对NUMA的支持、kTransformer相关特性、具体的硬件构建计划、针对性能提升的技巧以及对EPYC构建系统速度慢的否定观点等,总体氛围偏向技术交流。

主要观点

  1. 👍 双CPU不会提供2倍性能,会有瓶颈。
    • 支持理由:评论者根据自己双7302的设置经验得出。
    • 反对声音:无。
  2. 🔥 Llama.cpp支持NUMA,但要确保在BIOS中启用。
    • 正方观点:评论者指出Llama.cpp支持NUMA并且提供Github链接。
    • 反方观点:无。
  3. 💡 建议研究kTransformer,但需要24GB显存的GPU。
    • 解释:从性能优化角度出发给出建议,同时提及所需GPU显存要求。
  4. 💡 双Rome构建中存在特定内存互联结构且有相关速度数据。
    • 解释:评论者分享技术知识关于双Rome构建中的内存互联结构。
  5. 💡 针对密集模型有特定技巧可提升性能。
    • 解释:给出[https://github.com/ggml - org/llama.cpp/issues/11744]这个技巧提升标记生成性能。

金句与有趣评论

  1. “😂 双CPU将不会给你2倍的性能,所以它将会有瓶颈。”
    • 亮点:直接指出双CPU构建中的性能瓶颈关键问题。
  2. “🤔 Afaik Llama.cpp supports NUMA. However you also have to make sure it is enabled in your BIOS.”
    • 亮点:提供Llama.cpp与NUMA相关的重要信息。
  3. “👀 这个设置在没有上下文的情况下给我大约3.5个每秒标记(t/s),但是随着上下文长度的增加性能显著下降。”
    • 亮点:给出具体的性能测试数据情况。

情感分析

总体情感倾向是较为中性的技术交流,有一定的分歧点在于koalfied - coder对EPYC构建系统持否定态度,认为其极其缓慢且愚蠢,而其他评论者主要是在进行技术层面的分析和解答,没有对这种否定态度进行回应,可能的原因是关注重点不同,多数人在讨论如何构建优化双CPU系统,而koalfied - coder直接对构建系统的选择进行了否定评价。

趋势与预测

  • 新兴话题:如何将具有NUMA感知且可作为API的内容进行容器化。
  • 潜在影响:如果能解决双CPU构建中的瓶颈问题、优化性能,将对使用类似双CPU构建运行大模型的用户或相关领域的硬件性能提升有积极影响。

详细内容:

标题:关于双 EPYC CPU 构建的热门讨论

在 Reddit 上,一则关于双 EPYC CPU 构建避免瓶颈的帖子引发了热烈讨论。该帖子的作者表示正在思考如何构建双 7002 系统而避免出现 CPU 到 CPU 的瓶颈,这是一个 1 - 2TB 内存的构建,试图获取廉价内存并运行较大模型。此帖获得了众多关注,评论数众多。主要讨论方向围绕着双 CPU 系统的性能、NUMA 节点的配置、不同模型和硬件的选择以及成本效益等。文章将要探讨的核心问题是如何在双 EPYC CPU 构建中优化性能并避免瓶颈。

在讨论中,有人指出双 CPU 不会带来两倍性能,存在瓶颈,如有人分享自己的双 7302 系统,使用 llamacpp 时 Numa 实现效果不佳,建议尝试 kTransformer,且需要 24GB VRAM 的 GPU。还有人提到 CPU - CPU 带宽约为 60 - 70GB / s,引入 NUMA 意识可能会降低 CPU - CPU 接口负载。有人展示了自己在双 7302 系统中的配置和测试结果,如使用 koboldcpp 并采用特定 NUMA 配置,每秒能生成约 3.5 个令牌,随着上下文长度增加性能显著下降。有人认为 kTransformers 可能是个好选择,并不断更新自己的构建思路。

同时,也有不同观点的碰撞。有人认为这些 EPYC 构建非常慢且愚蠢,而有人认为对于 GPU 主机来说还不错,比旧的至强要好。有人分享自己的个人经历,如从最初计划的支持多达 20 个 GPU 的 7002 主板,到意识到不需要过高的生成速度,每天 5000 个令牌就足够。还有人探讨如何在合理成本内运行本地 V3 / R1,以及不同模型和硬件配置的效果和性能比较。

总之,这次讨论展现了大家对于双 EPYC CPU 构建的深入思考和多样见解,为相关爱好者提供了丰富的参考和思路。