原贴链接

在等待GPU到货期间,我决定在仅有CPU的系统上运行一下。我刚从Microcenter购买了一个套装,包括微星X870E MAG Tomahawk WiFi主板、锐龙9 9950x CPU(16核,32线程)以及芝奇Flare X5 DDR5内存(不过我升级到了64GB)。我运行的操作系统是PopOS(Ubuntu衍生版)。单独使用CPU运行deepseek - r1:8b(基于Llama3.1:8b构建)时,我得到了约12个令牌/秒的速度。这让我印象深刻,因为它比我的RTX 2060移动版性能高出约30 - 35%。因此,这可能是一个不错的低成本大型语言模型(LLM)构建方案。所以,我想在这里分享一下。希望你们中的一些人觉得这有用。另外,很抱歉我没有进行更全面的分析并展示在这里。不过,我明天有个测验,我得抓紧时间学习了。

讨论总结

原帖作者分享了仅使用CPU(Ryzen 9 9950x)运行“deepseek - r1:8b”模型时的性能(约12 tokens/sec),并介绍了自己的硬件配置。评论者们从不同角度进行讨论,包括CPU - only情况下不同模型(如70b模型)的运行结果、相关优化项目(如llamafile项目)、CPU与GPU的性能比较、硬件组件相关(如设备带宽、内存升级等)以及对原帖测试环境的疑问等,讨论氛围比较和谐,大家积极分享观点和建议。

主要观点

  1. 👍 在CPU - only情况下,量化70b模型运行结果较差。
    • 支持理由:评论者表示在仅使用CPU运行量化70b模型时会得到更差的结果,每秒约2个token,并给出自己的经验。
    • 反对声音:无
  2. 🔥 8GB显存显卡并非无用,能在一定程度上加速模型运行。
    • 正方观点:kmouratidis等评论者通过数据对比表明8GB显卡不仅能加速小模型,还能让大模型以不错的速度运行,12t/s对于很多使用场景来说不够快,GPU处理提示的速度比单独在CPU上快很多。
    • 反方观点:Thomas - Lore认为8GB显存的显卡变得无用了,能在其上运行的模型在CPU上运行也还不错。
  3. 💡 存在Mozilla的llamafile项目可优化模型在CPU上的运行速度。
    • 支持理由:评论者takuonline提到该项目并分享项目的GitHub链接,还表示在自己机器上运行效果良好,后续也有人讨论它与llama.cpp的关系。
    • 反对声音:无
  4. 💪 在Windows下特定线程运行方式可提高仅CPU推理速度。
    • 支持理由:评论者Chromix_提到在Windows系统下,以特定线程数(6或8线程)运行并将线程固定到专用逻辑核心时,可以获得稍快的仅CPU推理速度。
    • 反对声音:无
  5. 🤔 CPU本身与令牌生成速度无关联,受RAM带宽瓶颈制约。
    • 支持理由:有评论者指出在这个案例中CPU本身与令牌生成速度无关,而是受RAM带宽的限制,如果使用7600x,可能会有相同的速度。
    • 反对声音:原帖作者通过自己的测试结果暗示CPU对性能有影响,与该观点相悖。

金句与有趣评论

  1. “😂 That is typical. You will get much worse results running a quantized 70b model.”
    • 亮点:直接点明在CPU - only情况下运行量化70b模型的典型结果,简洁明了。
  2. “🤔 Try 70b models with decent amount of context.”
    • 亮点:针对原帖中仅用CPU运行模型的情况,给出了尝试70b模型的建议。
  3. “👀 有一个项目叫llamafile by Mozilla,他们优化模型以便在cpu上运行得更快。”
    • 亮点:介绍了一个优化模型在CPU上运行速度的项目,为讨论引入新的内容。
  4. “😎 It makes cards with 8GB VRAM useless IMHO - any model that you can fit on those cards will run decently on CPU anyway.”
    • 亮点:提出一种比较有争议的观点,引发了其他评论者的讨论。
  5. “💡 推理速度是与带宽成正比的,所以我想说对于一个8B模型来说每秒约12t是相当符合预期的,尽管在我看来不错。”
    • 亮点:从技术角度分析了推理速度与带宽的关系,对原帖中的性能数据进行解读。

情感分析

总体情感倾向比较积极正面,大家主要是在理性地分享信息、提供建议和讨论技术问题。主要分歧点在于8GB显存显卡是否无用以及CPU与令牌生成速度是否有关联。产生这些分歧的原因可能是大家各自的硬件使用经验、对不同模型运行需求的理解以及技术知识背景的不同。

趋势与预测

  • 新兴话题:关于不同CPU(如7600x与Ryzen 9 9950x)在相同运行环境下性能比较可能会引发后续讨论。
  • 潜在影响:对于想要进行类似CPU - only模型运行的用户来说,这些讨论有助于他们更好地了解硬件性能和优化方法,可能会影响他们的硬件选择和运行设置。

详细内容:

标题:关于 CPU 仅 Ryzen 9 9950x 令人惊讶的性能表现讨论

在 Reddit 上,一则关于 CPU 仅 Ryzen 9 9950x 性能表现的帖子引发了热烈讨论。原帖作者称在等待 GPU 到来期间,对 CPU 系统进行了测试。其配置包括 Microcenter 购买的微星 X870E MAG Tomahawk WiFi 主板、Ryzen 9 9950x CPU(16 核,32 线程)以及升级至 64GB 的 G.Skill Flare X5 DDR5 内存,运行的操作系统为 PopOS(Ubuntu 衍生版)。作者表示在 CPU 单独运行“deepseek-r1:8b”(基于 Llama3.1:8b)时,能达到约 12 个令牌/秒,这一表现比其 RTX 2060 移动版高出约 30 - 35%,此帖获得了众多关注,评论众多。

讨论的焦点主要集中在以下几个方面: 有人指出,运行量化的 70b 模型,结果会差很多,大约每秒 2 个令牌,并提供了相关搜索链接https://www.google.com/search?q=cpu+only+inference+performance+results+on+8+billion+model+%3A+tokens+per+second

有用户认为这很酷,并表示在 r/LocalLLaMA 上未看到相关讨论,所以分享了出来。

也有人请求尝试 deepseek-r1:70b(R1 Distill 70b q4_K_M)。

还有人提到 Mozilla 有个叫 llamafile 的项目能优化模型在 CPU 上的运行速度,如https://github.com/Mozilla-Ocho/llamafile

关于性能表现的观点存在分歧。有人认为对于 8GB VRAM 的显卡没用,能在这类显卡上运行的模型在 CPU 上也能运行得不错;但也有人反驳称 8GB 显卡不仅能加速小模型,还能让更大的模型以不错的速度运行。

有人提出在 Windows 上通过特定设置能使 CPU 仅推理速度稍快,或许在 Linux 上也值得一试。还有人询问作者等待的 GPU 型号。

有人指出原配置中 CPU 的互连链路速度可能限制了性能,若想进一步提升速度,可尝试提高内存频率。

有人对 96 核的线程撕裂者性能表现感兴趣。

有人认为“deepseek-r1:8b”模型过小,自己在编码或解决问题时只使用 32b 模型。

有人对 Microcenter 能否升级内存提出疑问。

也有人认为 CPU 本身与令牌生成速度无关,而是受限于 RAM 带宽。

这场讨论中,既有不同观点的碰撞,也有共识的部分。例如大家普遍关注如何提升 CPU 系统在相关模型运行中的性能。而独特的观点如对不同模型大小的使用偏好,丰富了讨论的维度。但对于如何优化性能以及模型选择等问题,仍存在诸多争议,需要进一步探讨和实践来验证。