原贴链接

在等待GPU到货期间，我决定在仅有CPU的系统上运行一下。我刚从Microcenter购买了一个套装，包括微星X870E MAG Tomahawk WiFi主板、锐龙9 9950x CPU（16核，32线程）以及芝奇Flare X5 DDR5内存（不过我升级到了64GB）。我运行的操作系统是PopOS（Ubuntu衍生版）。单独使用CPU运行deepseek - r1:8b（基于Llama3.1:8b构建）时，我得到了约12个令牌/秒的速度。这让我印象深刻，因为它比我的RTX 2060移动版性能高出约30 - 35%。因此，这可能是一个不错的低成本大型语言模型（LLM）构建方案。所以，我想在这里分享一下。希望你们中的一些人觉得这有用。另外，很抱歉我没有进行更全面的分析并展示在这里。不过，我明天有个测验，我得抓紧时间学习了。

讨论总结

原帖作者分享了仅使用CPU（Ryzen 9 9950x）运行“deepseek - r1:8b”模型时的性能（约12 tokens/sec），并介绍了自己的硬件配置。评论者们从不同角度进行讨论，包括CPU - only情况下不同模型（如70b模型）的运行结果、相关优化项目（如llamafile项目）、CPU与GPU的性能比较、硬件组件相关（如设备带宽、内存升级等）以及对原帖测试环境的疑问等，讨论氛围比较和谐，大家积极分享观点和建议。

主要观点

👍 在CPU - only情况下，量化70b模型运行结果较差。
- 支持理由：评论者表示在仅使用CPU运行量化70b模型时会得到更差的结果，每秒约2个token，并给出自己的经验。
- 反对声音：无
🔥 8GB显存显卡并非无用，能在一定程度上加速模型运行。
- 正方观点：kmouratidis等评论者通过数据对比表明8GB显卡不仅能加速小模型，还能让大模型以不错的速度运行，12t/s对于很多使用场景来说不够快，GPU处理提示的速度比单独在CPU上快很多。
- 反方观点：Thomas - Lore认为8GB显存的显卡变得无用了，能在其上运行的模型在CPU上运行也还不错。
💡 存在Mozilla的llamafile项目可优化模型在CPU上的运行速度。
- 支持理由：评论者takuonline提到该项目并分享项目的GitHub链接，还表示在自己机器上运行效果良好，后续也有人讨论它与llama.cpp的关系。
- 反对声音：无
💪 在Windows下特定线程运行方式可提高仅CPU推理速度。
- 支持理由：评论者Chromix_提到在Windows系统下，以特定线程数（6或8线程）运行并将线程固定到专用逻辑核心时，可以获得稍快的仅CPU推理速度。
- 反对声音：无
🤔 CPU本身与令牌生成速度无关联，受RAM带宽瓶颈制约。
- 支持理由：有评论者指出在这个案例中CPU本身与令牌生成速度无关，而是受RAM带宽的限制，如果使用7600x，可能会有相同的速度。
- 反对声音：原帖作者通过自己的测试结果暗示CPU对性能有影响，与该观点相悖。

金句与有趣评论

“😂 That is typical. You will get much worse results running a quantized 70b model.”
- 亮点：直接点明在CPU - only情况下运行量化70b模型的典型结果，简洁明了。
“🤔 Try 70b models with decent amount of context.”
- 亮点：针对原帖中仅用CPU运行模型的情况，给出了尝试70b模型的建议。
“👀 有一个项目叫llamafile by Mozilla，他们优化模型以便在cpu上运行得更快。”
- 亮点：介绍了一个优化模型在CPU上运行速度的项目，为讨论引入新的内容。
“😎 It makes cards with 8GB VRAM useless IMHO - any model that you can fit on those cards will run decently on CPU anyway.”
- 亮点：提出一种比较有争议的观点，引发了其他评论者的讨论。
“💡 推理速度是与带宽成正比的，所以我想说对于一个8B模型来说每秒约12t是相当符合预期的，尽管在我看来不错。”
- 亮点：从技术角度分析了推理速度与带宽的关系，对原帖中的性能数据进行解读。

情感分析

总体情感倾向比较积极正面，大家主要是在理性地分享信息、提供建议和讨论技术问题。主要分歧点在于8GB显存显卡是否无用以及CPU与令牌生成速度是否有关联。产生这些分歧的原因可能是大家各自的硬件使用经验、对不同模型运行需求的理解以及技术知识背景的不同。

趋势与预测

新兴话题：关于不同CPU（如7600x与Ryzen 9 9950x）在相同运行环境下性能比较可能会引发后续讨论。
潜在影响：对于想要进行类似CPU - only模型运行的用户来说，这些讨论有助于他们更好地了解硬件性能和优化方法，可能会影响他们的硬件选择和运行设置。

详细内容：

标题：关于 CPU 仅 Ryzen 9 9950x 令人惊讶的性能表现讨论

在 Reddit 上，一则关于 CPU 仅 Ryzen 9 9950x 性能表现的帖子引发了热烈讨论。原帖作者称在等待 GPU 到来期间，对 CPU 系统进行了测试。其配置包括 Microcenter 购买的微星 X870E MAG Tomahawk WiFi 主板、Ryzen 9 9950x CPU（16 核，32 线程）以及升级至 64GB 的 G.Skill Flare X5 DDR5 内存，运行的操作系统为 PopOS（Ubuntu 衍生版）。作者表示在 CPU 单独运行“deepseek-r1:8b”（基于 Llama3.1:8b）时，能达到约 12 个令牌/秒，这一表现比其 RTX 2060 移动版高出约 30 - 35%，此帖获得了众多关注，评论众多。

讨论的焦点主要集中在以下几个方面：有人指出，运行量化的 70b 模型，结果会差很多，大约每秒 2 个令牌，并提供了相关搜索链接https://www.google.com/search?q=cpu+only+inference+performance+results+on+8+billion+model+%3A+tokens+per+second。

有用户认为这很酷，并表示在 r/LocalLLaMA 上未看到相关讨论，所以分享了出来。

也有人请求尝试 deepseek-r1:70b（R1 Distill 70b q4_K_M）。

还有人提到 Mozilla 有个叫 llamafile 的项目能优化模型在 CPU 上的运行速度，如https://github.com/Mozilla-Ocho/llamafile。

关于性能表现的观点存在分歧。有人认为对于 8GB VRAM 的显卡没用，能在这类显卡上运行的模型在 CPU 上也能运行得不错；但也有人反驳称 8GB 显卡不仅能加速小模型，还能让更大的模型以不错的速度运行。

有人提出在 Windows 上通过特定设置能使 CPU 仅推理速度稍快，或许在 Linux 上也值得一试。还有人询问作者等待的 GPU 型号。

有人指出原配置中 CPU 的互连链路速度可能限制了性能，若想进一步提升速度，可尝试提高内存频率。

有人对 96 核的线程撕裂者性能表现感兴趣。

有人认为“deepseek-r1:8b”模型过小，自己在编码或解决问题时只使用 32b 模型。

有人对 Microcenter 能否升级内存提出疑问。

也有人认为 CPU 本身与令牌生成速度无关，而是受限于 RAM 带宽。

这场讨论中，既有不同观点的碰撞，也有共识的部分。例如大家普遍关注如何提升 CPU 系统在相关模型运行中的性能。而独特的观点如对不同模型大小的使用偏好，丰富了讨论的维度。但对于如何优化性能以及模型选择等问题，仍存在诸多争议，需要进一步探讨和实践来验证。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#