原贴链接

朋友们好，如果有人还记得我，我就是那个在地下室有14个RTX 3090的人，也就是本地LLaMA家庭服务器最终BOSS。上周，看到关于DeepSeek R - 1 671B模型的KTransformers优化的帖子后，我决定在我的人工智能服务器上进行尝试，这个服务器有一个单路Epyc 7713 CPU，64核/128线程，512GB DDR4 3200MHZ内存和14个RTX 3090。我最初在那个帖子下评论说，鉴于KTransformers团队在英特尔双路DDR5至强服务器上进行了基准测试（该服务器支持比Epyc 7004平台更优化的MoE内核），我计划在我的Epyc 7004平台CPU上进行测试运行。然而，我决定从头到尾直播整个过程。这是我的第一次直播（请对我友好点 :D），所以实际上时间很长，考虑到观看的人数众多，我决定展示我在人工智能服务器上做的不同事情（vLLM和ExLlamaV2运行以及与OpenWeb - UI的比较）。如果你只对评估数字感兴趣，我问了模型‘strawberry这个单词里有多少个‘r’？’，评估数字可在此处查看。如果你想观看模型在GPU上运行并卸载单个层（13GB），同时390GB权重被卸载到CPU的情况，可以查看直播的1:39:59时刻。我进行了多次不同设置更改（令牌生成长度、线程数量等）的运行，并且我还用相同的模型进行了多次llama.cpp运行，以查看KTransformers团队报告的改进是否与之匹配。在我的llama.cpp运行中，我首先将尽可能多的层卸载到我的14个RTX 3090上，然后像KTransformers的测试运行一样只将1层卸载到单个GPU上，并从直播的4:12:29时刻开始展示和比较这些运行与使用KTransformers的运行的评估数字。还有，我的猫在直播的2:49:00时刻来到我办公室占领它指定的椅子，如果你想看有趣的东西的话 :D。有趣的是，上周我写了一篇关于[llama.cpp的多GPU设置是一种浪费](https://ahmadosman.com/blog/do - not - use - llama - cpp - or - ollama - on - multi - gpus - setups - use - vllm - or - exllamav2/)的博客文章，并在这里分享了它，结果这周我却在直播中运行llama.cpp，哈哈哈。请告诉我你们的想法或者是否有任何问题。我还想再次直播，所以如果你们对像我这样的人工智能服务器有任何有趣的想法，请告诉我，我会尽力直播。也许你甚至可以作为嘉宾加入，我们可以一起直播！ 太长不看版（TL;DR）：评估数字可在此处查看。编辑：我通过从源代码构建运行了[KTransformers的v0.3版本](https://github.com/kvcache - ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md)。实际上，从源代码构建KTransformers v0.3（以及llama.cpp最新主分支）在直播中占了很大一部分时间，但我只想开播做我平常做的事，而不是担心我要展示什么。 编辑2：扩展我的太长不看版（TL;DR）：提示评估在这里是一个非常重要的因素。使用llama.cpp的相同运行配置表明，在KTransformers下，提示评估速度几乎提高了15倍。完整数字如下。 提示评估： - 提示评估计数：14个令牌 - 提示评估持续时间：1.5244331359863281秒 - 提示评估速率：9.183741595161415个令牌/秒 生成评估： - 评估计数：805个令牌 - 评估持续时间：97.70413899421692秒 - 评估速率：8.239159653693358个令牌/秒

讨论总结

原帖作者直播在自己配置强大的AI服务器上运行DeepSeek R - 1 671B - q4的测试过程，包括使用KTransformers进行相关操作。评论者们从多个角度进行讨论，有对测试结果如运行速度、prompt eval速度的讨论，有对硬件配置及成本效益的质疑，有对KTransformers版本的疑惑，也有对原帖作者分享内容的赞赏，还有对后续测试的建议等，整体氛围比较活跃且话题丰富。

主要观点

👍 强调prompt eval是重要因素，KTransformers相对llama.cpp在prompt eval速度上有提升
- 支持理由：测试数据表明在相同运行配置下，KTransformers的prompt eval速度有15倍提升。
- 反对声音：有人质疑仅用14个token测试prompt eval速度的有效性。
🔥 认为投入15000加元以上应得到更好的成果
- 正方观点：设备投入成本高，成果应该更好才值得。
- 反方观点：未明确有反对声音，但原作者主要是做技术测试展示，可能认为不能单纯从投入产出来衡量。
💡 原帖构建可能不适配KTransformers
- 解释：KTransformers是针对低显存高CPU内存的场景进行优化的，原帖从1个3090到14个3090的构建可能未针对KTransformers进行最佳配置。
👍 对原帖作者分享的工作成果表示赞赏
- 支持理由：原帖作者详细分享设备配置、测试过程等内容很有价值。
- 反对声音：无。
💡 在特定设备上测试ktransformers与llama.cpp，得到二者初步的标记/秒数据
- 解释：评论者VoidAlchemy在自己设备上测试得到ktransformers约为11.25个标记/秒，llama.cpp约为8.5个标记/秒等结果。

金句与有趣评论

“😂 Damn I thought I’d be faster. Cool nonetheless but for 15k+ (cad), I thought at least 15+.”
- 亮点：以一种幽默且直白的方式表达对投入产出的看法。
“🤔 Prompt eval is a very important factor. An identical run configuration with llama.cpp showed that the prompt evaluation speed pretty much had a 15x speed increase under KTransformers.”
- 亮点：强调了prompt eval的重要性以及KTransformers在这方面的优势。
“👀 Is there a youtube version?”
- 亮点：开启了关于是否有YouTube版本相关的话题交流。
“😂 Op real goal is to single handedly collapse the local power grid at this point 😂”
- 亮点：幽默地调侃原帖作者设备运行对本地电网的影响。
“🤔 What is with the crazy precision on the decimal places? Please round to something rational, having a dozen degrees of precision just makes it look silly.”
- 亮点：直接指出原帖评估数据小数位精度过高的问题并给出合理建议。

情感分析

总体情感倾向是积极的。主要分歧点在于对测试成果与投入成本是否匹配，以及原帖中的硬件配置是否适配KTransformers等技术方面。可能的原因是不同的评论者站在不同的角度看待问题，有从纯技术优化角度的，有从成本效益角度的，也有从单纯欣赏分享内容角度的。

趋势与预测

新兴话题：如SGLang的测试、更多硬件组合下的运行结果等可能会引发后续讨论。
潜在影响：对AI服务器的优化配置、不同模型在特定硬件上的运行效率等相关领域可能会产生影响，促使更多人关注硬件与模型的适配性以及成本效益等问题。

详细内容：

标题：Reddit 热门讨论：在强大硬件配置下对 AI 模型的测试与探讨

在 Reddit 上，一篇题为“I Live-Streamed DeepSeek R-1 671B-q4 Running w/ KTransformers on Epyc 7713, 512GB RAM, and 14x RTX 3090s”的帖子引发了热烈讨论。该帖获得了众多关注，评论数众多。

原帖作者分享了自己在拥有单颗 Epyc 7713 CPU（64 核/128 线程）、512GB DDR4 3200MHZ 内存和 14 块 RTX 3090s 的 AI 服务器上，对 DeepSeek R-1 671B-q4 模型结合 KTransformers 进行测试的经历，并进行了首次直播。文章将探讨不同用户对测试结果的观点和争议。

在讨论中，主要观点如下：有人认为 prompt eval 是一个重要因素，相同配置下，“llama.cpp”在“KTransformers”下的 prompt 评估速度有了约 15 倍的提升，同时也给出了详细的评估数据。但也有人质疑仅基于 14 个 token 难以准确评估 prompt eval 速度，认为测试 14000 个 token 可能更有意义。有用户分享了自己使用不同硬件配置和模型的运行速度，如使用 8 位量化 Epyc 7773X 和 1TB 内存，无 GPU 卸载时的速度情况。还有用户对硬件的电力消耗、成本等问题发表了看法，认为如此高的投入和能耗不一定值得。

有人觉得原帖作者在拥有如此强大的硬件配置下，仅仅用来计算单词中字母的数量有些大材小用。但作者解释这是为了在相同配置下与已发布的评估数据进行比较。

特别有见地的观点如：有人指出目前人类拥有的数据量巨大，但用于训练模型的数据占比极小。

总之，这次讨论充分展示了大家对 AI 模型测试和硬件配置的关注和思考，也反映了不同用户在技术应用和成本效益等方面的不同看法。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#