原贴链接

朋友们好,如果有人还记得我,我就是那个在地下室有14个RTX 3090的人,也就是本地LLaMA家庭服务器最终BOSS。上周,看到关于DeepSeek R - 1 671B模型的KTransformers优化的帖子后,我决定在我的人工智能服务器上进行尝试,这个服务器有一个单路Epyc 7713 CPU,64核/128线程,512GB DDR4 3200MHZ内存和14个RTX 3090。我最初在那个帖子下评论说,鉴于KTransformers团队在英特尔双路DDR5至强服务器上进行了基准测试(该服务器支持比Epyc 7004平台更优化的MoE内核),我计划在我的Epyc 7004平台CPU上进行测试运行。然而,我决定从头到尾直播整个过程。这是我的第一次直播(请对我友好点 :D),所以实际上时间很长,考虑到观看的人数众多,我决定展示我在人工智能服务器上做的不同事情(vLLM和ExLlamaV2运行以及与OpenWeb - UI的比较)。如果你只对评估数字感兴趣,我问了模型‘strawberry这个单词里有多少个‘r’?’,评估数字可在此处查看。如果你想观看模型在GPU上运行并卸载单个层(13GB),同时390GB权重被卸载到CPU的情况,可以查看直播的1:39:59时刻。我进行了多次不同设置更改(令牌生成长度、线程数量等)的运行,并且我还用相同的模型进行了多次llama.cpp运行,以查看KTransformers团队报告的改进是否与之匹配。在我的llama.cpp运行中,我首先将尽可能多的层卸载到我的14个RTX 3090上,然后像KTransformers的测试运行一样只将1层卸载到单个GPU上,并从直播的4:12:29时刻开始展示和比较这些运行与使用KTransformers的运行的评估数字。还有,我的猫在直播的2:49:00时刻来到我办公室占领它指定的椅子,如果你想看有趣的东西的话 :D。有趣的是,上周我写了一篇关于[llama.cpp的多GPU设置是一种浪费](https://ahmadosman.com/blog/do - not - use - llama - cpp - or - ollama - on - multi - gpus - setups - use - vllm - or - exllamav2/)的博客文章,并在这里分享了它,结果这周我却在直播中运行llama.cpp,哈哈哈。请告诉我你们的想法或者是否有任何问题。我还想再次直播,所以如果你们对像我这样的人工智能服务器有任何有趣的想法,请告诉我,我会尽力直播。也许你甚至可以作为嘉宾加入,我们可以一起直播! 太长不看版(TL;DR)评估数字可在此处查看编辑:我通过从源代码构建运行了[KTransformers的v0.3版本](https://github.com/kvcache - ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md)。实际上,从源代码构建KTransformers v0.3(以及llama.cpp最新主分支)在直播中占了很大一部分时间,但我只想开播做我平常做的事,而不是担心我要展示什么。 编辑2:扩展我的太长不看版(TL;DR):提示评估在这里是一个非常重要的因素。使用llama.cpp的相同运行配置表明,在KTransformers下,提示评估速度几乎提高了15倍。完整数字如下。 提示评估: - 提示评估计数:14个令牌 - 提示评估持续时间:1.5244331359863281秒 - 提示评估速率:9.183741595161415个令牌/秒 生成评估: - 评估计数:805个令牌 - 评估持续时间:97.70413899421692秒 - 评估速率:8.239159653693358个令牌/秒

讨论总结

原帖作者直播在自己配置强大的AI服务器上运行DeepSeek R - 1 671B - q4的测试过程,包括使用KTransformers进行相关操作。评论者们从多个角度进行讨论,有对测试结果如运行速度、prompt eval速度的讨论,有对硬件配置及成本效益的质疑,有对KTransformers版本的疑惑,也有对原帖作者分享内容的赞赏,还有对后续测试的建议等,整体氛围比较活跃且话题丰富。

主要观点

  1. 👍 强调prompt eval是重要因素,KTransformers相对llama.cpp在prompt eval速度上有提升
    • 支持理由:测试数据表明在相同运行配置下,KTransformers的prompt eval速度有15倍提升。
    • 反对声音:有人质疑仅用14个token测试prompt eval速度的有效性。
  2. 🔥 认为投入15000加元以上应得到更好的成果
    • 正方观点:设备投入成本高,成果应该更好才值得。
    • 反方观点:未明确有反对声音,但原作者主要是做技术测试展示,可能认为不能单纯从投入产出来衡量。
  3. 💡 原帖构建可能不适配KTransformers
    • 解释:KTransformers是针对低显存高CPU内存的场景进行优化的,原帖从1个3090到14个3090的构建可能未针对KTransformers进行最佳配置。
  4. 👍 对原帖作者分享的工作成果表示赞赏
    • 支持理由:原帖作者详细分享设备配置、测试过程等内容很有价值。
    • 反对声音:无。
  5. 💡 在特定设备上测试ktransformers与llama.cpp,得到二者初步的标记/秒数据
    • 解释:评论者VoidAlchemy在自己设备上测试得到ktransformers约为11.25个标记/秒,llama.cpp约为8.5个标记/秒等结果。

金句与有趣评论

  1. “😂 Damn I thought I’d be faster. Cool nonetheless but for 15k+ (cad), I thought at least 15+.”
    • 亮点:以一种幽默且直白的方式表达对投入产出的看法。
  2. “🤔 Prompt eval is a very important factor. An identical run configuration with llama.cpp showed that the prompt evaluation speed pretty much had a 15x speed increase under KTransformers.”
    • 亮点:强调了prompt eval的重要性以及KTransformers在这方面的优势。
  3. “👀 Is there a youtube version?”
    • 亮点:开启了关于是否有YouTube版本相关的话题交流。
  4. “😂 Op real goal is to single handedly collapse the local power grid at this point 😂”
    • 亮点:幽默地调侃原帖作者设备运行对本地电网的影响。
  5. “🤔 What is with the crazy precision on the decimal places? Please round to something rational, having a dozen degrees of precision just makes it look silly.”
    • 亮点:直接指出原帖评估数据小数位精度过高的问题并给出合理建议。

情感分析

总体情感倾向是积极的。主要分歧点在于对测试成果与投入成本是否匹配,以及原帖中的硬件配置是否适配KTransformers等技术方面。可能的原因是不同的评论者站在不同的角度看待问题,有从纯技术优化角度的,有从成本效益角度的,也有从单纯欣赏分享内容角度的。

趋势与预测

  • 新兴话题:如SGLang的测试、更多硬件组合下的运行结果等可能会引发后续讨论。
  • 潜在影响:对AI服务器的优化配置、不同模型在特定硬件上的运行效率等相关领域可能会产生影响,促使更多人关注硬件与模型的适配性以及成本效益等问题。

详细内容:

标题:Reddit 热门讨论:在强大硬件配置下对 AI 模型的测试与探讨

在 Reddit 上,一篇题为“I Live-Streamed DeepSeek R-1 671B-q4 Running w/ KTransformers on Epyc 7713, 512GB RAM, and 14x RTX 3090s”的帖子引发了热烈讨论。该帖获得了众多关注,评论数众多。

原帖作者分享了自己在拥有单颗 Epyc 7713 CPU(64 核/128 线程)、512GB DDR4 3200MHZ 内存和 14 块 RTX 3090s 的 AI 服务器上,对 DeepSeek R-1 671B-q4 模型结合 KTransformers 进行测试的经历,并进行了首次直播。文章将探讨不同用户对测试结果的观点和争议。

在讨论中,主要观点如下: 有人认为 prompt eval 是一个重要因素,相同配置下,“llama.cpp”在“KTransformers”下的 prompt 评估速度有了约 15 倍的提升,同时也给出了详细的评估数据。但也有人质疑仅基于 14 个 token 难以准确评估 prompt eval 速度,认为测试 14000 个 token 可能更有意义。 有用户分享了自己使用不同硬件配置和模型的运行速度,如使用 8 位量化 Epyc 7773X 和 1TB 内存,无 GPU 卸载时的速度情况。 还有用户对硬件的电力消耗、成本等问题发表了看法,认为如此高的投入和能耗不一定值得。

有人觉得原帖作者在拥有如此强大的硬件配置下,仅仅用来计算单词中字母的数量有些大材小用。但作者解释这是为了在相同配置下与已发布的评估数据进行比较。

特别有见地的观点如:有人指出目前人类拥有的数据量巨大,但用于训练模型的数据占比极小。

总之,这次讨论充分展示了大家对 AI 模型测试和硬件配置的关注和思考,也反映了不同用户在技术应用和成本效益等方面的不同看法。