原贴链接

正在寻找完全替代ChatGPT的方案并选购硬件。我看到Digital Spaceport花费2000美元构建的方案(https://digitalspaceport.com/how-to-run-deepseek-r1-671b-fully-locally-on-2000-epyc-rig/),使用7002/7003 EPYC和512GB的DDR4 2400能达到约5个令牌/秒的速度。这是个不错的实验,但5个令牌/秒在日常使用中无法取代ChatGPT。所以我想知道,要达到至少20个令牌/秒,且首个令牌等待时间在3 - 4秒或更短,仅在内存中运行,最低需要什么样的硬件呢?我确定没多少人尝试过这个,但我只是提一下,一个配备1TB DDR5 4800、双路EPYC 9005(192核/384线程)的设置是否足以满足20TPS的要求呢?

讨论总结

原帖想知道仅在RAM运行Deepseek R1 671b达到20TPS(每秒20个令牌)且首字符等待时间3 - 4秒以内的最低硬件要求,大家在评论中从不同角度进行讨论。有的从性价比角度认为构建硬件不如用手机从网页获取信息手写回复;有的分享相关库文件和技术经验;有的探讨推理模型的特性与能否替代ChatGPT;还有的提出不同硬件配置方案并分析其可行性、成本和性能等,整体氛围充满技术探讨性。

主要观点

  1. 👍 认为花2000美元构建硬件不如用手机从Deepseek网页获取信息后手写回复划算。
    • 支持理由:以幽默方式表达这种方式更简单且成本效益更高。
    • 反对声音:无。
  2. 🔥 满足原帖要求的硬件配置在不大量量化的情况下在5000美元以内极难达成。
    • 正方观点:目前还未见到有人做到,硬件和性能要求难以在该预算内满足。
    • 反方观点:无。
  3. 💡 达到20TPS的速度仅靠RAM不行,需要GPU。
    • 解释:ttft和提示处理依赖于GPU,至少需要2个A100 80GB才能达到这样的速度。
  4. 💡 推理模型冗长,20 token/s可能不够。
    • 解释:若要输出较多token,按照20 token/s速度会等待过久。
  5. 💡 原帖所链接指南运行的不是完整Deepseek。
    • 解释:在对原帖所提硬件配置的分析中指出其存在的问题。

金句与有趣评论

  1. “😂 For 2k I will hide in a box and hand write responses as I get them from Deepseek web on my phone.”
    • 亮点:以幽默方式表达对构建硬件的否定态度。
  2. “🤔 If you want to keep the cost under 5000 dollars without heavy quantization, that will be extremely challenging, and so far I haven’t seen anyone do it.”
    • 亮点:强调在预算内实现硬件配置的难度。
  3. “👀 Linkpharm2:No. Ttft and prompt processing depends on gpus. Those speeds are only possible on gpus. You’ll need at least 2xa100 80gb.”
    • 亮点:明确指出达到速度要求需要GPU及其数量。
  4. “🤔 2k context will naturally be orders of magnitude faster than something like 16k context”
    • 亮点:指出上下文大小对运行速度的显著影响。
  5. “😂 Maintenance costs are lower, just beer and beef jerky”
    • 亮点:以幽默方式表达维护成本低。

情感分析

总体情感倾向较为理性客观。主要分歧点在于硬件配置是否能满足性能要求以及成本是否合理。原因是大家从不同的技术角度和使用需求出发,如有的从实际操作的便捷性出发认为构建硬件性价比低,有的从技术实现角度认为满足性能要求的硬件成本很高或者难以达到。

趋势与预测

  • 新兴话题:新硬件(如M4 studio ultra、Xeon Max等)在Deepseek运行中的表现和潜力。
  • 潜在影响:如果能够找到性价比高的硬件配置,可能会对ChatGPT等聊天机器人的本地替代方案产生推动作用,影响人工智能在个人使用场景中的普及程度。

详细内容:

标题:关于 Deepseek R1 671b 达到 20TPS 运行所需最低硬件的热门讨论

在 Reddit 上,有一则关于寻求 Deepseek R1 671b 达到 20 令牌/秒(TPS)运行且仅依靠内存(RAM)所需最低硬件配置的热门讨论。该帖子获得了众多关注,评论数众多。原帖中,发帖者表示在看到数字太空港 2000 美元的配置仅能达到 5 左右的 TPS 后,想知道达到 20TPS 且首令牌等待时间在 3 - 4 秒或更短所需的最低硬件配置,比如采用 1TB DDR5 4800 内存和双 EPYC 9005 是否可行。

讨论焦点主要集中在硬件配置与性能之间的关系。有人认为,根据 NVMe 驱动器速度,可能会达到约 0.25 tok/秒,且需要更多内存,至少 64GB 才是最低要求。还有人分享了 ktransformers 指南,并指出如果有至少 16GB+ VRAM GPU,TPS 能翻倍。也有人提到遵循特定的编译安装指令并关注所需库。

有人认为推理模型输出较长,20TPS 不现实;但也有人指出 ChatGPT 多数回复在 500 令牌以下,认为计算可行。还有人讨论了不同处理器、内存、GPU 等硬件配置的性能和成本。比如有人认为低于 1 万美元难以实现,最佳选择可能是双插槽 Xeon Max 9480 等配置。

有人表示纯 CPU 推理的提示处理时间糟糕,应至少添加 1 个 GPU 用于提示处理。也有人提到不同硬件配置在速度、带宽、成本等方面的权衡。

总的来说,关于达到 Deepseek R1 671b 20TPS 运行所需的最低硬件配置,大家看法不一,仍存在诸多争议和探讨空间。