原贴链接

我看到了这篇被大量点赞的帖子(https://www.reddit.com/r/LocalLLaMA/comments/1hnva51/deepseek_will_need_almost_5_hours_to_generate_1/),感觉它具有误导性。所有大型语言模型(LLM)供应商在推理过程中都会使用批处理,这使得像Deepseek V3这样的单个大型语言模型实例能够同时为数百个客户提供服务。如果我们考虑一个搭载Deepseek V3的8xH200系统,看起来它们可以使用大约256的批处理大小,同时仍然实现每个用户每秒60个代币的速度。这意味着它们实际上每秒生成15000个代币,大约是每分钟1美元或者每小时60美元。将其除以8个GPU,每个GPU每小时大约是7.50美元,这是非常合理的。这里(https://www.perplexity.ai/hub/blog/turbocharging - llama - 2 - 70b - with - nvidia - h100)有一篇关于批处理的不错(但较旧)的帖子。另外,请注意,是的,Sonnet也使用批处理,但由于我们不知道模型的大小(它可能有更多的活跃参数),他们必须大幅限制批处理大小以仍然获得合理的每个用户每秒代币数,这就是为什么它更昂贵的原因。我也认为他们获取更高的利润。如果我的任何计算看起来有误,请告诉我。

讨论总结

主题围绕DeepSeek生成价值1美元的令牌所需时间展开,原帖称需要近5小时,有评论者认为这一说法有误导性,通过计算表明由于批处理技术,实际约1分钟即可。但也有其他评论者从不同角度出发,如从消费者角度认为原帖只是强调价格差异并未误导,还涉及到模型使用、托管、成本计算、不同地区消费能力类比等相关话题,讨论氛围比较理性且多元。

主要观点

  1. 👍 原帖关于DeepSeek生成价值1美元令牌所需时间的说法有误导性。
    • 支持理由:所有LLM提供者使用批处理技术,以DeepSeek V3为例计算得出实际速度较快,约1分钟可生成价值1美元的令牌。
    • 反对声音:原帖未误导,只是从顾客角度强调Deepseek与其他供应商的价格差异。
  2. 🔥 原帖未误导,只是强调价格差异。
    • 正方观点:从顾客角度看Deepseek的一美元能维持的时长比Claude等其他供应商更久,原帖只是强调了这种价格差异。
    • 反方观点:原帖中关于DeepSeek生成价值1美元的令牌需要近5小时的说法,没有考虑批处理技术带来的效率提升,存在误导性。
  3. 💡 原帖关于DeepSeek生成token需要5小时是针对一个用户而言,所以原帖正确。
    • 解释:原帖所说的5小时是指一个用户生成token的时间,这种表述易于理解。
  4. 💡 原帖被大量点赞但可能存在误导。
    • 解释:原帖是从用户视角比较DeepSeek和Claude的价格低廉程度,而非从提供商的角度出发。
  5. 💡 一整天使用DeepseekV3和Cline仅花费1美元。
    • 解释:评论者通过自身使用经历说明DeepseekV3和Cline的消费成本较低。

金句与有趣评论

  1. “😂 我觉得它(原帖)不是针对服务器收益,更多的是消费者成本。”
    • 亮点:指出原帖可能关注的重点是消费者成本,为原帖是否存在误导性提供了一种思考角度。
  2. “🤔 dark - light92:The original post isn’t misleading.”
    • 亮点:直接表明对原帖的态度,是支持原帖未误导的代表性观点。
  3. “👀 我一整天都在使用DeepseekV3和Cline,仅花费了1美元,这东西很强大,我很惊叹。”
    • 亮点:通过个人使用体验说明DeepseekV3和Cline的性价比高。
  4. “🤔 我相信那个帖子只是从用户的角度来看DeepSeek与Claude相比有多便宜,而不是从提供商的角度。”
    • 亮点:从用户视角解读原帖,解释了原帖可能存在误解的原因。
  5. “😎 所有LLM提供者在推理过程中使用批处理,这允许像DeepSeek V3这样的单个LLM实例一次为数百个客户提供服务。”
    • 亮点:强调批处理技术对LLM服务客户能力的影响,这是反驳原帖存在误导性的关键依据。

情感分析

总体情感倾向较为中性,主要分歧点在于原帖是否具有误导性。认为原帖有误导性的一方,主要基于技术计算(如批处理技术对生成令牌速度的影响);而认为原帖未误导的一方,更多是从顾客角度看待价格差异或者对原帖表述的理解出发(如认为5小时是针对单个用户生成令牌的时间)。

趋势与预测

  • 新兴话题:DeepSeek V3运行的算法以及在家庭系统中的使用情况可能引发后续讨论。
  • 潜在影响:对理解DeepSeek相关产品的成本、效率以及市场定位有一定的影响,也有助于在LLM领域更深入地探讨不同视角(用户、提供商)下的产品评估。

详细内容:

标题:关于 DeepSeek 生成令牌价值的热门讨论

最近,Reddit 上有一篇关于 DeepSeek 生成令牌价值的帖子引起了广泛关注。该帖子[https://www.reddit.com/r/LocalLLaMA/comments/1hnva51/deepseek_will_need_almost_5_hours_to_generate_1/]获得了大量的点赞和众多评论。原帖认为 DeepSeek 生成 1 美元价值的令牌需要近 5 小时,然而有人提出这是具有误导性的观点。

讨论的焦点主要集中在以下几个方面: 有人觉得原帖并非针对服务器收入,更多是从消费者成本角度出发。也有人认为原帖没有误导,从客户的角度看,DeepSeek 相比其他提供商,如 Claude,1 美元能持续使用的时间更长。还有人指出不同的视角都有其合理性。

例如,有用户分享道:“我已经使用 DeepseekV3 一整天了,才花费了 1 美元,这东西太厉害了,让我感到惊叹。” 但也有人质疑:“为什么会这样做?知道这个 LLM 来自哪个国家吗?”

对于 DeepSeek 生成令牌的价值问题,大家看法不一。有人认为应该从不同的角度去理解,既有从消费者角度出发的观点,也有从提供商角度出发的考虑。有人还分享了自己使用 DeepSeek 的个人经历和案例。

总之,这场讨论展示了关于 DeepSeek 生成令牌价值的多种观点和丰富的思考。