原贴链接

Deepseek R1在Livebench.ai上除语言类之外的所有类别中都优于o1 - preview,而且价格只是其一小部分。o1 - preview的输出令牌成本是R1的27倍以上。

讨论总结

该讨论主要围绕Deepseek R1在Livebench上除语言外所有类别优于o1 - preview且价格低这一情况展开。话题涉及到Deepseek R1的蒸馏版本测试期待、与qwen在编码能力上的比较、和Sonnet 3.5的性能对比、服务条款中可能存在使用用户API训练的问题以及用户在研究方面的正面体验等多方面,大家积极发表观点,氛围较为热烈且富有探索性。

主要观点

  1. 👍 Deepseek R1在Livebench上除语言外的所有类别中都优于o1 - preview且价格更低。
    • 支持理由:[原帖给出数据表明在Livebench上除语言外的类别表现优秀且价格低]
    • 反对声音:[无]
  2. 🔥 distilled 32b比qwen更好。
    • 正方观点:[DeviantPlayeer称distilled 32b在编码时会思考,而qwen直接给出完整代码清单且有很多假设]
    • 反方观点:[无]
  3. 💡 Deepseek R1服务条款可能存在使用用户API完成内容训练的情况。
    • [作者ithkuil分享自己的发现,表示需要以合适方式告知用户]

金句与有趣评论

  1. “😂 WOW…”
    • 亮点:[简单直接地表达出对Deepseek R1在Livebench上表现的惊讶]
  2. “🤔 Is for free and has better reasoning so could be better with complex code as one shot code are on the same lever..lol”
    • 亮点:[对Deepseek R1在复杂代码方面表现更好的一种推测性解释]
  3. “👀 我的R1测试进行得非常顺利。问题是,他们在服务条款中暗示可能会根据您的API完成内容进行训练。我一直在努力想办法,以一种不会让用户吓跑的方式向我的服务用户披露这一点。”
    • 亮点:[既提到Deepseek R1测试顺利,又指出服务条款存在的潜在问题]

情感分析

总体情感倾向是积极的,大家对Deepseek R1的性能、编码能力等方面多持肯定态度。主要分歧点在于Deepseek R1是否真的比Sonnet 3.5更好,以及其服务条款中使用用户API内容训练的情况是否合理。可能的原因是不同用户从不同使用场景(如编码、研究等)出发,且对产品的安全性和公平性有不同考量。

趋势与预测

  • 新兴话题:[Deepseek R1与更多产品在不同功能上的比较]
  • 潜在影响:[促使Deepseek公司对服务条款进行调整,影响用户对人工智能产品的信任度]

详细内容:

标题:Deepseek R1 在 Livebench 上表现出色引发热议

Deepseek R1 在 Livebench.ai 上除语言类别外的所有类别中表现优于 o1-preview,且价格更低,o1-preview 在输出令牌上的成本是 R1 的 27 倍以上。此帖获得了众多关注,引发了大量讨论。

讨论焦点与观点分析: 有人希望对蒸馏版本进行基准测试。有人尝试了蒸馏 32b 版本,认为它比 qwen 好很多,在编码时会思考而不是直接给出完整列表。还有人表示 Qwen2.5 32B 与 Deepseek 结合堪称完美。有人惊叹 Deepseek R1 竟然比 sonnet 3.5 还要好,也有人指出 R1 在某些方面只是略微逊色于 Sonnet。有人对 R1 的功率/价格比表示称赞,还有人询问编码平均值的计算方式。有人的 R1 测试效果很好,但担心其服务条款中可能存在对用户 API 完成内容的使用问题,有人则认为这可能涉及欺诈,不应暗示输入内容是安全可用的。也有人建议等待第三方托管,认为其更适合商业使用。还有人希望人们能为 together.ai 的相关请求点赞。有人表示不能说编码方面的情况,但对更高层次的建议和总体分析非常满意,感觉像在和聪明的东西打交道。

在这场讨论中,大家对于 Deepseek R1 的性能表现和潜在问题都进行了深入探讨。关于其性能优势,大家基本达成了一定的共识,认为在某些方面确实表现出色。而对于可能存在的问题,如数据使用和商业使用方式等,大家各持不同的观点,这也反映出大家对新技术的谨慎和关注。

总之,关于 Deepseek R1 的讨论丰富而多元,让人们对其有了更全面的认识。