Deepseek R1在Livebench.ai上除语言类之外的所有类别中都优于o1 - preview，而且价格只是其一小部分。o1 - preview的输出令牌成本是R1的27倍以上。

讨论总结

该讨论主要围绕Deepseek R1在Livebench上除语言外所有类别优于o1 - preview且价格低这一情况展开。话题涉及到Deepseek R1的蒸馏版本测试期待、与qwen在编码能力上的比较、和Sonnet 3.5的性能对比、服务条款中可能存在使用用户API训练的问题以及用户在研究方面的正面体验等多方面，大家积极发表观点，氛围较为热烈且富有探索性。

主要观点

👍 Deepseek R1在Livebench上除语言外的所有类别中都优于o1 - preview且价格更低。
- 支持理由：[原帖给出数据表明在Livebench上除语言外的类别表现优秀且价格低]
- 反对声音：[无]
🔥 distilled 32b比qwen更好。
- 正方观点：[DeviantPlayeer称distilled 32b在编码时会思考，而qwen直接给出完整代码清单且有很多假设]
- 反方观点：[无]
💡 Deepseek R1服务条款可能存在使用用户API完成内容训练的情况。
- [作者ithkuil分享自己的发现，表示需要以合适方式告知用户]

金句与有趣评论

“😂 WOW…”
- 亮点：[简单直接地表达出对Deepseek R1在Livebench上表现的惊讶]
“🤔 Is for free and has better reasoning so could be better with complex code as one shot code are on the same lever..lol”
- 亮点：[对Deepseek R1在复杂代码方面表现更好的一种推测性解释]
“👀 我的R1测试进行得非常顺利。问题是，他们在服务条款中暗示可能会根据您的API完成内容进行训练。我一直在努力想办法，以一种不会让用户吓跑的方式向我的服务用户披露这一点。”
- 亮点：[既提到Deepseek R1测试顺利，又指出服务条款存在的潜在问题]

情感分析

总体情感倾向是积极的，大家对Deepseek R1的性能、编码能力等方面多持肯定态度。主要分歧点在于Deepseek R1是否真的比Sonnet 3.5更好，以及其服务条款中使用用户API内容训练的情况是否合理。可能的原因是不同用户从不同使用场景（如编码、研究等）出发，且对产品的安全性和公平性有不同考量。

趋势与预测

新兴话题：[Deepseek R1与更多产品在不同功能上的比较]
潜在影响：[促使Deepseek公司对服务条款进行调整，影响用户对人工智能产品的信任度]

详细内容：

标题：Deepseek R1 在 Livebench 上表现出色引发热议

Deepseek R1 在 Livebench.ai 上除语言类别外的所有类别中表现优于 o1-preview，且价格更低，o1-preview 在输出令牌上的成本是 R1 的 27 倍以上。此帖获得了众多关注，引发了大量讨论。

讨论焦点与观点分析：有人希望对蒸馏版本进行基准测试。有人尝试了蒸馏 32b 版本，认为它比 qwen 好很多，在编码时会思考而不是直接给出完整列表。还有人表示 Qwen2.5 32B 与 Deepseek 结合堪称完美。有人惊叹 Deepseek R1 竟然比 sonnet 3.5 还要好，也有人指出 R1 在某些方面只是略微逊色于 Sonnet。有人对 R1 的功率/价格比表示称赞，还有人询问编码平均值的计算方式。有人的 R1 测试效果很好，但担心其服务条款中可能存在对用户 API 完成内容的使用问题，有人则认为这可能涉及欺诈，不应暗示输入内容是安全可用的。也有人建议等待第三方托管，认为其更适合商业使用。还有人希望人们能为 together.ai 的相关请求点赞。有人表示不能说编码方面的情况，但对更高层次的建议和总体分析非常满意，感觉像在和聪明的东西打交道。

在这场讨论中，大家对于 Deepseek R1 的性能表现和潜在问题都进行了深入探讨。关于其性能优势，大家基本达成了一定的共识，认为在某些方面确实表现出色。而对于可能存在的问题，如数据使用和商业使用方式等，大家各持不同的观点，这也反映出大家对新技术的谨慎和关注。

总之，关于 Deepseek R1 的讨论丰富而多元，让人们对其有了更全面的认识。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#