帖子仅包含一个图片链接，无实质内容可翻译

讨论总结

整个讨论围绕Deepseek在“人类最后的考试”中的表现展开，涉及到它与OpenAI的比较，包括模型的准确率、参数数量等技术细节，还有关于开源、多模态、成本等方面的讨论。此外，也探讨了Deepseek作为副业项目的潜力、商业影响以及引发了一些对测试本身的看法，包括肯定、否定和质疑等多种态度。

主要观点

👍 DeepSeek - R1在纯文本数据集上准确率高于o1。
- 支持理由：有数据表明DeepSeek - R1在纯文本数据集上以9.4%的准确率超过o1的8.9%。
- 反对声音：无。
🔥 对于R1和o1的参数数量存在争议。
- 正方观点：有人指出R1的参数可能是o1的3 - 5倍。
- 反方观点：也有人指出没人知道o1的参数数量。
💡 多模态LLMs有时有更好的空间推理能力。
- 解释：多模态模型在某些方面（如空间推理能力）可能具有优势，这有助于对世界的常识性理解。
💡 这是一个值得关注的副业项目。
- 解释：其初始成果不错，未来可能会有更好的发展。
💡 商业才是AI对社会负面影响的主要来源。
- 解释：在关于“人类最后的考试”的讨论中，有人认为该考试关注点不是个人使用，99.99%的AI对社会潜在负面影响来自商业方面。

金句与有趣评论

“😂 DeepSeek - R1 is not multimodal, so the 9.4% accuracy is from the text - only dataset.”
- 亮点：清晰地指出了DeepSeek - R1准确率数据的来源。
“🤔 If a side project works like this, wait for sometime this will improve. And if a first version of something is performing like this, it definitely will do better soon.”
- 亮点：对Deepseek作为副业项目的发展潜力表示乐观。
“👀 Friendly reminder that this open weights, not open source!”
- 亮点：纠正了可能存在的关于Deepseek概念上的误解。
“😉 This kind of commentary is always enormously funny to me because it tacitly implies Americans were too dumb to use American model outputs for training.”
- 亮点：对关于美国资源利用的评论做出有趣的回应。
“💥 That exam is a pos”
- 亮点：简洁地表达对“人类最后的考试”的否定态度。

情感分析

总体情感倾向较为复杂，存在争议性。主要分歧点在于对Deepseek的评价、“人类最后的考试”的看法以及对不同模型的比较等方面。例如在对Deepseek的成果评价上，有人认为很厉害，有人则比较质疑；对于“人类最后的考试”，有人肯定其严格性和意义，也有人直接否定。可能的原因是大家站在不同的角度看待这些事物，如技术角度、商业角度或者个人喜好角度等。

趋势与预测

新兴话题：Deepseek在未使用最新芯片情况下取得成果后的发展潜力，以及相关模型如何在资源受限情况下提升性能。
潜在影响：对人工智能领域的模型研发方向、开源项目发展以及商业应用中的AI伦理等方面可能产生影响。

详细内容：

标题：Open-source Deepseek 在“人类的最后考试”中击败 OpenAI

最近，Reddit 上一个关于 Open-source Deepseek 在“人类的最后考试”中表现出色的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。

原帖主要介绍了在“人类的最后考试”这一严格的 AI 基准测试中，DeepSeek-R1 在纯文本数据集上的准确率为 9.4%，而 OpenAI 的 o1 准确率为 8.9%。同时还提供了一系列其他模型的测试结果数据。

帖子引发的主要讨论方向包括不同模型参数数量与性能的关系、不同公司模型的成本与推理能力、开源模型的优势以及该测试结果的意义等。

文章将要探讨的核心问题是：DeepSeek-R1 的成功意味着什么？它是否能改变当前 AI 发展的格局？

在讨论中，有人认为纯文本模型 DeepSeek-R1 比多模态模型 o1 表现更好是有道理的，因为其参数可能更多。有人则指出虽然 GPT4 的参数高达 1.7T，但并不意味着参数多就一定性能好，正如 Deepseek 所展示的，小模型也可能有出色表现。还有用户分享道：“作为一名技术和软件工程师，每次我的领域与数学家交叉时，我不得不承认自己的不足，数量分析师总是比我们厉害得多。”

对于 o1 的参数数量，有人表示无人知晓，有人则根据现有信息估计在 100 - 200B 范围。关于成本和参数数量在不同公司之间的关联，有人认为逻辑跳跃。

有人提到 Deepseek 作为一个“边项目”能有如此成绩令人惊讶，且在没有最新 Nvidia 芯片的情况下还能表现出色。但也有人指出其可能使用了美国模型的输出进行训练。

对于测试结果，有人认为这为 AI 发展带来了新的思考方向，也有人质疑测试的全面性和公正性。

总之，这次讨论充分展现了大家对 AI 模型发展的关注和思考，不同观点的碰撞也让我们对这一领域有了更深入的认识。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#