它们似乎是相当大的改进。 编辑: OpenAI正在慢慢接近AGI(通用人工智能)。在ARC - AGI(一种用于评估人工智能系统能否在其训练数据之外有效获取新技能的测试)中,o1获得了25% - 32%的分数(100%为最佳)。85%被认为是“人类水平”,但ARC - AGI的创造者之一弗朗索瓦·肖莱(Francois Chollet)称这一进展“扎实”。OpenAI表示,o3最好的情况下达到了87.5%的分数。最差的情况下,其性能是o1的三倍。(来源:Techcrunch)
讨论总结
这是一个围绕OpenAI宣布O3和O3 mini展开的讨论。大家从不同角度发表看法,涉及商标、模型发展、AGI概念、产品发布情况、成本、使用限制等多方面,有看好支持的,也有质疑反对的,整体讨论热度较高且争议较大。
主要观点
- 👍 OpenAI可能为避免商标冲突而跳过“o2”直接使用“o3”
- 支持理由:英国有电信巨头O2,为避免冲突。
- 反对声音:无。
- 🔥 对OpenAI新模型持乐观态度,认为这是积极的进步
- 正方观点:代表技术的不断发展,可以持续改进。
- 反方观点:有人质疑只是增加计算量并无实质进步。
- 💡 对OpenAI基于私人基准测试宣称接近AGI表示怀疑
- 理由:测试是私人的,问题和答案不可见,可信度存疑。
- 反对声音:有人认为测试者值得信任且不公开有合理性。
- 👍 认为OpenAI此次不是产品发布而是单纯宣布
- 支持理由:未看到实际产品的推出。
- 反对声音:有人觉得增加了可靠产品如视觉功能等。
- 🔥 OpenAI的o3和o3 mini尚未达到AGI的水平
- 正方观点:虽然在ARC - AGI有较好表现,但仍存在不足。
- 反方观点:无。
金句与有趣评论
- “😂 The company will likely skip using "o2" to avoid trademark conflicts with British telecommunications giant O2, jumping straight to "o3" instead”
- 亮点:提出一种关于OpenAI产品命名的有趣推测。
- “🤔 OpenAI is doing this 3 months after o1. I think there is no secret sauce, it’s just amped up compute.”
- 亮点:对OpenAI快速推出新模型的方式表示质疑。
- “👀 Talk is cheap, show me the weights.”
- 亮点:简洁地表达对OpenAI宣布成果的怀疑态度,要求展示实质证据。
- “😂 This is not Shipmas but Announcemess.”
- 亮点:幽默地调侃OpenAI此次是宣布而非产品发布。
- “🤔 Human - Level is a broad category, which human?”
- 亮点:指出以“人类水平”衡量AI存在概念宽泛的问题。
情感分析
总体情感倾向较为复杂,既有积极看好OpenAI新进展的,也有持怀疑和否定态度的。主要分歧点在于OpenAI是否真的在技术上取得了实质性进步、O3和O3 mini是否接近AGI、以及其产品发布是否有实际意义等。可能的原因是大家对AI技术发展的期望、对AGI概念的理解以及对OpenAI商业策略的看法不同。
趋势与预测
- 新兴话题:模型在不同测试集上的测试情况、模型获取新技能的方式。
- 潜在影响:如果OpenAI在AGI研究上取得重大突破,可能会对人工智能行业发展方向、人类工作模式等产生重大影响;如果其产品成本过高或性能被高估,可能影响其市场接受度和行业竞争格局。
详细内容:
《OpenAI 推出 O3 和 O3 mini,引发 Reddit 热议》
近日,OpenAI 宣布推出 O3 和 O3 mini ,引发了 Reddit 上的热烈讨论。原帖称,O3 似乎有了显著的改进,在 ARC-AGI 测试中,O1 的得分在 25%至 32%之间,而 O3 在最佳情况下达到了 87.5%的得分,最差情况下其性能也比 O1 提升了三倍。此帖获得了众多关注,点赞数和评论数众多。
讨论的焦点主要集中在以下几个方面:
- 关于命名:有人认为公司可能为了避免商标冲突跳过“O2”,直接到“O3”。还有人觉得这是故意为之,以混淆消费者。
- 技术性能:一些用户对 O3 在 ARC-AGI 测试中的表现表示惊叹,认为这是巨大的进步;但也有人质疑测试的公正性和模型的实际能力。
- 成本与应用:对于 O3 的使用成本,大家看法不一,有人认为其价格过高,也有人认为随着时间推移成本性能会改善。
- 与其他模型的比较:用户们期待看到 O3 与 Google Gemini 2.0 - Flash - Thinking 等模型的对比。
比如,有用户分享道:“当我在 O2 工作时,他们内部的 CRM 系统叫 O3 - 臭氧 :)”
有人认为:“OpenAI 是在 O1 推出三个月后推出的 O3 ,这只是增加了计算量,模型权重不足,对于预算有限的人来说是个大问题。但也有人乐观地认为,规模定律可能会继续发挥作用,希望能产生更高质量的合成数据来改进模型。”
还有人提出:“O3 现在在某些方面的表现堪称世界顶级程序员,但在一些问题上仍有不足,这是否能算作 AGI 存在争议。”
总的来说,关于 OpenAI 新推出的 O3 和 O3 mini ,Reddit 上的讨论热烈而多元,既有对技术进步的期待,也有对潜在问题的担忧。未来,我们还需拭目以待其在实际应用中的表现。
感谢您的耐心阅读!来选个表情,或者留个评论吧!