原贴链接

大家好,昨天我发现,即使在ChatGPT界面上有当前的“思考”标签,你也无法获取实际的思考标记,也就是模型的思考过程。我是怎么知道的呢?通过在两个模型上运行一个关于“迷宫谜题”的简单提示。这个示例可以在我们公司构建的数据集中找到(https://huggingface.co/datasets/jan - hq/Maze - Reasoning)。提示是一个关于解决迷宫的问题。Deepseek - R1在483秒内完成,ChatGPT在53秒内完成,两者结果都正确,但细节之处见真章。当我检查Deepseek - R1的思考过程时,它非常长,有一步一步的想象以及测试如何穿过迷宫。而ChatGPT的思考标记要短得多,并且从它的思考过程来看,省略了很多细节就得出结果,以至于无法用ChatGPT的思考标记来训练一个精简的思考模型。我有一些假设:OpenAI只提供思考标记的“摘要”版本;OpenAI有一个输出无意义思考标记的模型来阻止大家训练精简模型,这样他们就可以声称向社区提供了实际数据,但其实没有;他们没有“可读”的思考模型,只是“潜在”思考标记的近似值。鉴于OpenAI和ChatGPT的过往情况,我更倾向于前两种假设。这意味着你不能再精简OpenAI的模型了,他们是封闭的人工智能。ChatGPT和Deepseek - R1答案的完整日志可在(https://gist.github.com/tikikun/cf037180f402c5183662768045b59eed)找到,迷宫数据集可在(https://huggingface.co/datasets/jan - hq/Maze - Reasoning)找到。

讨论总结

原帖作者通过比较Deepseek - R1和ChatGPT解决迷宫问题时的思考过程,认为OpenAI在o3 - mini中隐藏了实际思维标记,导致不能用ChatGPT的思考标记来训练蒸馏模型,进而得出OpenAI是“Closed AI”的结论。评论者们从不同方面进行讨论,有认同OpenAI存在隐藏行为的,有对原帖观点表示质疑的,也有从技术角度对这种现象进行解释的,还有一些讨论延伸到ChatGPT存在的其他问题上,整体氛围热烈且观点多元。

主要观点

  1. 👍 OpenAI是“Closed AI”,存在隐藏思维标记的行为
    • 支持理由:ChatGPT的思考标记简短、省略很多细节,可能是总结版或无意义的,与Deepseek - R1对比明显,如原帖及nrkishere、Anthonyg5005等评论者观点。
    • 反对声音:OpenAI已表明思维链是摘要,原帖作者的调查没有必要;也有观点认为这是出于安全、竞争等合理原因,不应被过度指责。
  2. 🔥 ChatGPT存在很多问题,如思考过程不完整、响应准确性不稳定等
    • 正方观点:很多评论者指出ChatGPT存在废话、幻觉、错误引用、记忆丢失、在小众语言记忆测试失败等问题,像Wintermute5791、Kooky - Somewhere - 2883等评论者的观点。
    • 反方观点:较少,有观点认为原帖作者对ChatGPT思考标记的质疑存在误解,ChatGPT的思考部分是循环遍历答案后选择最合理的。
  3. 💡 OpenAI可能使用如ToT等技术手段来处理思考过程
    • 解释:Sarayel1提出OpenAI可能已经使用思维树(ToT)而非思维链(CoT),是对OpenAI行为的一种不同推测。

金句与有趣评论

  1. “😂 OpenAI is only providing "summarized" version of their thinking tokens.”
    • 亮点:直接指出OpenAI可能提供的是总结版思维标记,是原帖及部分评论者认同的OpenAI隐藏实际思维标记的一种体现。
  2. “🤔 I no longer even use chatgpt as it’s free quota is kind of bad for the models you get, but I’ll still read their news when they introduce new models”
    • 亮点:反映出评论者对ChatGPT的态度,虽然因免费配额问题不再使用,但仍关注其新模型动态。
  3. “👀 You can’t just distill openAI model anymore, so don’t assume everyone is distilling their model, THEY ARE CLOSED AI
    • 亮点:原帖的核心结论之一,强调OpenAI因隐藏思维标记而难以被蒸馏,被部分评论者所认同。

情感分析

总体情感倾向为负面为主,主要分歧点在于对OpenAI隐藏思维标记行为的看法,部分人认为这是不良行为,甚至因此称OpenAI为“scum”并取消订阅;部分人则认为这是出于安全、竞争等合理原因或者是一种正常的技术处理手段。可能的原因是大家从不同的立场(如用户、研究者、开发者等)和角度出发看待这一现象。

趋势与预测

  • 新兴话题:OpenAI宣布将暴露更多思考标记可能引发后续关于其思考标记真实性、对模型训练和使用影响等方面的讨论。
  • 潜在影响:如果OpenAI确实改变策略暴露更多思考标记,可能会对模型的训练、蒸馏以及与其他模型的竞争关系产生影响,也可能改变用户对OpenAI开放性的看法,进而影响其在人工智能领域的地位和市场份额等。

详细内容:

《关于 OpenAI 隐藏实际思考令牌的热门讨论》

在 Reddit 上,一则题为“OpenAI is hiding the actual thinking tokens in o3-mini”的帖子引起了广泛关注。该帖子指出,通过对“maze puzzle”这一问题在不同模型上的测试,发现 ChatGPT 的思考令牌与 Deepseek-R1 相比存在诸多差异。帖子作者还提供了相关数据集和完整日志的链接。此帖获得了大量的点赞和评论,引发了关于 OpenAI 模型是否隐藏真实思考过程以及其背后原因的热烈讨论。

讨论的焦点观点众多。有人认为 OpenAI 可能是在压缩思考令牌,或者是为了防止他人蒸馏模型而故意提供不实的思考令牌。还有人指出硬件能力差异可能影响了处理速度。

比如,有人表示“THEY ARE CLOSED AI”,认为 OpenAI 通过某种方式压缩了思考令牌。也有人提到,封闭 AI 一直阻止他人蒸馏模型。

有用户认为,ChatGPT 在处理复杂任务时存在诸多问题,如出现错误、幻觉、错误引用和记忆丢失等,其在基本嵌套和请求历史方面表现不佳。但也有人认为这是大型语言模型普遍存在的问题。

有人提到 OpenAI 隐藏思考过程可能是出于竞争优势或防止他人训练等原因。还有观点认为,ChatGPT 可能只是在总结思考过程,而非展示真实的思考步骤。

值得一提的是,一些有趣的观点也在讨论中出现,比如“Le chat go brrr”。

这场讨论凸显了人们对 OpenAI 模型透明度和可靠性的关注与质疑,也反映了在人工智能快速发展的当下,对于模型内部机制的探索和思考愈发深入和复杂。