原贴链接

大家好，昨天我发现，即使在ChatGPT界面上有当前的“思考”标签，你也无法获取实际的思考标记，也就是模型的思考过程。我是怎么知道的呢？通过在两个模型上运行一个关于“迷宫谜题”的简单提示。这个示例可以在我们公司构建的数据集中找到（https://huggingface.co/datasets/jan - hq/Maze - Reasoning）。提示是一个关于解决迷宫的问题。Deepseek - R1在483秒内完成，ChatGPT在53秒内完成，两者结果都正确，但细节之处见真章。当我检查Deepseek - R1的思考过程时，它非常长，有一步一步的想象以及测试如何穿过迷宫。而ChatGPT的思考标记要短得多，并且从它的思考过程来看，省略了很多细节就得出结果，以至于无法用ChatGPT的思考标记来训练一个精简的思考模型。我有一些假设：OpenAI只提供思考标记的“摘要”版本；OpenAI有一个输出无意义思考标记的模型来阻止大家训练精简模型，这样他们就可以声称向社区提供了实际数据，但其实没有；他们没有“可读”的思考模型，只是“潜在”思考标记的近似值。鉴于OpenAI和ChatGPT的过往情况，我更倾向于前两种假设。这意味着你不能再精简OpenAI的模型了，他们是封闭的人工智能。ChatGPT和Deepseek - R1答案的完整日志可在（https://gist.github.com/tikikun/cf037180f402c5183662768045b59eed）找到，迷宫数据集可在（https://huggingface.co/datasets/jan - hq/Maze - Reasoning）找到。

讨论总结

原帖作者通过比较Deepseek - R1和ChatGPT解决迷宫问题时的思考过程，认为OpenAI在o3 - mini中隐藏了实际思维标记，导致不能用ChatGPT的思考标记来训练蒸馏模型，进而得出OpenAI是“Closed AI”的结论。评论者们从不同方面进行讨论，有认同OpenAI存在隐藏行为的，有对原帖观点表示质疑的，也有从技术角度对这种现象进行解释的，还有一些讨论延伸到ChatGPT存在的其他问题上，整体氛围热烈且观点多元。

主要观点

👍 OpenAI是“Closed AI”，存在隐藏思维标记的行为
- 支持理由：ChatGPT的思考标记简短、省略很多细节，可能是总结版或无意义的，与Deepseek - R1对比明显，如原帖及nrkishere、Anthonyg5005等评论者观点。
- 反对声音：OpenAI已表明思维链是摘要，原帖作者的调查没有必要；也有观点认为这是出于安全、竞争等合理原因，不应被过度指责。
🔥 ChatGPT存在很多问题，如思考过程不完整、响应准确性不稳定等
- 正方观点：很多评论者指出ChatGPT存在废话、幻觉、错误引用、记忆丢失、在小众语言记忆测试失败等问题，像Wintermute5791、Kooky - Somewhere - 2883等评论者的观点。
- 反方观点：较少，有观点认为原帖作者对ChatGPT思考标记的质疑存在误解，ChatGPT的思考部分是循环遍历答案后选择最合理的。
💡 OpenAI可能使用如ToT等技术手段来处理思考过程
- 解释：Sarayel1提出OpenAI可能已经使用思维树（ToT）而非思维链（CoT），是对OpenAI行为的一种不同推测。

金句与有趣评论

“😂 OpenAI is only providing "summarized" version of their thinking tokens.”
- 亮点：直接指出OpenAI可能提供的是总结版思维标记，是原帖及部分评论者认同的OpenAI隐藏实际思维标记的一种体现。
“🤔 I no longer even use chatgpt as it’s free quota is kind of bad for the models you get, but I’ll still read their news when they introduce new models”
- 亮点：反映出评论者对ChatGPT的态度，虽然因免费配额问题不再使用，但仍关注其新模型动态。
“👀 You can’t just distill openAI model anymore, so don’t assume everyone is distilling their model, THEY ARE CLOSED AI”
- 亮点：原帖的核心结论之一，强调OpenAI因隐藏思维标记而难以被蒸馏，被部分评论者所认同。

情感分析

总体情感倾向为负面为主，主要分歧点在于对OpenAI隐藏思维标记行为的看法，部分人认为这是不良行为，甚至因此称OpenAI为“scum”并取消订阅；部分人则认为这是出于安全、竞争等合理原因或者是一种正常的技术处理手段。可能的原因是大家从不同的立场（如用户、研究者、开发者等）和角度出发看待这一现象。

趋势与预测

新兴话题：OpenAI宣布将暴露更多思考标记可能引发后续关于其思考标记真实性、对模型训练和使用影响等方面的讨论。
潜在影响：如果OpenAI确实改变策略暴露更多思考标记，可能会对模型的训练、蒸馏以及与其他模型的竞争关系产生影响，也可能改变用户对OpenAI开放性的看法，进而影响其在人工智能领域的地位和市场份额等。

详细内容：

《关于 OpenAI 隐藏实际思考令牌的热门讨论》

在 Reddit 上，一则题为“OpenAI is hiding the actual thinking tokens in o3-mini”的帖子引起了广泛关注。该帖子指出，通过对“maze puzzle”这一问题在不同模型上的测试，发现 ChatGPT 的思考令牌与 Deepseek-R1 相比存在诸多差异。帖子作者还提供了相关数据集和完整日志的链接。此帖获得了大量的点赞和评论，引发了关于 OpenAI 模型是否隐藏真实思考过程以及其背后原因的热烈讨论。

讨论的焦点观点众多。有人认为 OpenAI 可能是在压缩思考令牌，或者是为了防止他人蒸馏模型而故意提供不实的思考令牌。还有人指出硬件能力差异可能影响了处理速度。

比如，有人表示“THEY ARE CLOSED AI”，认为 OpenAI 通过某种方式压缩了思考令牌。也有人提到，封闭 AI 一直阻止他人蒸馏模型。

有用户认为，ChatGPT 在处理复杂任务时存在诸多问题，如出现错误、幻觉、错误引用和记忆丢失等，其在基本嵌套和请求历史方面表现不佳。但也有人认为这是大型语言模型普遍存在的问题。

有人提到 OpenAI 隐藏思考过程可能是出于竞争优势或防止他人训练等原因。还有观点认为，ChatGPT 可能只是在总结思考过程，而非展示真实的思考步骤。

值得一提的是，一些有趣的观点也在讨论中出现，比如“Le chat go brrr”。

这场讨论凸显了人们对 OpenAI 模型透明度和可靠性的关注与质疑，也反映了在人工智能快速发展的当下，对于模型内部机制的探索和思考愈发深入和复杂。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#