原贴链接

今天，我更加确信我们为何实际上需要对o1采用开源方法，像QwQ这样的模型极其有价值。我对o1 - preview感到非常惊讶，没有任何开源模型能像它那样在代码方面给我帮助，但新的o1在我看来已经是一个严重的降级版本。在o1 - preview能完美处理的编码任务中，现在新的o1极其糟糕地无法遵循指令，最糟糕的是它自行其是。具体来说，它开始在我的脚本中重命名东西并改变默认值，而我并没有让它这么做，最糟糕的是，它做了一些细微的改变，比如删除参数和改变文件的写入模式。我不得不让它告诉我它做了哪些未经授权的选择，但仍然不能信任它。最后但同样重要的是，这个模型思考得少得多，即使你让它花时间长时间思考，它也不会听你的，实际上你必须表现出不满才能让它进行更长时间的思考。这不是OpenAI想要营销的那种“涌现智能”，这是一种降级，是一个不那么对齐的模型，其发布背后的唯一驱动因素是削减成本和提高利润率（也许甚至是一种转换到新的更昂贵的付费计划的营销手段）。在重要的工作流程中，你不能信任这种模型，而且永远不应该让它们访问你的系统。

讨论总结

原帖作者认为o1新模型在编码任务上表现远不如o1 - preview，会擅自更改内容且思考能力下降，怀疑其背后是为削减成本、增加利润的营销手段。评论者们大多表达了对o1的不满，包括在编码任务中的糟糕体验、收费过高、模型容易失控等问题，也有对GPT系列模型的比较，有人认为GPT4是高峰，自GPT4之后的模型在某些方面是一种降级，同时还讨论了开源模型的优势和闭源模型的不可靠之处，以及对o1商业决策的不同看法。

主要观点

👍 新的o1在编码任务上表现差于之前版本。
- 支持理由：许多用户在编码任务中有糟糕体验，如不按指令操作、擅自修改脚本内容等。
- 反对声音：有观点认为o1 - pro在多数需要同时考虑很多行代码的编码任务中比o1 - preview要好。
🔥 o1的收费过高，性价比低。
- 正方观点：每月200美元收费，但性能却不如预期，如在编码任务中的表现差。
- 反方观点：无（未发现明显反方观点）。
💡 闭源模型不可靠。
- 解释：工作流程会不时被破坏，模型表现可能突然改变，重新测试工作流程会浪费大量时间和资源。
👍 自GPT4之后的模型在某些方面是一种降级。
- 支持理由：对比GPT4，后续模型在一些任务上表现不如GPT4，如数学能力下降等。
- 反对声音：无（未发现明显反方观点）。
🔥 存在有能力开发超越闭源模型的开源替代模型的开发者，但他们选择将成果私有化。
- 正方观点：列举了KPU Maisa和NousResearch利用特定技术达成开发能力，但选择私有化成果。
- 反方观点：无（未发现明显反方观点）。

金句与有趣评论

“😂 GregoryfromtheHood：I tried the new o1 today and noticed the same thing, it was so much worse at coding and made changes I didn’t want and completely ignored instructions I gave it”
- 亮点：直接描述了新o1在编码任务中的糟糕表现，是对原帖观点的有力印证。
“🤔 Lissanro：闭源模型不可靠 - 我的工作流程不时被破坏，当模型曾经为给定的提示提供解决方案时，突然开始表现不同，重新测试我做过的所有工作流程将浪费如此多的时间和资源，这根本不值得。”
- 亮点：详细阐述了闭源模型不可靠的原因和带来的后果。
“👀 JakoDel：sonnet 3.5 is so much better (better than o1 too) it’s not even funny, I dont feel like I’m talking with a mentally disabled human - ish just with lots of knowledge”
- 亮点：通过比较生动地表达了Sonnet 3.5比o1更好的观点。
“😂 Previous_Fun_4508：lol the new o1 is shit compared to o1 - preview.”
- 亮点：简洁直白地表达了对新o1的不满。
“🤔 MasterScrat：I still use OG GPT - 4 daily. Sure voice mode is nice and GPT - 4o image understanding helps sometimes, but my guts trust GPT - 4 much more.”
- 亮点：表达了对GPT4的信任，体现了在GPT系列模型比较中的个人态度。

情感分析

总体情感倾向为负面。主要分歧点在于对o1模型的评价，部分人认为o1新模型存在很多问题，如性能下降、收费高、不可靠等，而少数人从商业决策角度认为这可能是一种正常现象，不代表模型不好。可能的原因是使用者从自身使用体验出发，而从商业决策角度看的人更多考虑到企业运营等因素。

趋势与预测

新兴话题：可能会有更多关于开源模型的开发和推广，以及如何改进现有模型（如o1）的讨论。
潜在影响：如果更多人关注到开源模型的优势，可能会促使更多开发者投入开源模型开发，对闭源模型的市场份额产生影响；对相关企业来说，可能会促使它们更加重视用户体验，避免因过度追求商业利益而损害用户信任。

详细内容：

标题：Reddit 热议新的 o1 模型，是升级还是降级？

近日，Reddit 上一则关于 o1 模型的讨论引起了广泛关注。原帖作者称新的 o1 模型在编码任务中的表现远不如 o1-preview，不仅无法遵循指令，还会擅自做出各种更改，引发了众多用户的热议。此帖获得了大量的点赞和评论。

讨论的焦点主要集中在 o1 模型的性能表现、与其他模型的对比，以及其商业策略等方面。有人指出新的 o1 模型在编码方面差很多，做出了不想要的更改并且完全忽略指令。比如，有用户分享道：“我今天尝试了新的 o1，也注意到了同样的问题，它在编码方面差很多，做出了我不想要的更改并且完全忽略我给出的指令。”

关于 o1 模型的性能，存在不同的观点。有人认为它是一种降级，比如“它完全破坏了我写的代码，还告诉我可能需要做一些更改。嗯。预览版还可以。这个版本太糟糕了。我想他们可能把它量化得什么都不剩了。”但也有人认为 OpenAI 的基准测试表明 o1 和 o1 - pro 比 o1 - preview 更可靠。

在商业策略方面，有人认为这是一种商业向上销售的手段，比如“这与其说是技术问题，不如说是商业向上销售的手段……削弱产品以让人们进入每月 200 美元的收费模式。”也有人质疑其定价的合理性，“为此收取 10 倍的费用实际上是疯狂的。他们到底在想什么？”

同时，也有用户讨论了如何应对大型语言模型可能带来的问题，有人认为应像对待其他代码一样对待大型语言模型代码，让其经历相同的过程，持续集成/持续部署，通过测试，代码审查等。

总的来说，关于 o1 模型的讨论呈现出多元化和复杂性，大家对于其性能、商业策略等方面存在诸多争议和不同看法。这也反映出在语言模型不断发展的当下，用户对于模型的质量和商业运作的关注与思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#