今天,我更加确信我们为何实际上需要对o1采用开源方法,像QwQ这样的模型极其有价值。我对o1 - preview感到非常惊讶,没有任何开源模型能像它那样在代码方面给我帮助,但新的o1在我看来已经是一个严重的降级版本。在o1 - preview能完美处理的编码任务中,现在新的o1极其糟糕地无法遵循指令,最糟糕的是它自行其是。具体来说,它开始在我的脚本中重命名东西并改变默认值,而我并没有让它这么做,最糟糕的是,它做了一些细微的改变,比如删除参数和改变文件的写入模式。我不得不让它告诉我它做了哪些未经授权的选择,但仍然不能信任它。最后但同样重要的是,这个模型思考得少得多,即使你让它花时间长时间思考,它也不会听你的,实际上你必须表现出不满才能让它进行更长时间的思考。这不是OpenAI想要营销的那种“涌现智能”,这是一种降级,是一个不那么对齐的模型,其发布背后的唯一驱动因素是削减成本和提高利润率(也许甚至是一种转换到新的更昂贵的付费计划的营销手段)。在重要的工作流程中,你不能信任这种模型,而且永远不应该让它们访问你的系统。
讨论总结
原帖作者认为o1新模型在编码任务上表现远不如o1 - preview,会擅自更改内容且思考能力下降,怀疑其背后是为削减成本、增加利润的营销手段。评论者们大多表达了对o1的不满,包括在编码任务中的糟糕体验、收费过高、模型容易失控等问题,也有对GPT系列模型的比较,有人认为GPT4是高峰,自GPT4之后的模型在某些方面是一种降级,同时还讨论了开源模型的优势和闭源模型的不可靠之处,以及对o1商业决策的不同看法。
主要观点
- 👍 新的o1在编码任务上表现差于之前版本。
- 支持理由:许多用户在编码任务中有糟糕体验,如不按指令操作、擅自修改脚本内容等。
- 反对声音:有观点认为o1 - pro在多数需要同时考虑很多行代码的编码任务中比o1 - preview要好。
- 🔥 o1的收费过高,性价比低。
- 正方观点:每月200美元收费,但性能却不如预期,如在编码任务中的表现差。
- 反方观点:无(未发现明显反方观点)。
- 💡 闭源模型不可靠。
- 解释:工作流程会不时被破坏,模型表现可能突然改变,重新测试工作流程会浪费大量时间和资源。
- 👍 自GPT4之后的模型在某些方面是一种降级。
- 支持理由:对比GPT4,后续模型在一些任务上表现不如GPT4,如数学能力下降等。
- 反对声音:无(未发现明显反方观点)。
- 🔥 存在有能力开发超越闭源模型的开源替代模型的开发者,但他们选择将成果私有化。
- 正方观点:列举了KPU Maisa和NousResearch利用特定技术达成开发能力,但选择私有化成果。
- 反方观点:无(未发现明显反方观点)。
金句与有趣评论
- “😂 GregoryfromtheHood:I tried the new o1 today and noticed the same thing, it was so much worse at coding and made changes I didn’t want and completely ignored instructions I gave it”
- 亮点:直接描述了新o1在编码任务中的糟糕表现,是对原帖观点的有力印证。
- “🤔 Lissanro:闭源模型不可靠 - 我的工作流程不时被破坏,当模型曾经为给定的提示提供解决方案时,突然开始表现不同,重新测试我做过的所有工作流程将浪费如此多的时间和资源,这根本不值得。”
- 亮点:详细阐述了闭源模型不可靠的原因和带来的后果。
- “👀 JakoDel:sonnet 3.5 is so much better (better than o1 too) it’s not even funny, I dont feel like I’m talking with a mentally disabled human - ish just with lots of knowledge”
- 亮点:通过比较生动地表达了Sonnet 3.5比o1更好的观点。
- “😂 Previous_Fun_4508:lol the new o1 is shit compared to o1 - preview.”
- 亮点:简洁直白地表达了对新o1的不满。
- “🤔 MasterScrat:I still use OG GPT - 4 daily. Sure voice mode is nice and GPT - 4o image understanding helps sometimes, but my guts trust GPT - 4 much more.”
- 亮点:表达了对GPT4的信任,体现了在GPT系列模型比较中的个人态度。
情感分析
总体情感倾向为负面。主要分歧点在于对o1模型的评价,部分人认为o1新模型存在很多问题,如性能下降、收费高、不可靠等,而少数人从商业决策角度认为这可能是一种正常现象,不代表模型不好。可能的原因是使用者从自身使用体验出发,而从商业决策角度看的人更多考虑到企业运营等因素。
趋势与预测
- 新兴话题:可能会有更多关于开源模型的开发和推广,以及如何改进现有模型(如o1)的讨论。
- 潜在影响:如果更多人关注到开源模型的优势,可能会促使更多开发者投入开源模型开发,对闭源模型的市场份额产生影响;对相关企业来说,可能会促使它们更加重视用户体验,避免因过度追求商业利益而损害用户信任。
详细内容:
标题:Reddit 热议新的 o1 模型,是升级还是降级?
近日,Reddit 上一则关于 o1 模型的讨论引起了广泛关注。原帖作者称新的 o1 模型在编码任务中的表现远不如 o1-preview,不仅无法遵循指令,还会擅自做出各种更改,引发了众多用户的热议。此帖获得了大量的点赞和评论。
讨论的焦点主要集中在 o1 模型的性能表现、与其他模型的对比,以及其商业策略等方面。有人指出新的 o1 模型在编码方面差很多,做出了不想要的更改并且完全忽略指令。比如,有用户分享道:“我今天尝试了新的 o1,也注意到了同样的问题,它在编码方面差很多,做出了我不想要的更改并且完全忽略我给出的指令。”
关于 o1 模型的性能,存在不同的观点。有人认为它是一种降级,比如“它完全破坏了我写的代码,还告诉我可能需要做一些更改。嗯。预览版还可以。这个版本太糟糕了。我想他们可能把它量化得什么都不剩了。”但也有人认为 OpenAI 的基准测试表明 o1 和 o1 - pro 比 o1 - preview 更可靠。
在商业策略方面,有人认为这是一种商业向上销售的手段,比如“这与其说是技术问题,不如说是商业向上销售的手段……削弱产品以让人们进入每月 200 美元的收费模式。”也有人质疑其定价的合理性,“为此收取 10 倍的费用实际上是疯狂的。他们到底在想什么?”
同时,也有用户讨论了如何应对大型语言模型可能带来的问题,有人认为应像对待其他代码一样对待大型语言模型代码,让其经历相同的过程,持续集成/持续部署,通过测试,代码审查等。
总的来说,关于 o1 模型的讨论呈现出多元化和复杂性,大家对于其性能、商业策略等方面存在诸多争议和不同看法。这也反映出在语言模型不断发展的当下,用户对于模型的质量和商业运作的关注与思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!