为了计算R1与o1的有效成本,我们需要知道两件事:1. 每个模型每百万输出标记的成本;2. 每个模型平均每次思维链(Chain - of - Thought)产生多少标记。你可能会想:等等,我们看不到o1的思维链,因为OpenAI隐藏了它,对吗?虽然OpenAI在通过ChatGPT和API使用o1时确实隐藏了内部思维链,但他们在o1 - preview的最初公告中透露了完整的非总结性思维链(来源:https://openai.com/index/learning - to - reason - with - llms/)。后来,当o1 - 2024 - 1217在12月发布时,OpenAI表示,对于给定请求,o1比o1 - preview平均少使用60%的推理标记(来源:https://openai.com/index/o1 - and - new - tools - for - developers/)。因此,我们可以通过将o1 - preview的标记平均值乘以0.4来计算o1的平均值。OpenAI向我们展示的每个示例的思维链字符数如下,以及下面R1的相同问题:o1 - [(16577+4475+20248+12276+2930+3397+2265+3542)*0.4]/8 = 3285.5个字符/思维链。R1 - (14777+14911+54837+35459+7795+24143+7361+4115)/8 = 20424.75个字符/思维链。20424.75/3285.5≈6.22。根据官方示例平均值,R1平均产生的推理标记比o1多6.22倍。R1每百万输出标记成本为2.19美元,o1每百万输出标记成本为60美元。60/2.19≈27.4。o1的每标记价格是R1的27.4倍,但产生的标记少6.22倍。27.4/6.22≈4.41。因此,实际上R1仅比o1便宜4.41倍(注意假设):如果o1产生的字符少x个,那么它的标记也大约少x个。这个假设是合理的,然而,精确的值可能会略有不同,但不应有明显影响。这只是API讨论,如果你通过网站或应用程序使用R1,它是无限便宜的,因为它是免费的,而o1是每月20美元。
讨论总结
原帖计算了R1和o1的有效成本,认为在实践中R1仅比o1便宜4.41倍。但评论者们从多个角度提出质疑,包括原帖计算的假设过多、与实际测试结果不符、计算方式不可靠等,也有评论者从用户角度提出比较成本的方式应有所不同,同时还有对R1发展潜力等的讨论,整体氛围以质疑和反对原帖计算为主。
主要观点
- 🔥 原帖在计算成本时存在很多假设
- 支持理由:原帖在计算过程中对一些数据进行了假设,如通过o1 - preview的token平均值乘以0.4来计算o1的平均值等。
- 反对声音:无
- 👍 原帖中R1生成6.22倍于o1的推理令牌数量与实际测试结果不符
- 支持理由:评论者通过自身测试发现R1产生的思维令牌仅比o1多约44%。
- 反对声音:原帖未进行反驳。
- 💡 原帖比较R1和o1有效成本的方式有偏差
- 支持理由:应比较每个任务的总价格,按思维链的代币数量比较太抽象。
- 反对声音:有人认为大部分任务价格是思维链代币,但原帖未明确反驳。
- 💡 原帖关于R1和o1有效成本的计算是非常错误的
- 支持理由:虽未详细说明但直接表明原帖计算结果错误。
- 反对声音:无
- 💡 比较推理模型token成本需分析CoT推理效率
- 支持理由:测试时的计算范式改变token成本含义,很多输出token是CoT token对终端用户价值不大却仍被定价。
- 反对声音:无
金句与有趣评论
- “😂 OpenAI keeps updating their models.”
- 亮点:指出OpenAI模型处于不断更新状态,暗示原帖计算可能因模型更新而不准确。
- “🤔 R1 does not generate 6.22x more reasoning tokens, not even remotely close to that in my testing.”
- 亮点:直接用测试结果反驳原帖的关键数据。
- “👀 Biased, you should compare total price per task. Imho tokens per CoT so abstract.”
- 亮点:从新的比较角度对原帖提出质疑。
- “😉 Thats interesting about the number of characters for Chain of Thought.”
- 亮点:对R1和o1的思维链字符数表示关注并认为有趣。
- “💥 这一计算非常离谱 :D”
- 亮点:简洁有力地表达对原帖计算结果的否定态度。
情感分析
总体情感倾向为质疑和反对原帖计算结果。主要分歧点在于原帖的计算假设、计算方式以及比较成本的方式。可能的原因是原帖的计算过程不够严谨,没有考虑到实际测试结果、用户角度以及模型的一些隐藏因素等。
趋势与预测
- 新兴话题:R1未来的发展潜力以及如何更准确地比较不同模型的成本。
- 潜在影响:如果能更准确地比较成本,可能会影响用户对R1和o1的选择,进而影响这两个模型在市场中的竞争态势。
详细内容:
《关于 R1 与 o1 有效成本计算的热门讨论》
在 Reddit 上,一则关于计算 R1 与 o1 有效成本的帖子引发了广泛关注,获得了众多点赞和大量评论。原帖详细阐述了计算两种模型有效成本的方法和依据。
帖子指出,为计算成本,需了解每个模型每百万输出令牌的费用以及平均每个思维链生成的令牌数量。虽然 OpenAI 隐藏了 o1 的思维链,但通过其初始公告等仍能获取相关信息并进行推算。最终得出在实践中 R1 仅比 o1 便宜 4.41 倍的结论。
讨论的焦点集中在对这一计算结果的不同看法。有人认为原作者做了太多假设,应通过实际的 API 查询来确定最终成本。比如,有用户分享了自己详尽的测试结果,指出 R1 产生的思维令牌比 o1 多,但只多了约 44%。还有用户表示,原计算基于的示例有限,不能代表真实使用情况。也有人质疑 OpenAI 数据的真实性和透明度。
有用户提供了相关测试链接,并指出在其测试中 o1 与 R1 的成本差异实际达到 21.7 倍。还有人认为应比较每个任务的总价格,令牌数太过抽象,而对于终端用户来说,时间和成本以及准确性更重要。
但也有观点认为,R1 的思维链效率不如 o1,不过未来可能会改进和变得更便宜。甚至有人好奇如果让 R1 思考更长时间,是否会变得更智能。
这场讨论凸显了在评估模型成本时的复杂性和不确定性,以及对 OpenAI 数据透明度的关注。那么,到底哪种模型在实际应用中更具性价比?这还需要更多实际测试和深入分析来给出确切答案。
感谢您的耐心阅读!来选个表情,或者留个评论吧!