原贴链接

讨论总结

这个讨论围绕多种主题展开,如模型相关(Gemini模型、Intern系列模型的性能及测试情况)、编码的基准测试情况、o3发布及其价格合理性等,还有一些其他方面如对未明确事物重量释放的疑问以及一些难以理解确切含义的简短回应。参与者积极分享观点,整体氛围比较活跃,大家从不同角度提出看法、疑惑或者猜测。

主要观点

  1. 👍 不针对Gemini模型进行测试是可疑的。
    • 支持理由:无(未在摘要中提及)
    • 反对声音:无(未在摘要中提及)
  2. 🔥 Gemini模型有最好的视觉能力。
    • 正方观点:无(未在摘要中提及)
    • 反方观点:无(未在摘要中提及)
  3. 💡 测试遗漏了InternVL2.5 - 78B,其在MMMU val上表现与当前版本相当。
    • 支持理由:数据表明在MMMU val上得分相近
    • 反对声音:无(未在摘要中提及)
  4. 💡 InternLM和VL性能不错。
    • 支持理由:在测试中有较好表现
    • 反对声音:无(未在摘要中提及)
  5. 💡 o3价格方面,低计算量每次提示20美元、高计算量每次3000美元。
    • 支持理由:有人提及此价格
    • 反对声音:无(未在摘要中提及)

金句与有趣评论

  1. “😂 Mr - Barack - Obama: Not testing it against the recent gemini model, let alone any gemini model is sus.”
    • 亮点:直接指出未对Gemini模型测试的可疑之处,简洁明了。
  2. “🤔 Many_SuchCases: They also left out InternVL2.5 - 78B, which scores 70.1 on MMMU val, putting it practically on par with this release when it comes to MMMU val.”
    • 亮点:提供了关于测试遗漏模型及该模型在MMMU val上表现的数据信息。
  3. “👀 Mr - Barack - Obama: it’s $20 per prompt for the low compute one and 3K per prompt for the high compute one.”
    • 亮点:明确给出了o3不同计算量下的价格信息。

情感分析

总体情感倾向比较积极正向,大家更多是在理性探讨各个话题,如模型的测试、性能以及o3的价格等。主要分歧点可能在于对o3价格模式是否合理,一方认为定价模式不合理因为多数人不擅长编写提示语容易浪费钱,另一方未在摘要中有明显反驳。可能的原因是不同用户从不同角度看待这个价格,有的从用户使用成本角度,有的可能从产品价值角度。

趋势与预测

  • 新兴话题:关于o3价格是否会下降可能会引发后续讨论。
  • 潜在影响:如果o3价格下降,可能会对其用户群体的扩大或者相关市场竞争产生影响。

详细内容:

标题:关于某模型的热门讨论引发众多争议

最近,Reddit 上一个关于某模型的帖子引发了广泛关注。帖子中包含一张图片,但因连接错误无法显示(图片链接:https://i.redd.it/tvux5av5cu8e1.jpeg)。该帖子获得了大量的点赞和众多评论,主要讨论方向包括模型与其他竞品的对比、模型在不同领域的表现、价格以及权重是否发布等问题。

在讨论中,有人指出不测试该模型与近期的 Gemini 模型,甚至任何 Gemini 模型都是可疑的,因为 Gemini 以拥有出色的见解和观点而闻名。还有用户分享道:“他们还遗漏了 InternVL2.5-78B,其在 MMMU val 上的得分是 70.1,实际上在 MMMU val 方面与本次发布的模型相当。”有人提到:“InternLM 和 VL 太疯狂了……我刚设法在 2 个 A770 GPU 上运行 LM 2.5 20B,通过一些指导,它的表现与 4o 相当,甚至无需任何 CoT(至少对于我的应用来说)。老实说,我一直在测试 40B 领域内的所有东西,Interns 相当令人印象深刻!VL 为本地机构开启了全新的可能性领域。”

对于模型在编码方面的表现,有人好奇它与 o1 和 sonnet 相比如何。有人认为可能是参数更多,也有人猜测是数据集质量更好。

关于价格,有人说:“低计算的每个提示为 20 美元,高计算的每个提示为 3000 美元。如果你有那么多钱,私信我,雇我当你的管家仆人吧。”还有人认为这种定价模式毫无道理,大多数人不擅长写提示,如果写错,就浪费了 20 到 100 美元。但也有人觉得价格最终会下降。

对于模型是否发布权重,也有人提出疑问。

这场讨论反映出大家对该模型的关注和期待,同时也存在着诸多的争议和疑问。究竟该模型在各方面的表现如何,价格是否合理,权重是否发布,还需要更多的信息和时间来验证。