原贴链接

我发送了超过30条消息,我不确定何时会达到限制,但我没有遇到任何限制消息。

当Mistral Large发布时,它不仅为我制作了一个OpenFOAM中的气泡模拟,还向我解释了如何启动和运行OpenFOAM,你可以在这里阅读日志文件:

https://github.com/RandomInternetPreson/AI_Experiments

这不是最好看的模拟,但它可以编译并运行。

o1-preview未能生成能够成功编译的代码,它几乎接近成功,但当我最终到达可以运行模拟的点时,它会在几个时间步后崩溃。

我相信o1-preview(以及官方的o1)模型在某些方面会比其他方面更出色,但本地的Mistral Large对我来说更好(运行在一个大型多GPU系统上)。

此外,chatgpt网站非常不稳定,我需要频繁重新生成响应,因为模型会在思考阶段后停止响应,或在思考阶段中途停止。

有点失望,我真的很兴奋这个模型几乎第一次就能成功,当我开始失去计算需要它解决错误的次数时,我开始意识到我只是在浪费时间在这个努力上。

*编辑:我还想补充一点,我认为这对o1来说是一个很好的推理测试。对于那些不知道OpenFOAM如何工作的人来说,它需要多个文件夹和每个文件夹中的多个文件,这些文件都是相互连接的,模型需要跟踪许多移动的部分,并使用科学和物理知识来生成正确的指标。

讨论总结

本次讨论主要集中在 o1-preview 和 Mistral-Large-Instruct-2407 两个模型在处理复杂任务和代码生成方面的表现。大多数评论者认为 o1-preview 在处理需要深入推理和科学知识的任务时表现不佳,尤其是在生成可编译和运行的代码方面。相比之下,Mistral-Large-Instruct-2407 在本地运行时表现出色,能够成功生成并运行 OpenFOAM 模拟代码。此外,评论者还提到了 o1-preview 的界面存在稳定性问题,导致用户需要频繁重新生成响应。总体而言,讨论中普遍认为 o1-preview 需要更多的独立评估和改进,以提升其在复杂任务中的表现。

主要观点

  1. 👍 o1-preview 在处理复杂任务时表现不如 Mistral-Large-Instruct-2407

    • 支持理由:Mistral-Large-Instruct-2407 能够成功生成并运行 OpenFOAM 模拟代码,而 o1-preview 未能成功编译代码。
    • 反对声音:部分评论者认为 o1-preview 在某些方面仍有潜力,但目前的表现不如预期。
  2. 🔥 o1-preview 的界面存在稳定性问题

    • 正方观点:用户在使用 ChatGPT 网站时频繁遇到错误和响应中断,影响了使用体验。
    • 反方观点:无明确反对声音,但有评论者建议通过 API 使用 o1mini 模型以获得更好的性能。
  3. 💡 o1-preview 需要更多的独立评估和改进

    • 支持理由:评论者认为 o1-preview 可能是 GPT-4 的某种变体,但具体机制不明,需要更多的独立评估。
    • 反对声音:无明确反对声音,但有评论者建议尝试 o1-mini 版本以获得更好的性能。
  4. 🚀 Mistral-Large-Instruct-2407 在本地运行时表现出色

    • 支持理由:评论者提到 Mistral-Large-Instruct-2407 能够成功生成并运行 OpenFOAM 模拟代码,且在本地运行时表现优于 o1-preview。
    • 反对声音:无明确反对声音,但有评论者认为 o1-preview 在某些方面可能表现更优。
  5. 💰 o1-preview 的定价过高

    • 支持理由:评论者指出每 25k 提示词需要 1.5 美元,且提示词通常较长,进一步增加了使用成本。
    • 反对声音:无明确反对声音,但有评论者认为 o1-mini 版本在当前情况下表现更佳。

金句与有趣评论

  1. “😂 I think that this model, o1, needs desperately to be evaluated in lmsys by people and something with independent benchmarks done by independent companies.

    • 亮点:强调了 o1-preview 需要更多的独立评估和改进。
  2. “🤔 When I was using o1 I was wondering if maybe it was gpt4 in a trenchcoat?

    • 亮点:幽默地表达了评论者对 o1-preview 模型机制的疑惑。
  3. “👀 Mistral Large on Le Chat owns it. I wish I could run that fucker locally. Could probably delete 98% of my models.

    • 亮点:表达了对 Mistral-Large-Instruct-2407 在本地运行时的期待和喜爱。
  4. “😅 LLMs are good for basic boilerplate stuff and for general code completetion but as soon as you want to deviate and do something a bit more complex or custom it is just not good enough, not even good enough to replace an intern.

    • 亮点:幽默地指出了 o1-preview 在处理复杂或定制化任务时的不足。
  5. “💸 O1 is a scam. Fight me.

    • 亮点:强烈表达了评论者对 o1-preview 定价过高的不满。

情感分析

讨论的总体情感倾向较为负面,主要集中在对 o1-preview 模型表现的不满和失望。评论者普遍认为 o1-preview 在处理复杂任务时表现不佳,且界面存在稳定性问题,影响了用户体验。此外,部分评论者对 o1-preview 的定价表示强烈不满,认为其定价过高。相比之下,评论者对 Mistral-Large-Instruct-2407 在本地运行时的表现给予了较高的评价。

趋势与预测

  • 新兴话题:o1-mini 模型的表现和使用体验可能会成为后续讨论的焦点。
  • 潜在影响:随着更多用户尝试 o1-mini 模型,可能会对其性能和适用场景进行更深入的探讨,进而影响模型选择和使用策略。

详细内容:

标题:关于 o1-preview 与 Mistral-Large-Instruct-2407 的热门讨论

近日,Reddit 上一篇题为“Two hours with the o1-preview could not do what Mistral-Large-Instruct-2407 could do for me running locally :(“的帖子引发了广泛关注。该帖获得了众多的点赞和评论。帖子的作者表示,在进行相关操作时,尽管向 o1-preview 发送了超 30 条消息且未收到任何限制提示,但 o1-preview 未能成功生成可编译运行的代码,而 Mistral-Large-Instruct-2407 不仅能为其在 OpenFOAM 中创建模拟,还能解释如何运行 OpenFOAM,相关日志文件可在https://github.com/RandomInternetPreson/AI_Experiments查看。作者认为 o1-preview 在这方面的表现不如在大型多 GPU 系统上本地运行的 Mistral-Large-Instruct-2407。

讨论焦点主要集中在对 o1-preview 与 Mistral-Large-Instruct-2407 的性能评价以及对 OpenAI 相关模型的看法。有人认为 o1 模型急需被评估,且不是唯一对此有看法的人。有人质疑 o1-preview 是不是 GPT4 的伪装。对于思考时间长的问题,有人认为这是在推测,认为更长时间会产生更好的答案。还有人指出 o1 使用链思维推理,但 OpenAI 因担心被用于训练数据而未将其向用户展示,这也是令牌使用量小的部分原因。

有人表示 o1-preview 在推理任务上表现更好,但回复不够漂亮。也有人称 o1 preview 不适合用于代码编写,o1 mini 才是。还有人分享了运行 Mistral-Large-Instruct-2407 所需的 VRAM 情况。有人认为 LLMs 只适合基础模板和一般代码补全,对于复杂或定制的任务表现不佳。有人觉得 o1-preview 可能是个很旧的模型,o1-mini 更优。有人称赞 Mistral-Large-Instruct-2407,也有人认为 o1 是骗局。

这场讨论反映了大家对不同模型的性能和应用场景的深入思考,以及对 OpenAI 产品的期待与质疑。究竟哪种模型更适合特定需求,还有待进一步的实践和评估。