原贴链接

将Mistral Small 24B与之前的Mistral Small 22B进行比较时你有什么体验?新模型在哪些任务上表现更好,在哪些任务上表现更差?我已经使用之前的Mistral Small 22B进行基于长场景的角色扮演好几个月了。虽然它有“GPT - 式”的问题,但它仍然具有Mistral模型的优势,即更严格地遵循场景并且相当务实。我在它和Mixtral 8x7B之间切换,它们都是最稳定的中等规模模型。我听到新的Mistral Small 24B时非常兴奋,并且多次让它通过我非常主观的“测试套件”。令人不快的是,它似乎有更多的“GPT - 式”问题,而且更经常陷入重复循环。但更糟糕的是,有几次它在遵循一个非常简单的指令时卡住了,而这个指令在旧的Mistral Small和我测试的所有其他模型上都运行良好。基本上,我有一个多角色前端,带有动态场景加载,每个场景末尾都有[Write eofscene]。系统提示也有当场景完成时,角色的消息必须以确切的单词eofscene结尾。新的Mistral有几次在这一点上卡住了。它肯定能够推断出已经到达场景的末尾,因为它一直在唠叨它已经为下一阶段做好了准备,甚至还打印出了Scene is complete。但就是没有eofscene。我修改了场景指令为[Write eofscene][Say eofscene][Output eofscene]eofscene,重新生成最后一条消息十几次,然后它终于不再卡住了。我在本地和OpenRouter上都试过了,也调整了温度,但没什么太大帮助。现在当我有自己的前端,可以按照自己的意愿对输出进行可视化格式化时,我可以使用Gemma 27B,它在使用Backyard AI时有格式化问题。在我处理了Gemma 27B的格式化怪癖之后,对于我的使用场景来说,它甚至可能比Mistral 22B更好。我期待着新的谷歌模型,但我担心他们新的“Gemma升级”可能会像Mistral Small一样令人失望。但愿不会。并且也在存钱买一个更好的推理机器,不管是英特尔的24GB GPU、价格合理的4090或3090,还是其他完全不同的东西。

讨论总结

原帖围绕Mistral Small 24B与22B对比,阐述24B存在诸如更多GPT - isms、易陷入重复循环、卡在简单指令等问题。评论者们从不同角度对Mistral Small 24B进行分析,包括模型是否未完全训练就发布、在不同用途下的表现、与其他模型的比较、温度设置对其表现的影响等多方面内容,整体讨论氛围理性且注重对模型的性能剖析。

主要观点

  1. 👍 Mistral Small 24B可能是未完全训练就发布的早期检查点。
    • 支持理由:评论者Everlier认为其基础有潜力,因快速指令训练而过度优化。
    • 反对声音:无。
  2. 🔥 24B是STEM模型,比Qwens更偏向STEM,不太适合创意用途。
    • 正方观点:以写童话首字母不大写等语法错误为例说明。
    • 反方观点:有评论者认为在创意写作方面没太多不好之处。
  3. 💡 官方推荐Mistral Small的温度设置为0到0.3且在这个区间表现较好。
    • 支持理由:评论者根据自身经验得出。
    • 反对声音:无。
  4. 💡 Mistral Small 3可能不适合原帖作者的使用场景。
    • 支持理由:原帖作者遇到的问题可能与使用场景有关。
    • 反对声音:无。
  5. 💡 原帖作者可能未按Mistral Small 24B设计目的进行测试。
    • 支持理由:原帖未涉及代理工作流、函数调用等基准测试。
    • 反对声音:无。

金句与有趣评论

  1. “😂 I think v3 is a very early checkpoint released before the full training is completed.”
    • 亮点:提出Mistral Small 24B可能未完全训练就发布的独特观点。
  2. “🤔 24B is a STEM model, even more than Qwens.”
    • 亮点:明确指出24B模型在STEM属性上的特点。
  3. “👀 3 can make sense of very long context mixed with RAG, web results, etc. and it can code surprisingly well (you can even use it via Cline in VS Code).”
    • 亮点:阐述Mistral Small 3在长文本和编码方面的能力。
  4. “😉 It doesn’t sound like you’re using it for its designed purpose in your benchmarks.”
    • 亮点:对原帖测试方式提出质疑。
  5. “🤓 I usually find every Mistral model will reasonably conform to my style requirements, even the 24B.”
    • 亮点:表明24B也能符合自己风格要求的不同看法。

情感分析

总体情感倾向为中性偏负面。主要分歧点在于Mistral Small 24B的性能表现,有的评论者认为它存在很多问题,如容易陷入重复循环、在创意用途表现差等;而有的评论者则认为它在合适的条件下(如低温度、按照设计目的测试等)表现不错。可能的原因是大家使用的场景、测试方式以及对模型的期望不同。

趋势与预测

  • 新兴话题:对Mistral Small 24B进行重新训练或微调的可能性。
  • 潜在影响:如果Mistral Small 24B确实存在未完全训练就发布等问题,可能影响用户对MistralAI的信任度,也会影响该模型在市场上的推广和应用。

详细内容:

《关于 Mistral Small 24B 的热门讨论》

在 Reddit 上,一篇关于“Mistral Small 24B”的帖子引发了众多关注。该帖主要探讨了将新的 Mistral Small 24B 与之前的 Mistral Small 22B 进行比较的体验,包括它们在不同任务中的表现优劣。此帖获得了大量的点赞和众多的评论。

帖子中,作者表示自己使用 Mistral Small 22B 进行长场景角色扮演已有数月,认为其虽有“GPT 式问题”,但遵循场景和务实方面表现不错。对新的 Mistral Small 24B 满怀期待,却在测试中发现它“GPT 式问题”更多,还易陷入重复循环,甚至有时无法完成简单指令。

讨论焦点主要集中在对 Mistral Small 24B 的评价上。有人认为 v3 是在完整训练未完成前过早发布的检查点,训练仓促导致当前版本问题较多,期待后续改进版本。也有人指出不仅 24B 表现不佳,Large 版本也被搞砸。还有人表示 24B 是 STEM 模型,对于非 STEM 用途,Nemo 是最佳选择,22B 也还可以。

有人分享道:“我是(曾经是)Nemo 的粉丝,在发现 Mistral Small 3 之前。3 给我留下了深刻印象,我甚至重新尝试了 2 以确认是否错过什么。我认为问题在于 3 可能不适合您的使用场景。”有人认为 24B 需要适当的微调或重新训练。也有人提到降低温度能让 24B 偶尔表现不错,但难度较大。还有人表示自己在系统提示和推理提示方面非常具体、详细和有控制,因此很少遇到常见问题,在创意写作方面,24B 甚至比 22B 更具创造力。

在这场讨论中,对于 Mistral Small 24B 的评价存在分歧,有人对其失望,有人认为其在某些方面表现出色。这也反映出不同用户在使用模型时的不同需求和期望。您认为 Mistral Small 24B 究竟如何呢?