原贴链接

到目前为止，我已确定这些模型都来自Meta：alfred、richard、danny、meowmeow、rubble、edward、robert、humdinger、goodway、william、trenches。它们中的一些会将事情分解成很多步骤，有些很慢，有些则相当快。我想知道这是怎么回事。不过还是很有趣的，我个人仍在对它们进行测试。它们都是在过去几个小时左右添加的。

讨论总结

本次讨论围绕Meta在LMSYS Arena放置未发布模型展开。参与者从不同角度进行讨论，包括模型性能测试结果、不同模型间的差异、对模型优化方式的探讨、对模型来源的猜测，还有对模型名称的诙谐评价等，大家积极分享观点，整体氛围活跃。

主要观点

👍 Meta的未发布模型表现平平
- 支持理由：ShreckAndDonkey123测试后发现其数学性能与3.1 70B相当。
- 反对声音：无
🔥 模型之间可能存在小差异以筛选出最佳模型
- 正方观点：OrangeESP32x99推测目的是找出最佳模型，可能是Meta对其他模型的回应。
- 反方观点：无
💡 小型推理模型会更有趣且希望能本地运行
- 解释：ShreckAndDonkey123提出，OrangeESP32x99表示认同。
💡 不应低估OpenAI的应对策略
- 解释：involviert提出不应低估OpenAI领先地位，尽管FaceDeer认为大家追赶速度迫使OpenAI更快出牌。
💡 若模型参数低但能力强是好事
- 解释：s101c期待模型参数的澄清，如果低于22B但有70B模型能力则是好事。

金句与有趣评论

“😂 ShreckAndDonkey123：On further testing they all feel pretty "meh", with math performance in my testing on - par with 3.1 70B.”
- 亮点：直接给出对Meta未发布模型的测试评价，表现一般。
“🤔 OrangeESP32x99：Probably just small variations between them so they can find the best one.”
- 亮点：对模型间差异目的进行合理推测。
“👀 FaceDeer：Yet another "there are no moats" moment in the making, I expect.”
- 亮点：从竞争角度看待这一事件，认为行业内难以建立护城河。
“😎 Quiet_Joker：I did a random arena battle just now and in my battle, meowmeow beat grok - 2 - mini - 2024 - 08 - 13.”
- 亮点：通过实际对战结果评价meowmeow模型。
“🤨 jamesvoltage: Paw patrol ass names”
- 亮点：诙谐地表达对模型名称的印象。

情感分析

总体情感倾向为积极好奇，大家积极参与讨论，分享对Meta未发布模型的各种看法。主要分歧点在于对Meta模型性能评价的不同，以及对OpenAI领先地位的不同看法。可能的原因是大家测试的方法、环境不同，以及对行业发展的期望不同。

趋势与预测

新兴话题：模型可能是基于llama数据训练而非Meta自己训练，这一推测可能引发后续关于模型来源及训练数据的讨论。
潜在影响：如果这些模型的相关情况属实，可能会影响到Meta在人工智能模型领域的形象和市场份额，也会影响到其他竞争对手的策略调整，促使更多公司关注模型优化和本地运行推理模型等方向。

详细内容：

《Meta 新一批未发布模型引发 Reddit 热议》

在 Reddit 上，一则关于“Meta 已在 LMSYS Arena 上放置了一大批未发布模型”的帖子引起了众多网友的关注。该帖子列举了诸如“alfred”“richard”“danny”等 11 个模型，并指出它们在处理问题时各有特点，有的速度慢，有的速度快。此帖获得了大量的点赞和众多评论。

讨论的焦点主要集中在这些模型的性能和来源。有人进一步测试后认为它们表现“一般”，数学性能与 3.1 70B 相当。有人推测这可能是 Meta 对其他模型的回应。还有人觉得如果这些是小型推理模型会很有趣，并且希望能有更多可以在本地运行的模型。

有用户分享道：“我尝试了用一个简单但有难度的提示‘写一个连贯且语法正确的句子，每个单词比前一个单词多一个字母，从第一个单词一个字母开始，以此类推直到第十个单词有十个字母’来测试这些模型。最新的 4o 表现得很好，其他的就差强人意。” 有人提到对这些模型进行个人评估，比如“humdinger”在编码问题上的表现优于 Sonnet 3.5 ，“rubble”在操作系统推理问题上回答正确，而“trenches”表现不佳。

对于这些模型的来源，有人猜测它们可能是基于 llama 数据训练的，并非由 Meta 自己训练。还有人认为这可能是 Meta 为找到最佳模型而进行的多种尝试，也有人怀疑模型创造者通过随机化回答来混淆公司身份。

讨论中存在一定的共识，即大家都对这些新模型充满好奇，希望能进一步了解它们的性能和特点。而特别有见地的观点认为，这些模型的出现反映了行业竞争的激烈，各方都在不断探索和优化。

总之，Meta 这批未发布模型引发了热烈讨论，未来它们的表现和真实来源令人期待。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#