原贴链接

此贴仅包含一个图片链接,无实质可翻译内容

讨论总结

原帖围绕DeepSeek R1在NYT Connections上的得分展开,评论内容多样。包括Mistral Small 3的测试及结果发布,有评论补充相关资源链接,有人询问其他模型测试情况,也有人对原帖作者表示感谢,还有对测试公平性的讨论以及对不同模型得分差距的看法等,整体讨论氛围比较正常和平静。

主要观点

  1. 👍 正在测试Mistral Small 3并会发布结果。
    • 支持理由:评论者zero0_one1明确表示正在测试并会发布结果。
    • 反对声音:无。
  2. 🔥 Mistral Small 3测试结果为10.5且有提示敏感性,分数波动大。
    • 正方观点:zero0_one1给出测试结果并提及提示敏感性和分数波动。
    • 反方观点:无。
  3. 💡 希望将Mistral Small 3与codestral进行比较。
    • 支持理由:Specter_Origin认为两者虽目的不同但比较结果会很有趣,codestral有更大上下文可用于其他任务。
    • 反对声音:无。
  4. 🤔 认为在过去的纽约时报连接游戏中测试DeepSeek R1不公平。
    • 正方观点:This_Organization382觉得不公平。
    • 反方观点:zero0_one1表示目前没有证据表明DeepSeek R1是根据游戏结果训练的。
  5. 😮 认为R1和o1之间存在巨大差距且令人意外。
    • 支持理由:评论者指出差距非常大且超出预期。
    • 反对声音:无。

金句与有趣评论

  1. “😂 zero0_one1:I’m testing the new Mistral Small 3 now btw. I’ll post the results here in the comments.”
    • 亮点:直接表明正在进行的测试并承诺发布结果。
  2. “🤔 Specter_Origin:When you do, can you also compare it with codestral?”
    • 亮点:提出将测试结果与其他进行比较的想法。
  3. “👀 zero0_one1:10.5. Unusually prompt - sensitive, its intermediate scores varied from 5.8 to 15.1 depending on the prompt.”
    • 亮点:给出具体的测试结果及结果的特性。
  4. “😉 This_Organization382: Not fair to play them on past NYT connection games”
    • 亮点:提出对测试公平性的质疑。
  5. “😮 That gap between R1 and o1 is huge.”
    • 亮点:表达出对二者差距之大的惊讶。

情感分析

总体情感倾向比较中立。主要分歧点在于DeepSeek R1在NYT Connections测试的公平性,可能的原因是不同人对模型训练依据和测试条件有不同的理解和考量。

趋势与预测

  • 新兴话题:zero0_one1提到的不会受测试公平性问题影响的发散性思维基准测试可能引发后续讨论。
  • 潜在影响:如果关于测试公平性的讨论深入,可能会影响相关模型在类似测试中的应用和评估标准。

详细内容:

标题:关于 NYT Connections 中 DeepSeek R1 得分的热门讨论

最近,Reddit 上一个关于“DeepSeek R1 得分在 o1 和 o1-mini 之间的表现”的帖子引起了大家的关注,收获了众多点赞和大量的评论。

原帖主要围绕对新模型的测试结果展开,有人提到正在测试新的 Mistral Small 3,其中间得分因提示的不同在 5.8 到 15.1 之间变动。同时,还分享了相关的图片链接[https://i.redd.it/e8ov1yb3x5ge1.png]以及其他一些信息,比如https://www.nytimes.com/games/connectionshttps://github.com/lechmazur/nyt-connections/

讨论的焦点主要集中在以下几个方面: 有人认为模型可能存在缺乏 SFT 和指令调整的问题。有人希望能将新测试的模型与 codestral 进行比较,还有人询问是否有测试 QwQ 的计划。有人分享自己使用 FuseO1 相关合并模型的体验,并推荐测试。也有人关心 o3 和 o3-mini 在其中的位置。

有人表示,R1 和 o1 之间的差距巨大,超出了预期。有人对在过去的 NYT connection 游戏上测试这些模型是否公平提出了质疑。

讨论中的共识在于大家都对新模型的表现和测试结果充满好奇,并期待更多详细和准确的对比数据。

特别有见地的观点是,有人通过自身的使用体验来评价模型,丰富了讨论的维度。

总之,这场关于模型得分的讨论展现了大家对技术探索的热情和深入思考。