原贴链接

近期的模型在没有任何公告的情况下悄悄出现在竞技场上。所以我制作了一个表格来比较它们的排名(在聊天机器人竞技场所有现有模型中的排名,排名越低越好)。有些结果相当令人惊讶!表格列出了各个模型(athene - v2 - chat、qwen2.5 - 72b - instruct、amz - nova - pro - v1.0、qwen2.5 - coder - 32b - instruct、llama - 3.3 - 70b - instruct、qwq - 32b - preview)在总体、有风格控制的总体、硬提示、有风格控制的硬提示、编码、数学、创意写作、指令遵循、长查询、多轮等方面的排名。总体来说,Qwq让我非常惊讶,主要原因是它的思考过程不隐藏,对用户来说看起来相当随机,这使它处于很大的劣势,而O1总是隐藏其思考过程。Llama 3.3似乎是创意写作的首选模型,但在编码和数学方面仍然不如qwen。Qwen coder 32B在编码方面似乎略逊于qwen 72B,但就其规模而言仍然相当令人印象深刻。希望看到更多真正优秀的开源模型取代Athene。

讨论总结

原帖对一些新的聊天模型(Qwq、Qwen 2.5 Coder、Nova、Llama 3.3)在聊天机器人竞技场中的排名进行了比较。评论者提出了各种观点,包括对测试的不信任,质疑表格数字缺乏解释,对不同模型在代码生成、创意写作、指令遵循等功能上的表现各抒己见,还涉及到某些模型(如qwq)在排名中的状况以及其参与比较的合理性等,整体讨论氛围较为理性客观。

主要观点

  1. 👍 对测试失去信任,认为人类自身的局限性影响测试结果而非模型
    • 支持理由:大多数人总是重复问简单问题,这影响测试准确性。
    • 反对声音:无明显反对声音。
  2. 🔥 原帖表格中的数字应补充含义说明(如分数还是排名等)
    • 正方观点:不说明数字含义读者难以理解表格数据。
    • 反方观点:无。
  3. 💡 在代码生成方面,QwQ和72b不如2.5 - coder - 32b
    • 解释:评论者根据自己的使用体验得出结论。
  4. 💡 认为将qwq放入lmarena没有意义
    • 解释:qwq身份易识别、非为一般性聊天设计且不具备多轮对话能力。
  5. 💡 指令遵循对于较长查询很重要
    • 解释:评论者基于自身近期使用倾向得出。

金句与有趣评论

  1. “😂 我不再相信这些测试了。”
    • 亮点:直接表达对测试的不信任态度。
  2. “🤔 DeltaSqueezer: You might want to add something which says what the numbers mean e.g. is it a score or ranking? Is higher better or worse etc.”
    • 亮点:指出原帖表格数据的关键问题,即缺乏含义说明。
  3. “👀 neither QwQ or 72b have been able to beat 2.5 - coder - 32b as far as code generation for me.”
    • 亮点:基于个人使用体验对模型在代码生成方面进行比较。

情感分析

总体情感倾向较为理性客观,没有明显的情绪化倾向。主要分歧点在于对测试结果的信任度以及对模型表现的评价。可能的原因是不同评论者使用模型的场景和目的不同,以及对测试标准的理解差异。

趋势与预测

  • 新兴话题:可能会有更多关于模型如何改进以在特定功能(如指令遵循、代码生成等)上表现更好的讨论。
  • 潜在影响:有助于聊天模型开发者了解用户关注点,改进模型,提高在聊天机器人竞技场中的表现。

详细内容:

《关于聊天机器人竞技场近期模型的热门讨论》

近日,Reddit 上一则关于聊天机器人竞技场近期模型(Qwq、Qwen 2.5 Coder、Nova、Llama 3.3 等)的帖子引起了广泛关注。该帖子在没有任何公告的情况下,默默列出了这些模型的排名对比,收获了大量点赞和众多评论。

帖子主要探讨了各模型在不同任务中的表现排名,包括整体表现、风格控制、硬提示、编码、数学、创意写作、指令跟随、长查询和多轮对话等方面。结果显示,有些情况令人惊讶,比如总体排名中 Qwq 让人意外,而 Llama 3.3 在创意写作方面表现不错。

讨论焦点与观点分析如下: 有人表示不再信任这些测试,认为真正的限制在于人类而非语言模型,大多数人总是反复问同样简单的问题。 有人建议说明数字的含义,比如是分数还是排名,以及高低的好坏标准。随后有人回应已做修改,表明是在所有现有模型中的排名。 有人疑惑为何在 lmsys 中看不到 qwq,得到回复称在直接聊天中名为“qwq-32b-preview”,且已在排行榜上,只是排名靠后。还有人认为 qwq 排名低可能是投票量少,但也有人指出不太可能,可能是其冗长重复的思考过程导致处于劣势。 有人提出如果 qwq 向投票者隐藏推理过程只展示最终结果,排名可能会更高。 有人认为 QwQ 或 72b 在代码生成方面不如 2.5-coder-32b。 有人觉得将 qwq 放入 lmarena 毫无意义,其身份容易识别且不适合一般聊天。 有人称赞 llama 3.3 的创意写作不错,但认为指令跟随对于长查询尤其重要,最近倾向于 Athene。

讨论中,对于各模型的表现评价存在分歧,也有一些共识,比如对测试的局限性和某些模型的特点有了更清晰的认识。一些独特的观点为讨论增添了深度和广度。

总之,这场关于聊天机器人模型的讨论让大家对它们的性能有了更全面的了解,也激发了更多关于如何评估和改进模型的思考。