原贴链接

这是一个指向GitHub的链接:https://github.com/lechmazur/divergent,无更多详细信息可用于翻译

讨论总结

此讨论围绕新的大型语言模型(LLM)发散性思维创造力基准展开。包括对未在测试列表中的模型的疑问、模型在测试中的表现(如存在输出格式问题、重复和陷入自身语境等)、项目文档中的错误、创造力基准测试方法是否合理(如约束模型使用特定首字母单词是否可行)等话题,还涉及到推荐测试工具和补充类似功能的资源等内容。

主要观点

  1. 👍 对Deepseek R1和Qwen QWQ未在列表表示疑惑
    • 支持理由:原评论者直接表达疑惑。
    • 反对声音:无。
  2. 🔥 Qwen QWQ部分请求不符合输出格式,需调整标准才能得分好
    • 正方观点:zero0_one1测试得出结果。
    • 反方观点:无。
  3. 💡 认为新的LLM发散性思维创造力基准有趣
    • 解释:评论者“De - Alf”直接表达观点。
  4. 💡 指出项目文档存在版本数字错误
    • 解释:“De - Alf”指出Claude应为3.5而非1.5。
  5. 💡 认可LLM发散性思维创造力基准测试结果
    • 解释:有评论者事后感觉测试结果正确。

金句与有趣评论

  1. “😂 I wonder why deepseek R1 and qwen qwq is not in the list.”
    • 亮点:直接提出很多人可能存在的疑惑。
  2. “🤔 This is interesting. A little bug in readme, should be Claude 3.5 not 1.5.”
    • 亮点:指出项目文档中的错误。
  3. “👀 Always easy to see in hindsight, but this feels about right.”
    • 亮点:表达对测试结果的认可态度。
  4. “🤔 LLMs don’t see individual letters because of tokenization, so that information must be inferred from training context, which muddies up what you are actually measuring.”
    • 亮点:深入分析LLM在创造力基准测试中约束首字母单词的不合理性。
  5. “😎 You may find it interesting to also test it with klmbr
    • 亮点:提供了一个可能用于测试的工具推荐。

情感分析

总体情感倾向比较中性。主要分歧点在于对LLM创造力基准测试方法(如是否应约束模型使用特定首字母单词)以及对部分模型性能(如4o的表现)的看法。产生分歧的可能原因是大家从不同的角度出发,例如技术原理(如LLM的标记化特点)、测试目的(如对创造力的定义和衡量方式)以及对不同模型的实际测试体验等。

趋势与预测

  • 新兴话题:比较词嵌入作为衡量方法是否合适可能会引发后续讨论。
  • 潜在影响:如果在创造力基准测试方法上有新的共识达成,可能会影响到LLM的开发方向,使其在发散性思维创造力方面有更合理准确的提升方向。

详细内容:

标题:关于新 LLM 发散思维创造力基准的热门讨论

在 Reddit 上,一篇关于新 LLM 发散思维创造力基准的帖子引起了广泛关注。原帖提供了相关的链接 https://github.com/lechmazur/divergent ,并引发了众多热烈的讨论。截至目前,帖子已获得了大量的点赞和众多评论。

讨论的主要方向包括对不同模型的测试体验、对基准测试方法的质疑以及提出新的测试思路等。核心问题在于如何准确评估 LLM 的发散思维创造力,以及当前的基准测试是否合理有效。

在讨论中,有人表示自己测试了 Qwen QWQ ,但对于某些请求它未能符合所需的输出格式,要么放宽标准,要么它得分不佳。还有人计划测试 Deepseek-V3 ,但不清楚 Deepseek R1 API 是否可用,并分享了在 NYT Connections 上对 Deepseek-V3 的测试链接。有人认为 EVA 不是基础模型,遵循指令格式。也有人觉得它更像 Qwen 基础模型,不过不像指令微调的那么过度调整。有人好奇为什么 deepseek R1 和 qwen qwq 不在列表中。有人建议测试 Qwen EVA 0.2 ,认为其从基础模型训练而来,可能表现更好。

有人指出在 README 中有个小错误,应该是 Claude 3.5 而不是 1.5 ,还对独特组合数量的计算方式感到好奇。有人认为约束模型使用以特定字母开头的单词是个糟糕的主意,因为 LLMs 由于标记化看不到单个字母,这会把纯粹的语义创造力任务变成涉及隐式元数据附加的任务。但有人回应称,没有 LLM 在识别单词的起始字母方面有困难,而且即使有困难,设计需要这种技能的基准测试也是完全有效的。

还有人提出 https://liveideabench.com/ 可能更适合评估发散思维,有人认为比较词嵌入可能是更合适的衡量标准。

总之,这场讨论展现了大家对评估 LLM 发散思维创造力的热情和深入思考,不同观点的碰撞也为进一步的研究提供了丰富的思路。