这是一个指向GitHub的链接：https://github.com/lechmazur/divergent，无更多详细信息可用于翻译

讨论总结

此讨论围绕新的大型语言模型（LLM）发散性思维创造力基准展开。包括对未在测试列表中的模型的疑问、模型在测试中的表现（如存在输出格式问题、重复和陷入自身语境等）、项目文档中的错误、创造力基准测试方法是否合理（如约束模型使用特定首字母单词是否可行）等话题，还涉及到推荐测试工具和补充类似功能的资源等内容。

主要观点

👍 对Deepseek R1和Qwen QWQ未在列表表示疑惑
- 支持理由：原评论者直接表达疑惑。
- 反对声音：无。
🔥 Qwen QWQ部分请求不符合输出格式，需调整标准才能得分好
- 正方观点：zero0_one1测试得出结果。
- 反方观点：无。
💡 认为新的LLM发散性思维创造力基准有趣
- 解释：评论者“De - Alf”直接表达观点。
💡 指出项目文档存在版本数字错误
- 解释：“De - Alf”指出Claude应为3.5而非1.5。
💡 认可LLM发散性思维创造力基准测试结果
- 解释：有评论者事后感觉测试结果正确。

金句与有趣评论

“😂 I wonder why deepseek R1 and qwen qwq is not in the list.”
- 亮点：直接提出很多人可能存在的疑惑。
“🤔 This is interesting. A little bug in readme, should be Claude 3.5 not 1.5.”
- 亮点：指出项目文档中的错误。
“👀 Always easy to see in hindsight, but this feels about right.”
- 亮点：表达对测试结果的认可态度。
“🤔 LLMs don’t see individual letters because of tokenization, so that information must be inferred from training context, which muddies up what you are actually measuring.”
- 亮点：深入分析LLM在创造力基准测试中约束首字母单词的不合理性。
“😎 You may find it interesting to also test it with klmbr”
- 亮点：提供了一个可能用于测试的工具推荐。

情感分析

总体情感倾向比较中性。主要分歧点在于对LLM创造力基准测试方法（如是否应约束模型使用特定首字母单词）以及对部分模型性能（如4o的表现）的看法。产生分歧的可能原因是大家从不同的角度出发，例如技术原理（如LLM的标记化特点）、测试目的（如对创造力的定义和衡量方式）以及对不同模型的实际测试体验等。

趋势与预测

新兴话题：比较词嵌入作为衡量方法是否合适可能会引发后续讨论。
潜在影响：如果在创造力基准测试方法上有新的共识达成，可能会影响到LLM的开发方向，使其在发散性思维创造力方面有更合理准确的提升方向。

详细内容：

标题：关于新 LLM 发散思维创造力基准的热门讨论

在 Reddit 上，一篇关于新 LLM 发散思维创造力基准的帖子引起了广泛关注。原帖提供了相关的链接 https://github.com/lechmazur/divergent ，并引发了众多热烈的讨论。截至目前，帖子已获得了大量的点赞和众多评论。

讨论的主要方向包括对不同模型的测试体验、对基准测试方法的质疑以及提出新的测试思路等。核心问题在于如何准确评估 LLM 的发散思维创造力，以及当前的基准测试是否合理有效。

在讨论中，有人表示自己测试了 Qwen QWQ ，但对于某些请求它未能符合所需的输出格式，要么放宽标准，要么它得分不佳。还有人计划测试 Deepseek-V3 ，但不清楚 Deepseek R1 API 是否可用，并分享了在 NYT Connections 上对 Deepseek-V3 的测试链接。有人认为 EVA 不是基础模型，遵循指令格式。也有人觉得它更像 Qwen 基础模型，不过不像指令微调的那么过度调整。有人好奇为什么 deepseek R1 和 qwen qwq 不在列表中。有人建议测试 Qwen EVA 0.2 ，认为其从基础模型训练而来，可能表现更好。

有人指出在 README 中有个小错误，应该是 Claude 3.5 而不是 1.5 ，还对独特组合数量的计算方式感到好奇。有人认为约束模型使用以特定字母开头的单词是个糟糕的主意，因为 LLMs 由于标记化看不到单个字母，这会把纯粹的语义创造力任务变成涉及隐式元数据附加的任务。但有人回应称，没有 LLM 在识别单词的起始字母方面有困难，而且即使有困难，设计需要这种技能的基准测试也是完全有效的。

还有人提出 https://liveideabench.com/ 可能更适合评估发散思维，有人认为比较词嵌入可能是更合适的衡量标准。

总之，这场讨论展现了大家对评估 LLM 发散思维创造力的热情和深入思考，不同观点的碰撞也为进一步的研究提供了丰富的思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#