这是一个指向GitHub的链接:https://github.com/lechmazur/divergent,无更多详细信息可用于翻译
讨论总结
此讨论围绕新的大型语言模型(LLM)发散性思维创造力基准展开。包括对未在测试列表中的模型的疑问、模型在测试中的表现(如存在输出格式问题、重复和陷入自身语境等)、项目文档中的错误、创造力基准测试方法是否合理(如约束模型使用特定首字母单词是否可行)等话题,还涉及到推荐测试工具和补充类似功能的资源等内容。
主要观点
- 👍 对Deepseek R1和Qwen QWQ未在列表表示疑惑
- 支持理由:原评论者直接表达疑惑。
- 反对声音:无。
- 🔥 Qwen QWQ部分请求不符合输出格式,需调整标准才能得分好
- 正方观点:zero0_one1测试得出结果。
- 反方观点:无。
- 💡 认为新的LLM发散性思维创造力基准有趣
- 解释:评论者“De - Alf”直接表达观点。
- 💡 指出项目文档存在版本数字错误
- 解释:“De - Alf”指出Claude应为3.5而非1.5。
- 💡 认可LLM发散性思维创造力基准测试结果
- 解释:有评论者事后感觉测试结果正确。
金句与有趣评论
- “😂 I wonder why deepseek R1 and qwen qwq is not in the list.”
- 亮点:直接提出很多人可能存在的疑惑。
- “🤔 This is interesting. A little bug in readme, should be Claude 3.5 not 1.5.”
- 亮点:指出项目文档中的错误。
- “👀 Always easy to see in hindsight, but this feels about right.”
- 亮点:表达对测试结果的认可态度。
- “🤔 LLMs don’t see individual letters because of tokenization, so that information must be inferred from training context, which muddies up what you are actually measuring.”
- 亮点:深入分析LLM在创造力基准测试中约束首字母单词的不合理性。
- “😎 You may find it interesting to also test it with klmbr”
- 亮点:提供了一个可能用于测试的工具推荐。
情感分析
总体情感倾向比较中性。主要分歧点在于对LLM创造力基准测试方法(如是否应约束模型使用特定首字母单词)以及对部分模型性能(如4o的表现)的看法。产生分歧的可能原因是大家从不同的角度出发,例如技术原理(如LLM的标记化特点)、测试目的(如对创造力的定义和衡量方式)以及对不同模型的实际测试体验等。
趋势与预测
- 新兴话题:比较词嵌入作为衡量方法是否合适可能会引发后续讨论。
- 潜在影响:如果在创造力基准测试方法上有新的共识达成,可能会影响到LLM的开发方向,使其在发散性思维创造力方面有更合理准确的提升方向。
详细内容:
标题:关于新 LLM 发散思维创造力基准的热门讨论
在 Reddit 上,一篇关于新 LLM 发散思维创造力基准的帖子引起了广泛关注。原帖提供了相关的链接 https://github.com/lechmazur/divergent ,并引发了众多热烈的讨论。截至目前,帖子已获得了大量的点赞和众多评论。
讨论的主要方向包括对不同模型的测试体验、对基准测试方法的质疑以及提出新的测试思路等。核心问题在于如何准确评估 LLM 的发散思维创造力,以及当前的基准测试是否合理有效。
在讨论中,有人表示自己测试了 Qwen QWQ ,但对于某些请求它未能符合所需的输出格式,要么放宽标准,要么它得分不佳。还有人计划测试 Deepseek-V3 ,但不清楚 Deepseek R1 API 是否可用,并分享了在 NYT Connections 上对 Deepseek-V3 的测试链接。有人认为 EVA 不是基础模型,遵循指令格式。也有人觉得它更像 Qwen 基础模型,不过不像指令微调的那么过度调整。有人好奇为什么 deepseek R1 和 qwen qwq 不在列表中。有人建议测试 Qwen EVA 0.2 ,认为其从基础模型训练而来,可能表现更好。
有人指出在 README 中有个小错误,应该是 Claude 3.5 而不是 1.5 ,还对独特组合数量的计算方式感到好奇。有人认为约束模型使用以特定字母开头的单词是个糟糕的主意,因为 LLMs 由于标记化看不到单个字母,这会把纯粹的语义创造力任务变成涉及隐式元数据附加的任务。但有人回应称,没有 LLM 在识别单词的起始字母方面有困难,而且即使有困难,设计需要这种技能的基准测试也是完全有效的。
还有人提出 https://liveideabench.com/ 可能更适合评估发散思维,有人认为比较词嵌入可能是更合适的衡量标准。
总之,这场讨论展现了大家对评估 LLM 发散思维创造力的热情和深入思考,不同观点的碰撞也为进一步的研究提供了丰富的思路。
感谢您的耐心阅读!来选个表情,或者留个评论吧!