原贴链接

嗨，我是EQ - Bench的创建者LocalLLaMA。很多人批评当前创意写作评估中的提示，有的说‘垃圾’，有的说‘完全是糟粕’。这是合理的，老实说，那些提示大部分是我用ChatGPT生成的。这次会有所改善。给我一些提示建议，这些提示要：1. 能区分优秀作者和较差作者；2. 是你真正想阅读以进行人工氛围检查的。这是两个稍有不同的问题，因为我可能会包含对人类有用但不用于评分的提示。原型在顶级模型之间已经有了更强的区分能力（这就是我制作新版本的原因——之前的已经饱和了）。

讨论总结

EQ - Bench创意写作基准测试新版本的创建者寻求新的提示建议，希望这些提示能区分好的和差的写作者，且适合人工评估。评论者从多个角度给出了建议，包括情景意识、空间意识、对话场景、世界构建、模型作弊防范等方面，同时也有对基准测试本身改进的建议，如增加长基准测试等，整体讨论氛围积极且富有建设性。

主要观点

👍 情景意识方面的提示有助于区分模型好坏
- 支持理由：能显示模型对给定段落的理解情况，从这个角度可以判断模型的能力
- 反对声音：无
🔥 空间意识相关的提示有助于区分好的和差的写作者
- 正方观点：小语言模型在空间意识方面存在普遍困难，有助于发现潜在优秀模型
- 反方观点：无
💡 采用对话驱动场景可避免创意模型作弊
- 解释：很多创意模型会通过过度描述来“作弊”，对话驱动场景可测试模型无辅助创作精彩对话的能力
💡 从世界构建辅助的纯创造力角度给出提示建议是不错的选择
- 解释：符合人们使用大型语言模型的需求，有助于评估模型在创意写作方面的能力
💡 增加长基准测试来评估连贯性
- 解释：可以对模型在长文本创作中的连贯性进行评估，目前的模型在这方面可能存在不足

金句与有趣评论

“😂 通常很多创意模型“作弊”的方式是过度描述，写很多没有实质内容的废话。”
- 亮点：指出了创意模型常见的作弊方式，很直白地揭露了当前存在的问题
“🤔 情景意识：给定2个段落中的1个，添加一个要回答的问题，以显示模型理解情况。”
- 亮点：清晰地阐述了情景意识方面提示的具体操作方式
“👀 Prompts that demand/define spatial awareness, although it is difficult for all small LLMs (and I’m not sure they can be good at it).”
- 亮点：强调了小语言模型在空间意识方面的困难，为空间意识提示的必要性提供依据

情感分析

总体情感倾向是积极的，大家都在积极为EQ - Bench创意写作基准测试新版本提供建议。主要分歧点较少，可能是因为大家都围绕着如何更好地改进创意写作基准测试这一目标进行讨论，没有太多互相矛盾的观点。

趋势与预测

新兴话题：对推理模型连贯性与得分不符情况的研究可能会引发后续讨论。
潜在影响：如果这些建议被采纳，将有助于提高EQ - Bench创意写作基准测试的有效性，进而对创意写作模型的评估产生积极影响，推动相关领域对创意写作模型能力评估的发展。

详细内容：

标题：关于 EQ-Bench 创意写作基准新版本的热门讨论

近日，EQ-Bench 的创建者在 Reddit 上发起了一场关于新版本创意写作基准的讨论。该帖子获得了众多关注，评论众多。帖子主要内容是创建者承认当前版本的创意写作评估中的提示存在问题，希望大家为能区分优秀和较差作家的提示提供建议，并且是人们愿意手动检查氛围的那种。

讨论的焦点主要集中在以下几个方面：

有人提出可以包含情况感知的提示，例如给定段落添加能展示模型理解情况的问题。
也有人认为笑话和言语形式感知的提示不错，观察角色是否能理解笑话或非字面意思。
关于散文类型和写作风格的连续性及变化的提示也被提及，测试模型能否按需改变写作风格。

在讨论中，不同观点精彩纷呈：

有人认为空间感知的提示很重要，尽管对于小型语言模型来说有难度，且大多数模型在这方面表现糟糕。比如，在长场景中，角色和物体的相对位置经常不合逻辑地变化。
但也有人认为直接在更受控的推理任务中评估空间感知可能比通过创意写作练习间接评估更容易。
还有人强调关键不是推理，而是故事的一致性，模型可能在某些方面表现良好，但一旦遇到更多“事实”就会崩溃。

这场讨论中还有很多有趣且引发思考的观点，比如建议增加对话驱动的场景，通过行动和对话展现角色性格，而非依靠情感和形容词的堆砌。有人提议增加针对空间推理和人类在三维空间中移动的提示，比如物理治疗场景。也有人提到增加长基准，注重连贯性，以及研究推理模型得分高但连贯性差的问题等。

总之，这场关于 EQ-Bench 创意写作基准新版本的讨论，为改进和优化提供了丰富多样且有价值的思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#