原贴链接

无(帖子仅提供了一个GitHub链接:https://github.com/lechmazur/writing,没有具体可翻译的内容)

讨论总结

这是一个关于LLM创意故事写作基准的讨论。评论者从多个角度进行了探讨,有对AI评估与人类评估对比结果的质疑,也有对不同语言模型(如Deepseek - V3、Claude Sonnet 3.5等)在创意写作方面表现的分享,包括它们的优点和存在的问题,还对一些模型未出现在相关内容中或者在基准中的排名表示疑惑。总体氛围是大家积极分享观点并对一些现有情况提出疑问。

主要观点

  1. 👍 对AI评估与人类评估对比结果的有效性表示怀疑
    • 支持理由:不清楚AI是否擅长评估写作能力
    • 反对声音:无
  2. 🔥 Deepseek - V3在创意写作方面存在重复问题,但有其他优点
    • 正方观点:在创意写作方面角色能把握情节并应对复杂社交情况
    • 反方观点:存在重复问题令人沮丧
  3. 💡 故事创作的基准测试可能无法筛选出真正优秀的故事创作模型
    • 解释:基准测试可能选出故事乏味但能满足特定因素的模型
  4. 💡 认为Mistral Nemo在较小模型里是最有创意的,对其未出现在相关内容中表示疑惑
    • 解释:在目前所见较小模型中Mistral Nemo创意最佳,但未出现在LLM创意故事写作基准相关内容中
  5. 💡 DeepSeek - V3性能比Llama 3.1 405B、Llama 3.3 70B以及Qwen模型好
    • 解释:直接给出性能对比结果,但未阐述具体比较方面

金句与有趣评论

  1. “🤔 It would be interesting to see how the AI evaluations compare to human evaluations.”
    • 亮点:提出对AI评估与人类评估对比的兴趣点
  2. “😂 Deepseek - V3 is pretty great at creative writing except for constantly fighting the repetition.”
    • 亮点:简洁地指出Deepseek - V3在创意写作中的优缺点
  3. “👀 I highly doubt a human would be able to write a good short story that adheres to all requirements.”
    • 亮点:对人类能否按要求写好短篇小说表示高度怀疑
  4. “🤔 Where is Mistral Nemo?”
    • 亮点:对Mistral Nemo未出现在相关内容中直接发问
  5. “😂 Claude Sonnet 3.5 writes too nerdy, too complex; feels slopey; good if you want to write a sophisticated sci - fi though, as plot ususally comes out complex.”
    • 亮点:生动地描述了Claude Sonnet 3.5的写作风格

情感分析

总体情感倾向为质疑和探讨性。主要分歧点在于对不同语言模型在创意写作方面的评价,例如Deepseek - V3的性能和表现方面。可能的原因是大家对创意写作的期望和评判标准不同,以及对各个语言模型的使用体验和理解存在差异。

趋势与预测

  • 新兴话题:对于如何改进LLM创意故事写作基准测试以更好地筛选模型可能会引发后续讨论。
  • 潜在影响:对LLM在创意写作领域的发展产生影响,如果能更好地进行基准测试或者评估模型,可能会促使模型开发者改进模型,提高创意写作能力。

详细内容:

标题:关于 LLM 创意写作基准的热门讨论

在 Reddit 上,一个关于“LLM Creative Story-Writing Benchmark”(https://github.com/lechmazur/writing)的帖子引发了广泛关注,收获了众多点赞和大量评论。

讨论主要集中在对 AI 写作能力评估的诸多质疑和不同看法上。有人认为,将 AI 评估与人类评估进行比较会很有趣,但目前尚不清楚 AI 是否真的擅长评估写作能力。还有人指出,像保持故事的连贯性和节奏这类长语境能力,是适用于创意写作的 AI 应具备的关键能力,然而这在测试中如何体现并不清晰。此外,在基准示例中提出的一些非常奇怪和不寻常的写作要求,也让人怀疑其能否转化为更常见的写作任务,甚至有人怀疑人类都难以按这些要求写出好的短篇故事。

在观点交流中,有人表示 AI 原本就非常不擅长评估写作质量,如果擅长写作,就不会出现这种情况。也有人怀疑该基准是否真的能反映实际写作能力,尤其是考虑到 Llama 3.3 70B 的位置。

有人提到 Llama 3.1 405B 对 Llama 3.3 70B 的评价不太好,并且提出是否收集了评分背后的推理,或许将分数细分为各个类别会有所帮助。还有人询问是否尝试了更接近真实使用场景主题的提示,因为这可能会使模型的评分大不相同。

在个人体验方面,有人称 Deepseek-V3 除了重复问题外,在创意写作方面表现不错,能让角色理解情节的长期影响并应对复杂社交情况。但也有人认为重复问题让人沮丧,有人分享了减少重复的方法,比如替换某些表述等。还有人指出在[fireworks.ai]网站上的 Deepseek-V3 没有重复问题,有人思考重复出现的原因是否是过度拟合。

有人对不同模型的写作风格和表现进行了评价,如 Claude Sonnet 3.5 写作风格复杂,Qwen 2.5 72b 风格较好等。也有人认为 DeepSeek-V3 表现超过了 Llama 3.1 405B 等模型,而有人则认为将故事写作局限于基准会选择出故事枯燥但能通过某些因素的模型。

这场讨论的核心争议点在于如何准确评估 AI 的写作能力,以及不同模型在创意写作方面的真实表现和优缺点。大家对于基准测试的有效性和能否真实反映模型的写作水平存在较大分歧,同时对于各模型的特色和问题也有诸多讨论。究竟哪种模型更出色,怎样的评估方式更合理,还有待进一步探讨。