原贴链接

数据集:https://huggingface.co/datasets/lars1234/story_writing_benchmark。每个模型被要求写568个短篇故事,然后每个故事由4个模型进行评级:Llama 3.3 70B、Mistral Small 24B (2501)、Gemma 2 9B (SPPO - Iter3)、Aya Expanse 32B。评估者之间的排名相关性约为90%。创造力、世界观构建和语法等评估标准被同等加权。

讨论总结

原帖分享了一个故事写作基准测试数据集,但多数评论者对该数据集所涉及的基准测试持怀疑态度。评论者们通过指出特定模型在基准测试中的不佳表现、基准测试未考虑的因素等,表达了对该基准测试的不信任,总体氛围较为负面。

主要观点

  1. 👍 对原帖给出数据集表示感谢。
    • 支持理由:原帖分享了有用的资源。
    • 反对声音:无。
  2. 🔥 质疑评估基准结果的可靠性。
    • 正方观点:Aya模型在创意写作方面表现差却排在前列,该基准未考虑语言质量和风格等因素,当前无适合2000字文本的模型,所以此基准无意义。
    • 反方观点:不同基准下Gemma 2模型表现较好,有一定可靠性,且结果也取决于用户如何使用LLM以及提示的复杂程度。
  3. 💡 story_writing_benchmark基准测试存在问题。
    • 解释:其中的Aya expanse 8b模型无论是短篇还是长篇故事表现都不佳,远不如其他模型,该基准测试只考虑狭隘的指标。
  4. 💡 Aya Expanse这个模型很糟糕。
    • 解释:从与其他模型创作故事的示例对比中可看出Aya表现差,且Cohere对其审查很严格。
  5. 💡 建议使用Eqbench代替。
    • 解释:Eqbench在考虑语言质量和风格等因素方面更优。

金句与有趣评论

  1. “😂 Thanks for the effort.”
    • 亮点:这是对原帖分享数据集的积极反馈,在众多质疑声中比较特别。
  2. “🤔 Effort is big and respectable, but the results alas, are politely saying unconvincing.”
    • 亮点:礼貌地表达了对测试结果的质疑。
  3. “👀 This benchmark is broken. Aya expanse 8b is not a good model neither for short stories, nor for long. It sucks, I’ve tried; not even close to Mistral Nemo.”
    • 亮点:直接指出基准测试存在问题以及Aya模型的糟糕表现,且有自身尝试的依据。
  4. “😉 They do not seem to account slop or language quality and style as eqbench does, all they do is some narrow nerdy metrics.”
    • 亮点:对比指出原基准测试的不足。
  5. “😎 It’s appalling that Cohere so ruthlessly censored it.”
    • 亮点:揭示了Aya模型面临的审查情况。

情感分析

总体情感倾向为负面,主要分歧点在于对基准测试结果可靠性的看法。部分人认为有一定可靠性,因为Gemma 2模型表现较好;而多数人认为结果不可靠,原因是该基准未考虑语言质量和风格等重要因素,且存在模型表现与实际不符的情况。

趋势与预测

  • 新兴话题:Eqbench可能成为后续讨论的新焦点,因为被建议用来替代原基准测试。
  • 潜在影响:如果对原基准测试的质疑被广泛认可,可能会影响相关模型在故事创作领域的评价方式,促使开发者重新审视评估标准。

详细内容:

《关于故事写作基准/数据集的热门讨论》

近日,Reddit 上一篇关于故事写作基准/数据集的帖子引起了广泛关注。该帖子提供了数据集的链接https://huggingface.co/datasets/lars1234/story_writing_benchmark,并介绍了每个模型被要求写 568 个短篇故事,且由 4 个模型进行评级的情况,评估者之间的排名相关性约为 90%,评价标准包括创造力、世界观构建和语法等且权重相同。此贴获得了众多点赞和评论,引发了热烈的讨论。

讨论焦点主要集中在对不同模型表现的评价以及基准测试的有效性。有人认为努力值得尊重,但结果不尽如人意,比如 Aya 8b 在创意写作方面表现糟糕,不如 Llama 和 Gemma 2 9b,质疑基准存在问题。有人则表示,由于 Gemma 2 模型在基准测试中始终表现出色,所以有一定的可靠性,这取决于用户如何使用这些模型,同时也指出数据集的提示相对简单。还有人提出当前模型在 2000 字的文本创作上存在不足,这个基准测试没有意义。

有用户分享道:“Aya 8b 写的故事,Tom 漫步公园遭遇鸽子粪便,情节平淡无趣。而 Gemma2 9b 所写的 Brenda 同样遭遇此状况,情节则生动现代。”

有人提供了相关链接https://eqbench.com/creative_writing.html,指出 EqBench 与故事写作基准采用相似评估方法,但 Aya 系列未在此测试。

讨论中的共识在于认识到不同模型存在各自的优缺点,且基准测试并非完美。特别有见地的观点是强调了用户需求和使用方式对模型评价的影响。

总之,这次关于故事写作基准/数据集的讨论,充分展现了大家对模型性能和测试方法的深入思考,也为相关领域的研究和应用提供了多元的视角。