原贴链接

数据集：https://huggingface.co/datasets/lars1234/story_writing_benchmark。每个模型被要求写568个短篇故事，然后每个故事由4个模型进行评级：Llama 3.3 70B、Mistral Small 24B (2501)、Gemma 2 9B (SPPO - Iter3)、Aya Expanse 32B。评估者之间的排名相关性约为90%。创造力、世界观构建和语法等评估标准被同等加权。

讨论总结

原帖分享了一个故事写作基准测试数据集，但多数评论者对该数据集所涉及的基准测试持怀疑态度。评论者们通过指出特定模型在基准测试中的不佳表现、基准测试未考虑的因素等，表达了对该基准测试的不信任，总体氛围较为负面。

主要观点

👍 对原帖给出数据集表示感谢。
- 支持理由：原帖分享了有用的资源。
- 反对声音：无。
🔥 质疑评估基准结果的可靠性。
- 正方观点：Aya模型在创意写作方面表现差却排在前列，该基准未考虑语言质量和风格等因素，当前无适合2000字文本的模型，所以此基准无意义。
- 反方观点：不同基准下Gemma 2模型表现较好，有一定可靠性，且结果也取决于用户如何使用LLM以及提示的复杂程度。
💡 story_writing_benchmark基准测试存在问题。
- 解释：其中的Aya expanse 8b模型无论是短篇还是长篇故事表现都不佳，远不如其他模型，该基准测试只考虑狭隘的指标。
💡 Aya Expanse这个模型很糟糕。
- 解释：从与其他模型创作故事的示例对比中可看出Aya表现差，且Cohere对其审查很严格。
💡 建议使用Eqbench代替。
- 解释：Eqbench在考虑语言质量和风格等因素方面更优。

金句与有趣评论

“😂 Thanks for the effort.”
- 亮点：这是对原帖分享数据集的积极反馈，在众多质疑声中比较特别。
“🤔 Effort is big and respectable, but the results alas, are politely saying unconvincing.”
- 亮点：礼貌地表达了对测试结果的质疑。
“👀 This benchmark is broken. Aya expanse 8b is not a good model neither for short stories, nor for long. It sucks, I’ve tried; not even close to Mistral Nemo.”
- 亮点：直接指出基准测试存在问题以及Aya模型的糟糕表现，且有自身尝试的依据。
“😉 They do not seem to account slop or language quality and style as eqbench does, all they do is some narrow nerdy metrics.”
- 亮点：对比指出原基准测试的不足。
“😎 It’s appalling that Cohere so ruthlessly censored it.”
- 亮点：揭示了Aya模型面临的审查情况。

情感分析

总体情感倾向为负面，主要分歧点在于对基准测试结果可靠性的看法。部分人认为有一定可靠性，因为Gemma 2模型表现较好；而多数人认为结果不可靠，原因是该基准未考虑语言质量和风格等重要因素，且存在模型表现与实际不符的情况。

趋势与预测

新兴话题：Eqbench可能成为后续讨论的新焦点，因为被建议用来替代原基准测试。
潜在影响：如果对原基准测试的质疑被广泛认可，可能会影响相关模型在故事创作领域的评价方式，促使开发者重新审视评估标准。

详细内容：

《关于故事写作基准/数据集的热门讨论》

近日，Reddit 上一篇关于故事写作基准/数据集的帖子引起了广泛关注。该帖子提供了数据集的链接https://huggingface.co/datasets/lars1234/story_writing_benchmark，并介绍了每个模型被要求写 568 个短篇故事，且由 4 个模型进行评级的情况，评估者之间的排名相关性约为 90%，评价标准包括创造力、世界观构建和语法等且权重相同。此贴获得了众多点赞和评论，引发了热烈的讨论。

讨论焦点主要集中在对不同模型表现的评价以及基准测试的有效性。有人认为努力值得尊重，但结果不尽如人意，比如 Aya 8b 在创意写作方面表现糟糕，不如 Llama 和 Gemma 2 9b，质疑基准存在问题。有人则表示，由于 Gemma 2 模型在基准测试中始终表现出色，所以有一定的可靠性，这取决于用户如何使用这些模型，同时也指出数据集的提示相对简单。还有人提出当前模型在 2000 字的文本创作上存在不足，这个基准测试没有意义。

有用户分享道：“Aya 8b 写的故事，Tom 漫步公园遭遇鸽子粪便，情节平淡无趣。而 Gemma2 9b 所写的 Brenda 同样遭遇此状况，情节则生动现代。”

有人提供了相关链接https://eqbench.com/creative_writing.html，指出 EqBench 与故事写作基准采用相似评估方法，但 Aya 系列未在此测试。

讨论中的共识在于认识到不同模型存在各自的优缺点，且基准测试并非完美。特别有见地的观点是强调了用户需求和使用方式对模型评价的影响。

总之，这次关于故事写作基准/数据集的讨论，充分展现了大家对模型性能和测试方法的深入思考，也为相关领域的研究和应用提供了多元的视角。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#