嘿！

基准测试链接：https://ilyagusev.github.io/ping_pong_bench/en

很久以前，我积极开发角色扮演LLMs。这类模型的离线评估很困难，所以我构思了一个小型基准测试原型。主要想法很简单：让一个强大的专有LLM 实际与其他角色模型对话 并评估它们的回应。基本上，这与普通用户所做的事情完全相同，但没有人类参与。

几周前，我想起了这个原型，并将其完善为一个正式的基准测试。你可以在仓库中找到更多详情：https://github.com/IlyaGusev/ping_pong_bench

我还测试了与我的评估相关的Spearman相关性；对于俄语，结果是0.6，还算可以。该基准测试正在积极开发中，因此欢迎任何贡献和反馈！

讨论总结

本次讨论围绕“PingPong: Role-playing benchmark for LLMs”这一主题，涉及了模型测试、评估工具的可行性、角色扮演的精确度和准确度，以及模型扩展和审查问题。讨论中，用户提出了对LLMs作为评估者的质疑，探讨了通过增加样本数量提高精确度的可能性，以及模型在角色扮演中的表现。此外，还有关于模型扩展和审查的建议，以及对新模型如Gemini的测试兴趣。整体上，讨论展示了对于角色扮演LLMs基准测试的广泛关注和深入探讨。

主要观点

👍 模型测试请求
- 支持理由：用户希望测试Nemo、Mistral Large、Glitz和Inori等模型，以评估其在角色扮演中的表现。
- 反对声音：无明显反对声音，但有用户对测试结果的准确性表示怀疑。
🔥 LLMs作为评估者的质疑
- 正方观点：虽然精确结果难以获得，但平均水平的结果可能已经足够，并且可以通过增加样本数量来提高精确度。
- 反方观点：LLMs作为评估者难以获得准确结果，且通过提示工程和提供少量示例也无法显著提高准确性。
💡 模型扩展建议
- 建议增加更多GPT-4模型如Opus的加入，认为作者的工作做得很好，并期待更多模型的参与和反馈。
🌟 审查问题
- 评论者希望在基准测试中增加一个是否被审查的列，以便更清晰地了解哪些内容被过滤。回复者解释现有的“拒绝比率”列已经存在，但由于评估模型的问题，该列信息不够明确。
🎭 场景跟随角色扮演的测试
- 建议增加场景跟随角色扮演的测试，提出评估场景跟随能力的具体标准，包括角色是否使用场景中给出的解决方案、是否让用户按要求行动等。

金句与有趣评论

“😂 Please test some of the Nemo and mistral large.”
- 亮点：Charuru的请求简洁直接，反映了用户对特定模型测试的迫切需求。
“🤔 I really don’t understand how we can use LLMs as evaluators.”
- 亮点：ahmetfirat的质疑引发了关于LLMs作为评估者可行性的深入讨论。
“👀 Finally, one of these that actually recognizes Opus as the King of creative writing.”
- 亮点：kindacognizant的评论表达了对Opus在创意写作中地位的认可，显示了用户对特定模型表现的期待。

情感分析

讨论的总体情感倾向较为积极，多数用户对“PingPong”基准测试表示赞赏，并提出了建设性的意见和建议。主要分歧点在于LLMs作为评估者的准确性和精确度，以及模型测试的全面性。这些分歧可能源于对技术细节的不同理解和期望。

趋势与预测

新兴话题：增加更多模型如Gemini的测试，以及场景跟随角色扮演的测试可能会引发后续讨论。
潜在影响：更全面的模型测试和评估可能会提高角色扮演LLMs的性能，进而影响相关领域的技术发展。

详细内容：

标题：《PingPong：LLMs 的角色扮演基准测试引发热议》

在 Reddit 上，一则关于“PingPong: Role-playing benchmark for LLMs”的帖子引起了广泛关注。该帖子提供了基准测试的相关链接：https://ilyagusev.github.io/ping\_pong\_bench/en 以及其代码库 https://github.com/IlyaGusev/ping\_pong\_bench 。作者称曾积极开发角色扮演的 LLMs，因离线评估困难创作了基准测试原型，如今完善成正式的基准测试，并欢迎贡献和反馈。此帖获得了众多点赞和大量评论，引发了关于该基准测试的热烈讨论。

讨论的焦点和观点主要包括：有人提议测试 Nemo 和 mistral large 等模型，作者表示会添加 Nemo。对于能否用 LLMs 作为评估者，有人表示困惑，难以获得准确结果。但也有人指出，LMSYS 用 gpt4 测试效果不错。还有人认为 LLMs 作为评估者存在混淆精度和准确性的问题，不过多增加样本可提高精度。有人希望能看到 opus 以及其他 gpt4 模型的测试结果。有人提出增加是否被审查的列，作者称已有“拒绝率”列，但因评估模型受限，该列信息不够有用。有人认为应测试场景跟随的角色扮演，作者回应会考虑。有人质疑 gpt-4o-mini 为何高于 gpt-4o，作者称前者似乎限制更少。有人指出当前评估存在问题，如单次调用可能导致污染，应增加评估指标和权重，作者表示认同并计划改进。有人希望能有关于评判方式的简要说明。有人测试了 3 个 LLMs 互相评估，但效果不佳。有人认为 Opus 应在测试中表现出色，实际添加后 Opus 排名第一。也有人认为测试的模型过少，还应测试 Gemini 等模型。

总体而言，大家对于该基准测试的关注度较高，讨论中既有对测试方法和结果的疑问，也有提出的改进建议和期待。在不断的交流中，有望推动该基准测试的进一步完善和发展。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#