原贴链接

嘿!

基准测试链接:https://ilyagusev.github.io/ping_pong_bench/en

很久以前,我积极开发角色扮演LLMs。这类模型的离线评估很困难,所以我构思了一个小型基准测试原型。主要想法很简单:让一个强大的专有LLM 实际与其他角色模型对话 并评估它们的回应。基本上,这与普通用户所做的事情完全相同,但没有人类参与。

几周前,我想起了这个原型,并将其完善为一个正式的基准测试。你可以在仓库中找到更多详情:https://github.com/IlyaGusev/ping_pong_bench

我还测试了与我的评估相关的Spearman相关性;对于俄语,结果是0.6,还算可以。该基准测试正在积极开发中,因此欢迎任何贡献和反馈!

讨论总结

本次讨论围绕“PingPong: Role-playing benchmark for LLMs”这一主题,涉及了模型测试、评估工具的可行性、角色扮演的精确度和准确度,以及模型扩展和审查问题。讨论中,用户提出了对LLMs作为评估者的质疑,探讨了通过增加样本数量提高精确度的可能性,以及模型在角色扮演中的表现。此外,还有关于模型扩展和审查的建议,以及对新模型如Gemini的测试兴趣。整体上,讨论展示了对于角色扮演LLMs基准测试的广泛关注和深入探讨。

主要观点

  1. 👍 模型测试请求
    • 支持理由:用户希望测试Nemo、Mistral Large、Glitz和Inori等模型,以评估其在角色扮演中的表现。
    • 反对声音:无明显反对声音,但有用户对测试结果的准确性表示怀疑。
  2. 🔥 LLMs作为评估者的质疑
    • 正方观点:虽然精确结果难以获得,但平均水平的结果可能已经足够,并且可以通过增加样本数量来提高精确度。
    • 反方观点:LLMs作为评估者难以获得准确结果,且通过提示工程和提供少量示例也无法显著提高准确性。
  3. 💡 模型扩展建议
    • 建议增加更多GPT-4模型如Opus的加入,认为作者的工作做得很好,并期待更多模型的参与和反馈。
  4. 🌟 审查问题
    • 评论者希望在基准测试中增加一个是否被审查的列,以便更清晰地了解哪些内容被过滤。回复者解释现有的“拒绝比率”列已经存在,但由于评估模型的问题,该列信息不够明确。
  5. 🎭 场景跟随角色扮演的测试
    • 建议增加场景跟随角色扮演的测试,提出评估场景跟随能力的具体标准,包括角色是否使用场景中给出的解决方案、是否让用户按要求行动等。

金句与有趣评论

  1. “😂 Please test some of the Nemo and mistral large.”
    • 亮点:Charuru的请求简洁直接,反映了用户对特定模型测试的迫切需求。
  2. “🤔 I really don’t understand how we can use LLMs as evaluators.”
    • 亮点:ahmetfirat的质疑引发了关于LLMs作为评估者可行性的深入讨论。
  3. “👀 Finally, one of these that actually recognizes Opus as the King of creative writing.”
    • 亮点:kindacognizant的评论表达了对Opus在创意写作中地位的认可,显示了用户对特定模型表现的期待。

情感分析

讨论的总体情感倾向较为积极,多数用户对“PingPong”基准测试表示赞赏,并提出了建设性的意见和建议。主要分歧点在于LLMs作为评估者的准确性和精确度,以及模型测试的全面性。这些分歧可能源于对技术细节的不同理解和期望。

趋势与预测

  • 新兴话题:增加更多模型如Gemini的测试,以及场景跟随角色扮演的测试可能会引发后续讨论。
  • 潜在影响:更全面的模型测试和评估可能会提高角色扮演LLMs的性能,进而影响相关领域的技术发展。

详细内容:

标题:《PingPong:LLMs 的角色扮演基准测试引发热议》

在 Reddit 上,一则关于“PingPong: Role-playing benchmark for LLMs”的帖子引起了广泛关注。该帖子提供了基准测试的相关链接:https://ilyagusev.github.io/ping\_pong\_bench/en 以及其代码库 https://github.com/IlyaGusev/ping\_pong\_bench 。作者称曾积极开发角色扮演的 LLMs,因离线评估困难创作了基准测试原型,如今完善成正式的基准测试,并欢迎贡献和反馈。此帖获得了众多点赞和大量评论,引发了关于该基准测试的热烈讨论。

讨论的焦点和观点主要包括: 有人提议测试 Nemo 和 mistral large 等模型,作者表示会添加 Nemo。对于能否用 LLMs 作为评估者,有人表示困惑,难以获得准确结果。但也有人指出,LMSYS 用 gpt4 测试效果不错。还有人认为 LLMs 作为评估者存在混淆精度和准确性的问题,不过多增加样本可提高精度。有人希望能看到 opus 以及其他 gpt4 模型的测试结果。有人提出增加是否被审查的列,作者称已有“拒绝率”列,但因评估模型受限,该列信息不够有用。有人认为应测试场景跟随的角色扮演,作者回应会考虑。有人质疑 gpt-4o-mini 为何高于 gpt-4o,作者称前者似乎限制更少。有人指出当前评估存在问题,如单次调用可能导致污染,应增加评估指标和权重,作者表示认同并计划改进。有人希望能有关于评判方式的简要说明。有人测试了 3 个 LLMs 互相评估,但效果不佳。有人认为 Opus 应在测试中表现出色,实际添加后 Opus 排名第一。也有人认为测试的模型过少,还应测试 Gemini 等模型。

总体而言,大家对于该基准测试的关注度较高,讨论中既有对测试方法和结果的疑问,也有提出的改进建议和期待。在不断的交流中,有望推动该基准测试的进一步完善和发展。