原贴链接

我创建了一种新型的谋杀谜题推理游戏,玩家需要利用空间和时间陈述进行推理以找出凶手。你可以在https://mystery - o - matic.com进行测试,并且所有用于生成新谜题的代码都是开源的,地址为https://github.com/mystery - o - matic/mystery - o - matic.github.io/。一些有趣的特性如下:

  1. 这些谜题只有文本形式,有英语和西班牙语版本。
  2. 这是一种新型谜题,受《妙探寻凶》(https://en.wikipedia.org/wiki/Cluedo)、《每日谋杀谜题》(https://murdle.com/)等的影响,但在数据集中找不到这种谜题(如果我错了请告诉我!)
  3. 每个案件的线索总数通常少于30条,句子较短。我推测所需的上下文量不会太大(不过,在提示中包含教程可能会有用)。
  4. 有一些参数可以控制与嫌疑人数、房间数、武器数等相关的难度。
  5. 如果考虑所有给出的线索,总是可以解开谜题,但通常的想法是给玩家不(那么)冗余的线索,以最大限度地从每条线索中提取信息量,这样就可以调整难度级别。 我想知道这是否足以生成一个新的数据集来测试大语言模型,如果有足够的兴趣,希望与社区互动。

编辑:对于任何有兴趣快速测试自己的大语言模型的人,请查看此评论https://www.reddit.com/r/LocalLLaMA/comments/1htd9rc/comment/m5dy72p/

讨论总结

原帖介绍了一种新的谋杀谜题,可用于测试大型语言模型(LLMs),并且具备多种特性。评论者们对这个谜题展开了多方面的讨论,包括将其与斑马谜题进行比较,探讨谜题的难度、解题方式、是否适合测试LLMs,以及谜题中的一些设定等,讨论整体氛围比较理性,不同观点相互交流。

主要观点

  1. 👍 新的谋杀谜题像是普通斑马谜题
    • 支持理由:谜题结构和解题思路有相似之处。
    • 反对声音:无明确反对声音。
  2. 🔥 点击线索增加解题难度
    • 正方观点:需要记忆线索,操作不便。
    • 反方观点:无。
  3. 💡 当前案例在“困难模式”下也过于简单
    • 理由:解题所需关键信息无需推理可得,嫌疑人少且部分线索过强。
  4. 💡 认可创建谜题用于测试LLMs的做法
    • 理由:对原帖提出的创新想法表示支持。
    • 反对声音:有评论者对此持怀疑态度。
  5. 💡 希望谜题中的线索能直接列出而非切换查看
    • 理由:方便查看和解题。

金句与有趣评论

  1. “😂 看起来对我来说就像普通的斑马谜题?”
    • 亮点:直接点明新谜题与斑马谜题的相似性,开启了后续关于谜题类型的讨论。
  2. “🤔 必须点击线索而不是仅仅列出它们,这使得解决问题变得更加困难,因为你必须记住它们。”
    • 亮点:指出谜题设计中的一种不便之处,影响解题体验。
  3. “👀 当前的案例即使在“困难模式”下也超级简单。”
    • 亮点:对谜题难度提出质疑,引发关于谜题难度设置合理性的讨论。
  4. “👍 this is awesome!”
    • 亮点:简洁表达对原帖创建谜题用于测试LLMs做法的认可。
  5. “🤔 I doubt it. A murder mystery is interesting for LLMs because they become convoluted with a bunch of loose ends, red herrings, loose connections & deductions that lead to others.”
    • 亮点:阐述了对于真正的谋杀谜题用于测试LLMs更有价值的观点,与原帖形成对比讨论。

情感分析

总体情感倾向为中性。主要分歧点在于新的谋杀谜题是否适合用于测试LLMs以及谜题的难度设置。可能的原因是评论者们从不同角度看待谜题的功能和设计,有的从普通用户解谜体验出发,有的从测试LLMs的需求出发。

趋势与预测

  • 新兴话题:可能会出现更多关于如何改进谜题以更好地适用于测试LLMs的讨论。
  • 潜在影响:如果能够改进并成功用于测试LLMs,可能会为LLMs推理能力评估提供新的数据集,也可能影响相关谜题的开发方向。

详细内容:

标题:新型谋杀谜题引发Reddit热议,能否成为测试LLMs的优质数据集?

近日,Reddit上出现了一个关于新型谋杀神秘推理谜题的热门讨论。原帖作者创建了一种新的谋杀谜题,玩家需通过空间和时间陈述进行推理找出凶手。该谜题可在https://mystery-o-matic.com进行测试,生成新谜题的代码也已开源,可在https://github.com/mystery-o-matic/mystery-o-matic.github.io/查看。此帖获得了众多关注,引发了激烈的讨论。

讨论的焦点集中在这种新型谜题与常见的类似谜题的差异,以及它是否适合作为测试LLMs的新数据集。有人认为它看起来像普通的斑马谜题,但点击查看线索而非直接列出的方式增加了解决难度,需要玩家记忆线索。也有人指出,斑马谜题是纯粹的逻辑谜题,没有时间推理,而此谜题更接近穆德尔谜题。

有用户将其中一个谜题转录为文本,以便人们在本地LLMs上进行测试,并给出了解决方案,但也有其他用户提出了不同的答案。比如,一位用户给出的答案是“Bob,3:15,Gun!”,但原作者表示Bob在错误的时间和地点,不是凶手。

还有用户认为此谜题在执行上存在不足,线索给出方式简单,大多数LLMs都能轻松解决。但也有人觉得这是个很棒的主意,作为日常的智力挑战会很有趣。

对于它是否能成为测试LLMs的优质数据集,各方观点不一。有人推荐查看MuSR paper这一基于谋杀谜题的数据集和数据合成技术用于评估LLM推理。

究竟这种新型谋杀谜题能否为测试LLMs带来新的突破,还有待进一步观察和探讨。