原贴链接

我创建了一种新型的谋杀谜题推理游戏，玩家需要利用空间和时间陈述进行推理以找出凶手。你可以在https://mystery - o - matic.com进行测试，并且所有用于生成新谜题的代码都是开源的，地址为https://github.com/mystery - o - matic/mystery - o - matic.github.io/。一些有趣的特性如下：

这些谜题只有文本形式，有英语和西班牙语版本。
这是一种新型谜题，受《妙探寻凶》（https://en.wikipedia.org/wiki/Cluedo）、《每日谋杀谜题》（https://murdle.com/）等的影响，但在数据集中找不到这种谜题（如果我错了请告诉我！）
每个案件的线索总数通常少于30条，句子较短。我推测所需的上下文量不会太大（不过，在提示中包含教程可能会有用）。
有一些参数可以控制与嫌疑人数、房间数、武器数等相关的难度。
如果考虑所有给出的线索，总是可以解开谜题，但通常的想法是给玩家不（那么）冗余的线索，以最大限度地从每条线索中提取信息量，这样就可以调整难度级别。我想知道这是否足以生成一个新的数据集来测试大语言模型，如果有足够的兴趣，希望与社区互动。

编辑：对于任何有兴趣快速测试自己的大语言模型的人，请查看此评论https://www.reddit.com/r/LocalLLaMA/comments/1htd9rc/comment/m5dy72p/

讨论总结

原帖介绍了一种新的谋杀谜题，可用于测试大型语言模型（LLMs），并且具备多种特性。评论者们对这个谜题展开了多方面的讨论，包括将其与斑马谜题进行比较，探讨谜题的难度、解题方式、是否适合测试LLMs，以及谜题中的一些设定等，讨论整体氛围比较理性，不同观点相互交流。

主要观点

👍 新的谋杀谜题像是普通斑马谜题
- 支持理由：谜题结构和解题思路有相似之处。
- 反对声音：无明确反对声音。
🔥 点击线索增加解题难度
- 正方观点：需要记忆线索，操作不便。
- 反方观点：无。
💡 当前案例在“困难模式”下也过于简单
- 理由：解题所需关键信息无需推理可得，嫌疑人少且部分线索过强。
💡 认可创建谜题用于测试LLMs的做法
- 理由：对原帖提出的创新想法表示支持。
- 反对声音：有评论者对此持怀疑态度。
💡 希望谜题中的线索能直接列出而非切换查看
- 理由：方便查看和解题。

金句与有趣评论

“😂 看起来对我来说就像普通的斑马谜题?”
- 亮点：直接点明新谜题与斑马谜题的相似性，开启了后续关于谜题类型的讨论。
“🤔 必须点击线索而不是仅仅列出它们，这使得解决问题变得更加困难，因为你必须记住它们。”
- 亮点：指出谜题设计中的一种不便之处，影响解题体验。
“👀 当前的案例即使在“困难模式”下也超级简单。”
- 亮点：对谜题难度提出质疑，引发关于谜题难度设置合理性的讨论。
“👍 this is awesome!”
- 亮点：简洁表达对原帖创建谜题用于测试LLMs做法的认可。
“🤔 I doubt it. A murder mystery is interesting for LLMs because they become convoluted with a bunch of loose ends, red herrings, loose connections & deductions that lead to others.”
- 亮点：阐述了对于真正的谋杀谜题用于测试LLMs更有价值的观点，与原帖形成对比讨论。

情感分析

总体情感倾向为中性。主要分歧点在于新的谋杀谜题是否适合用于测试LLMs以及谜题的难度设置。可能的原因是评论者们从不同角度看待谜题的功能和设计，有的从普通用户解谜体验出发，有的从测试LLMs的需求出发。

趋势与预测

新兴话题：可能会出现更多关于如何改进谜题以更好地适用于测试LLMs的讨论。
潜在影响：如果能够改进并成功用于测试LLMs，可能会为LLMs推理能力评估提供新的数据集，也可能影响相关谜题的开发方向。

详细内容：

标题：新型谋杀谜题引发Reddit热议，能否成为测试LLMs的优质数据集？

近日，Reddit上出现了一个关于新型谋杀神秘推理谜题的热门讨论。原帖作者创建了一种新的谋杀谜题，玩家需通过空间和时间陈述进行推理找出凶手。该谜题可在https://mystery-o-matic.com进行测试，生成新谜题的代码也已开源，可在https://github.com/mystery-o-matic/mystery-o-matic.github.io/查看。此帖获得了众多关注，引发了激烈的讨论。

讨论的焦点集中在这种新型谜题与常见的类似谜题的差异，以及它是否适合作为测试LLMs的新数据集。有人认为它看起来像普通的斑马谜题，但点击查看线索而非直接列出的方式增加了解决难度，需要玩家记忆线索。也有人指出，斑马谜题是纯粹的逻辑谜题，没有时间推理，而此谜题更接近穆德尔谜题。

有用户将其中一个谜题转录为文本，以便人们在本地LLMs上进行测试，并给出了解决方案，但也有其他用户提出了不同的答案。比如，一位用户给出的答案是“Bob，3:15，Gun！”，但原作者表示Bob在错误的时间和地点，不是凶手。

还有用户认为此谜题在执行上存在不足，线索给出方式简单，大多数LLMs都能轻松解决。但也有人觉得这是个很棒的主意，作为日常的智力挑战会很有趣。

对于它是否能成为测试LLMs的优质数据集，各方观点不一。有人推荐查看MuSR paper这一基于谋杀谜题的数据集和数据合成技术用于评估LLM推理。

究竟这种新型谋杀谜题能否为测试LLMs带来新的突破，还有待进一步观察和探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#