原贴链接

嗨,r/LocalLLaMA!你有没有想过大型语言模型(LLMs)下象棋能下得多好?剧透一下:它们短期内不会对马格努斯·卡尔森(Magnus Carlsen)构成挑战,但它们揭示了人工智能中的很多策略和“思考”方式。出于对国际象棋的热爱和对人工智能的好奇,我决定探究不同的开源模型如何应对象棋游戏。这个项目得出了一个独特的排行榜,展示了各种LLMs的战术和战略规划能力,所有模型都与象棋强手Stockfish进行了对弈。网址:https://llminfo.image.fangd123.cn/images/rs85dyet4pzd1.png!/format/webp。为什么选择象棋?象棋是测试规划、策略和适应性的最佳场所之一,这些都是我们在强大的人工智能中所寻求的特质。通用的LLMs并非被设计为象棋大师,所以它们缺少专门针对象棋的目标函数。但将它们置于这种环境有助于凸显它们的优势和局限性。这是一种在没有象棋专用数据集的情况下观察它们“涌现”能力的方式。如何设置的呢?在Nebius AI Studios的帮助下,我访问了17个开源的最先进(SOTA)模型(还有一些积分!)。比赛是这样进行的:1. LLMs对战Stockfish:每个模型与Stockfish进行多场比赛。2. 评估指标:不仅仅是胜负(没有LLM能真正击败Stockfish),我通过以下指标分析走法质量:累积兵卒损失(Cumulative Centipawn Loss):衡量一步棋离最优棋的差距;失误计数(Blunder Count):统计严重错误;不准确计数(Inaccuracy Count):衡量中等位置错误;前N步匹配(Top - N Move Matches):模型的走法与Stockfish的建议相匹配的频率;ELO等级分(ELO Rating):基于比赛表现计算,假设每个模型起始ELO为1500。主要见解:ELO范围:最强的模型得分在1248到1354之间,远低于Stockfish,但有趣的是得分较为集中。一些模型,如Llama - 3.1 - 70B,得分一直较高,显示出其在战略规划方面的相对优势;失误分析:像DeepSeek - Coder - V2和GPT - 4o这样的模型失误更多,而像Mixtral - 8x7B和Llama - 3.1 - 70B这样的模型更稳定;累积兵卒损失:Llama - 3.1 - 70B、Nemotron - 70B和Mixtral - 8x22B显示出较低的累积兵卒损失,暗示着更高的精度。然而,没有一个模型能接近Stockfish的准确性。本质上,通用的LLMs可以参与象棋游戏,但它们缺乏象棋训练是显而易见的。这个实验强调,虽然这些人工智能可以在一定程度上进行规划,但它们远不是专门的引擎的对手。超越AGI?这个探索提出了一个有趣的问题:我们是否应该专注于在特定领域表现出色的超专业化人工智能,而不是通才型的AGI?也许人工智能的未来在于相互协作的专门化系统,每个系统都是自己领域的大师。尝试一下并作出贡献!这个象棋锦标赛的完整代码在GitHub上是开源的,所以请随意查看、分叉并进行试验:GitHub - fsndzomga/chess_tournament_nebius_dspy。让我知道你的想法!你希望看到哪些模型挑战Stockfish?或者,你对于LLMs如何展示战略思维有其他想法吗?

讨论总结

原帖作者分享了关于不同开源LLMs与Stockfish下象棋的实验,包括实验设置、评估指标、关键见解等,并引发对AGI发展方向的思考。评论者们的讨论主题主要集中在LLMs在象棋游戏中的表现、能力提升的方式、测试结果的可靠性等方面,大家各抒己见,氛围较为理性且充满探索性。

主要观点

  1. 👍 系统基于平均水平工作时,在象棋中的表现也是平均水平
    • 支持理由:根据观察图表中的评级,得出系统工作水平与象棋表现水平的关联。
    • 反对声音:无。
  2. 🔥 基于平均水平工作的系统可能与超级智能有关,应思考不同方法
    • 正方观点:系统工作水平与超级智能存在联系,需要探索不同方法来研究这种关系。
    • 反方观点:无。
  3. 💡 用高水平象棋记录训练系统可能会提高其表现
    • 支持理由:通过训练可能会让系统学习到更好的下棋策略。
    • 反对声音:有人认为这需要大量不存在的棋局。
  4. 💡 目前最好的引擎基于实际几何而非标记工作,效率低下
    • 支持理由:当前引擎工作方式导致效率低。
    • 反对声音:无。
  5. 💡 对原帖确定ELO评级的方式存疑
    • 支持理由:不清楚原帖是否让模型互相完整对战确定ELO评级,且未检查统计显著性会使结果可信度降低。
    • 反对声音:无。

金句与有趣评论

  1. “😂 kingmanic: Seems to be the rating of the median/average chess player who has a rating. Seems apt that a system that works on average would be an average player making average skill moves.”
    • 亮点:以形象的比喻阐述系统工作水平和象棋表现水平的关系。
  2. “🤔 franckeinstein24: which makes me wonder if a system that works on average could be the ingredient for superintelligence. do we have to think about different approaches maybe?”
    • 亮点:提出平均水平系统与超级智能的关系,引发深度思考。
  3. “👀 spokale: 我制作了一个基于70B模型的象棋聊天机器人,它试图居高临下地说服我它的违规走法是可能的。”
    • 亮点:揭示了LLMs在象棋应用中的模型缺陷。

情感分析

总体情感倾向为中性偏积极。大部分评论者在理性探讨LLMs下象棋相关的话题,如对原帖实验的肯定、对LLMs能力提升的思考等,存在一定的分歧点在于对原帖实验设置和结果的质疑,但这些分歧也是在探索性的氛围下提出的,旨在深入讨论LLMs在象棋游戏中的各种情况。

趋势与预测

  • 新兴话题:对LLMs在不同象棋变体中的表现探索、特定指令对LLMs下棋能力的影响。
  • 潜在影响:有助于进一步研究LLMs在特定任务中的表现和能力提升方向,对人工智能在棋类游戏以及更广泛领域的发展有一定的推动作用。

详细内容:

《当大型语言模型挑战国际象棋:探索与思考》

在 Reddit 的 r/LocalLLaMA 论坛上,一篇关于大型语言模型(LLMs)下国际象棋的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。帖子主要探讨了不同开源模型在国际象棋游戏中的表现,并通过实验呈现了它们的战术和战略规划能力。

在讨论中,观点精彩纷呈。有人认为像 Llama-3.1-70B 这类模型表现相对出色,展示了较强的战略规划能力;也有人提出疑问,比如如果让系统基于平均水平运作,是否能成为超级智能的要素。还有用户指出,如果针对高级国际象棋对局日志对模型进行训练,或许会有所提升。

有用户分享道:“作为一名国际象棋大师,这个实验很棒!”

对于模型在国际象棋中的表现,存在一些争议。有人觉得模型的表现还有很大提升空间,毕竟与专业的象棋引擎相比差距明显;但也有人认为这只是初步尝试,未来仍有很大潜力。

大家在讨论中也达成了一些共识,比如都认可这次实验对于研究模型的能力和局限性具有重要意义。

特别有见地的观点如有人提出能否通过给予特定指令来增强模型下棋能力,还有人思考高级国际象棋在某种程度上是否基于本能以及能否建模。

总之,这次关于 LLMs 下国际象棋的探索引发了众多有价值的讨论,让我们对模型的能力和未来发展有了更深入的思考。未来是专注于超专业化的 AI 还是通用的 AGI,还有待进一步探索。感兴趣的朋友可以通过GitHub - fsndzomga/chess_tournament_nebius_dspy查看完整代码并参与实验。