原贴链接

如果我们让10个不太聪明的人在一个房间里争论并互相验证说法，最后能否得到有价值的见解呢？现在将“不太聪明的人”替换为并不笨的大型语言模型（一般30亿参数或更小的模型），如果我们将10个这样的模型置于一个环境中，并且如果我们给它们一个提示（比如一个代码问题）让它们“争论”，这是否会比单个“不太好”的大型语言模型表现更好呢？

讨论总结

原帖探讨将10个类似LLM的事物放在一起针对特定提示进行“争论”，是否会比单个LLM表现更好。评论者从多个方面进行回应，有人从计算机科学的已知方法角度分析，有人提出自己正在进行的相关实验项目，也有人类比人类群体智慧进行思考，还有人从技术分析的角度指出可能存在的难点，整体氛围积极且充满探索性。

主要观点

👍 笨人间互相争论难以得出有价值的见解，除非有人有正确答案并能说服他人
- 支持理由：若无正确答案引导，争论易无结果。
- 反对声音：无。
🔥 多个LLM进行类似争论是计算机科学中的已知方法
- 正方观点：计算机科学中有类似Meta - BLANK的方法。
- 反方观点：无。
💡 多个小的个体（人或模型）需要通往正确答案的路径
- 解释：小个体若想得出正确答案需要引导或特殊条件。
💡 以人类实验结果类比模型可能的情况
- 解释：以人类猜马重量的实验类比模型交互。
💡 原帖的多模型交互方式类似某些推理模型工作方式
- 解释：在评估、生成、优化等环节存在相似性。

金句与有趣评论

“😂 Not unless one of them has the right answer and a way to convince the others.”
- 亮点：简洁点明笨人争论得出价值见解的关键条件。
“🤔 This is a known method in computer science. Usually methods like this are called Meta - BLANK where BLANK is whatever is being studied.”
- 亮点：指出多LLM争论在计算机科学中的依据。
“👀 A group of smaller LLM’s, or dumb people would still need a path to the right answer.”
- 亮点：强调小个体需要通往正确答案的路径。
“😂 Experiments have shown this in humans. Take a city of 10000 people, show them a horse, and actually have each person guess the horses weight. Guesses will vary widely. Except if you take the average of all the peoples guesses – it turns out that the answer is always extremely close.”
- 亮点：以具体人类实验阐述群体智慧。
“🤔 模型是在评估方面比生成方面表现更好。”
- 亮点：指出模型在不同方面能力的差异。

情感分析

总体情感倾向为积极探讨。主要分歧点在于对原帖中多LLM“争论”是否一定比单个LLM表现好的看法上，原因是不同评论者从不同角度（如计算机科学原理、人类类比、技术难点等）出发，有各自的考量因素。

趋势与预测

新兴话题：将自我批判扩展到协同使用更多模型。
潜在影响：如果多LLM协作被证实有效，可能会改变LLM的使用和训练方式，提高推理质量等，对自然语言处理领域产生积极影响。

详细内容：

标题：关于群体智能与 LLMs 的热门讨论

在 Reddit 上，有这样一个引人深思的帖子：“如果我们把 10 个不太聪明的人放在一个房间里，让他们争论并互相验证对方的主张，最后能得到有价值的见解吗？现在把‘不太聪明的人’换成并非愚笨的 LLMs（一般是 3b 或更轻量级的模型），如果将 10 个这样的模型置于一个环境中，并给它们一个提示让它们‘争论’，比如一个代码问题，这会比单个‘不太聪明的’LLM 表现更好吗？”此帖获得了众多关注，引发了热烈讨论。

讨论的焦点主要集中在以下几个方面：有人认为除非其中一个模型有正确答案并且有办法说服其他模型，否则这种方法未必可行。也有人指出这在计算机科学中是一种已知方法，只要有确定哪个答案更好的方法，就可以应用，多次询问也是如此。但问题在于确定对于任意问题在任意领域中哪个答案更好。有人分享经验称，如果给一组不太聪明的 LLMs 一个正确答案去辩论，结果往往会“被纠正”到不再正确。而更聪明的 LLMs 在辩论方面表现更好，甚至能在其他 LLM 有更好观点时认识到自己的错误。有人提出投票有时对较小的模型有效，但发现不同的不太聪明的模型投票可能会使结果更糟，或许可以采用路由的方式，比如根据每个 LLMs 对特定类型问题的已知能力/准确率进行分配。

还有人正在研究让一组 LLMs 接收提示并写出响应，然后将这些响应连接并标记，再让模型投票或进行比赛，直到只剩下一个响应。也有人提到了类似的实验在人类中也有，比如让一万人猜测马的体重，取平均值往往非常接近真实值。有人质疑如果是一万个五岁孩子猜测结果可能不同。

有人认为多个中等智力的人一起解决问题，在多数情况下会超过单个天才的表现。也有人认为 LLMs 虽然不是中等人类智力，但在联网、升级、获取信息和记忆方面的能力意味着它们在许多领域已经远远超过人类。

特别值得一提的是，有人提到 OpenAI 的 O 模型就是由数百或数千个较小的模型共同工作来产生不同答案，并确定哪个最可能正确。

这场讨论展现了对于群体智能与 LLMs 结合方式的多样观点和深入思考，究竟哪种方式能够带来更出色的表现，还有待进一步的研究和实践来验证。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#