原贴链接

昨晚我生成了一个包含100个项目的列表，使用了Gemini、GPT4、GPT4o、llama405B、MistralLarge、CommandR和DeepSeek2.5。除了DeepSeek外，前六个模型生成的数据集几乎完全相同，并且分类也几乎一致。虽然模型之间的闲聊内容不同，但我所需的主要数据几乎完全一样，数据按类别的排序也相似。看着这些数据，我意识到它们都在趋同于同一个点。我不认为这个点指向ASI（超级智能）。考虑到它们几乎都在相同的数据上训练，这也难怪，但这让我深思。有人观察到同样的现象吗？

讨论总结

Reddit 用户对多个大型语言模型（LLMs）生成相似数据的现象进行了热烈的讨论。许多用户认为，由于模型训练过度依赖合成数据，且数据集高度一致，导致模型输出趋于同质化。一些用户观察到，不同的LLMs在处理任务时会以相同错误的方式解决，这也从侧面验证了LLMs趋于同质化的观点。然而，也有用户提出质疑，认为需要更具体的例子来判断这是否是一个普遍问题，还是仅仅因为数据集的偏见导致的特定情况。

主要观点

👍 LLMs在训练中过度依赖合成数据，导致模型之间的语言风格和表达方式趋于同质化。
- 支持理由：多个用户观察到不同LLMs生成相似数据的现象。
- 反对声音：一些用户认为需要更具体的例子来判断这是否是一个普遍问题。
🔥 LLMs在处理数据时的采样方法过于简单，导致生成文本时缺乏变化和创造性。
- 正方观点：一些用户认为LLMs的采样方法过于简单，导致输出结果缺乏多样性。
- 反方观点：一些用户认为LLMs在数据压缩方面表现出色，能够从大量信息中提取单一解决方案。
💡 LLMs的多模态学习和数据处理能力有待提高。
- 解释：一些用户认为LLMs在多模态学习和数据处理方面仍有改进空间。
合成数据在LLMs训练中起到了重要作用，但也带来了一定的问题。
- 解释：一些用户认为合成数据在LLMs训练中起到了重要作用，但也可能导致模型输出趋于同质化。
LLMs在智能方面相对平稳，但在功能特性上却飞速发展。
- 解释：一些用户认为LLMs的智能水平相对平稳，但功能特性在迅速提升。

金句与有趣评论

“😂 这些模型的参数和底层的学习能力并没有太大差异，关键在于它们使用的数据集。” —— 作者：ArsNeph
- 亮点：简洁明了地指出了模型趋同的原因。
“🤔 GPT slop是一种普遍存在的现象，它导致了模型之间的同质化。” —— 作者：ArsNeph
- 亮点：用“GPT slop”一词形象地描述了模型趋同的现象。
“👀 模型的多模态学习和数据处理能力对于提高其智能水平至关重要。” —— 作者：ArsNeph
- 亮点：强调了多模态学习和数据处理能力对LLMs发展的重要性。
“😂 我发誓，如果再有任何LLM给我生成关于“Whispering”的垃圾内容，我就不玩了。” —— DisasterNarrow4949
- 亮点：用幽默的方式表达了对LLMs生成重复内容的厌烦。
“🤔 基本上我试过的任何模型都会生成“Whispering forest of echoes”。” —— antiquechrono
- 亮点：用具体的例子说明了LLMs生成内容的趋同性。

情感分析

讨论的总体情感倾向是担忧和反思。用户担忧LLMs的趋同现象会导致模型的多样性和创造性下降，并对这种现象背后的原因进行了深入反思。主要分歧点在于，一些用户认为这是由于训练数据和采样方法导致的普遍问题，而另一些用户则认为这可能是个别情况，需要更具体的例子来验证。可能的原因是LLMs在训练过程中过度依赖合成数据，且数据集高度一致。

趋势与预测

新兴话题：如何提高LLMs的多样性和独特性，以及如何更好地利用多模态数据和噪声注入等方法来优化模型训练。
潜在影响：对LLMs的发展方向和未来应用产生重要影响，可能导致新的模型训练方法和优化策略的出现。

详细内容：

标题：LLMs 是否正在趋同？Reddit 热门讨论引发深思

最近，Reddit 上一篇题为“All LLMs are converging towards the same point”的帖子引发了热烈讨论。该帖作者称，使用多种语言模型生成 100 个项目的列表时，除了 DeepSeek 外，其他如 Gemini、GPT4、GPT4o、llama405B、MistralLarge、CommandR 和 DeepSeek2.5 等生成的数据集和分组几乎相同，所需的主要数据也极为相似，数据类别排序也相近。此帖获得了众多关注，引发了大量讨论。

讨论的焦点集中在多个方面。有人认为，模型趋同是因为它们大多基于相似的数据进行训练，比如[ArsNeph]指出，GPT 系列的开源微调多基于合成数据，导致语言风格和特点相似。但也有人提出不同看法，如[az226]认为还存在更强大的潜在因素。

有用户分享了自己的经历，如[Eheheh12]称在编码中遇到问题，询问 ChatGPT 和 Claude 得到了相同但不正确的解决方法，而在网上搜索时发现一个与之接近的解决方案。

关于模型趋同的原因，各方观点不一。[ortegaalfredo]认为是只有一个互联网供它们训练；[Sabin_Stargem]猜测是训练时基础数据集的投喂顺序固定导致。还有用户提出，如[NearbyApplication338]认为可能是模型中注入的随机性并非真正随机而是算法随机，从而导致趋同。

讨论中也存在共识，大家普遍认同模型训练数据和方式对其表现有重要影响。特别有见地的观点如[cyan2k]认为可以在采样和令牌集方面进行更多实验，根据不同场景调整。

然而，这一话题仍充满争议和不确定性。究竟是必然趋势还是可以通过改进避免，还有待进一步探讨。或许随着技术发展和研究深入，我们能找到答案。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#