原贴链接

我觉得使用更强大的大型语言模型（LLM）来实现类人讲话可能是背道而驰的。我的思考过程是这样的：Llama 3.3和Llama 1有什么区别呢？我指的不是技术方面。让我们回到过去，在只有2048个标记的上下文窗口的时候；在像NTK RoPE缩放之类的技术出现之前，当时你只能选择线性RoPE缩放和/或超级热门（superHoT）模型。忘掉所有技术差异，然后思考：当时的模型和现在的模型有什么区别呢？是训练中的合成数据，对吧？当时的模型如果有合成数据的话也是非常少的。甚至大多数聊天模型很少基于用户/助手类型的交互进行训练。训练数据大多是人类文本。但是现在呢？现代模型在训练数据中融入了大量的“GPT风格”内容，甚至都还没说到指令调整（instruct tune）有多糟糕。所以当然当你和它对话时，它听起来就会像我们现在期望的人工智能助手那样。而且我们得到的模型越强大，就会看到越多这样的合成数据融入其中。在我看来，为此目的回过头去尝试一些旧模型是很有意义的，比如使用一个工作流程，让最后一步使用旧的Llama 1模型来重写现代大型语言模型的输出。只是为了测试，我更新了我的一个Wilmer工作流程，使用Mistral Small作为思考者，Guanaco 65b作为回应者。我让Mistral写出最初试图听起来像人类的回应，然后给Guanaco非常简单的指令，让它拿那个回应并重写使其听起来更像人类。然后我用ChatGPT和Llama 3.3 70b做了同样的事情。（注意：这是一个非常小且简单的概念验证（POC）测试，通过适当的提示输出质量可以高得多，但我只是好奇会有什么区别。）我问了这个问题：“你更喜欢Java还是C#？”Mistral Small的回应很完整且写得很好，但也很明显是人工智能写的。ChatGPT重写后的回答仍然听起来像人工智能助手。Guanaco 65b重写后的回答感觉更像人类一点。Llama 3.3重写后的回答比较符合预期，Llama决定像人类一样重写时不使用大写字母，并且添加了一些自己的细节。这只是一个非常简单的概念验证，只是为了说明我的意思，我可能会花更多时间深入研究这个想法，但我真的认为这些旧模型仍然有价值，特别是在试图写出听起来更“人类”的东西时，比如文章或电子邮件写作。不管怎样，只是一个我觉得可能会引发一些讨论的想法。

讨论总结

原帖提出使用更强大的大型语言模型（LLMs）来使输出更像人类可能是错误方向，建议使用旧的Llama 1时代模型（如Guanaco 65b）重写现代LLMs的输出以得到更像人类的结果，并通过简单测试展示差异。评论者们从不同角度进行回应，部分赞同旧模型在这方面的价值，部分则提出反对意见或者补充不同的看法，整体讨论氛围比较理性和平和。

主要观点

👍 旧模型在使输出更像人类方面有价值
- 支持理由：早期模型中的GPT风格表述远少于现在，受合成数据影响小。
- 反对声音：旧模型会受新模型影响暴露出内在不严谨性。
🔥 现代模型训练数据影响输出风格
- 正方观点：现代模型的训练数据包含大量合成数据导致有“GPTisms”等问题。
- 反方观点：影响生成类人语言的主要不是合成数据，而是奖励模型的单一性。
💡 不同的LLMs各有优劣，适用于不同任务
- 解释：如Llama适用于广泛话题“交谈”，Phi适合简单单步任务。
👍 可以通过特定方式优化模型输出
- 支持理由：如微调模型、利用上下文学习或生成DPO数据集等。
- 反对声音：原帖的利用旧模型重写新模型输出的方式可能不是根本解决办法。
🔥 原帖观点存在局限性
- 正方观点：原帖有默认情况的局限性，可通过特定提示改变模型回答方式。
- 反方观点：原帖关于旧模型的想法是有趣且有一定价值的。

金句与有趣评论

“😂 Barry_22: Completely agree. Some of the most amazing experiences I had with AI were with the older models.”
- 亮点：直接表达对旧模型的认可，以自身经历支持原帖观点。
“🤔 SomeOddCodeGuy: With each iteration, we’re adding more and more synthetic data into the training; ie, we’re taking ChatGPT outputs and training them back into the models.”
- 亮点：指出模型迭代中合成数据增加的现象。
“👀 I really think that there’s still value in these old models, especially when trying to write things that sound more "human", like maybe article or email writing.”
- 亮点：强调旧模型在生成像人类表述内容方面的价值。
“😎 当一个AI以概念“思考”时，输出可以通过任何语言或风格的解释器。”
- 亮点：提出关于AI输出转换的有趣想法。
“🤨 我发现添加像“像人类（插入职业、情绪状态等可能带来预期结果的内容）那样回答”这样的内容会得到更理想的结果。”
- 亮点：提供一种让回答更像人类的尝试性方法。

情感分析

总体情感倾向比较中立理性，主要分歧点在于对原帖提出的利用旧模型来修正新模型输出以使其更像人类这一观点上。赞同者认为旧模型有价值，反对者认为这不是根本解决办法或者存在其他影响因素。可能的原因是大家从不同的专业角度（如模型训练原理、实际应用效果等）和使用经验出发看待这个问题。

趋势与预测

新兴话题：大型概念模型的发展以及稳定主流化后的影响。
潜在影响：如果能让模型输出更像人类，可能会影响用户对AI输出内容的信任度，在不同任务场景下人们对LLMs的选择策略可能会发生改变。

详细内容：

标题：关于利用新强大的语言模型以追求更像人类语言的探讨

在 Reddit 上，一则题为“Theory: trying to use newer and more powerful LLMs to sound more human is likely moving in the wrong direction”的帖子引起了热烈讨论。该帖子认为，使用更强大的语言模型来试图实现像人类一样的语言表达可能偏离了解决问题的正确方向，并阐述了自己的思考过程。此帖获得了众多关注，评论数众多，引发了关于新旧语言模型在语言表达自然度方面的深入探讨。

讨论焦点主要集中在以下几个方面：有人完全赞同原帖观点，认为早期的一些模型能带来更令人惊喜的体验。也有人指出，随着迭代，训练数据中合成数据增多，导致语言模式出现“GPT 式”特点。还有人认为，早期模型训练数据主要来自人类文本，而现代模型则包含大量合成数据。

比如，有用户分享道：“Yea, I remember one reason folks really liked Guanaco so much was its training data. With each iteration, we’re adding more and more synthetic data into the training; ie, we’re taking ChatGPT outputs and training them back into the models. Each time it ingrains that manner of speech more and more into the models. Then we try to fine - tune it back out, but that creates this weird muddled combination of overfitted roleplay chat + an underlying foundation of GPTisms.”

对于此话题，存在一定的共识，即都认识到了新旧模型在训练数据和语言表达上的差异。但也存在争议，比如关于直接使用其他模型的输出进行训练是否会导致模型性能下降，不同用户持有不同观点。

有用户提出：“This is completely wrong. Directly Training a model on the output of another model causes model collapse (aka much much worse performance)”，但也有用户反驳称这一观点已被多次辟谣。

特别有见地的观点如，有人认为应将旧模型作为新模型输出的“编辑者”，以使其更具人类语言的特点。

总之，关于语言模型如何更自然地表达语言，Reddit 上的讨论丰富多样，为这一领域的思考提供了多元的视角。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#