尝试了几个llama 3 70b模型，所有模型都在完全不相关的情节中一遍又一遍地重复"锐利的蓝眼睛"这个词，旁边还有其他词。

这只是我遇到的问题吗？

本次讨论主要围绕“piercing blue eyes”这一短语在多个 llama 3 70b 模型中反复出现的现象展开。讨论者们普遍认为这种现象被称为“GPTisms”，即模型在生成文本时反复出现某些特定短语的问题。主要观点包括：

👍 “piercing blue eyes”这一短语在多个模型中反复出现，被称为“GPTisms”。
- 支持理由：许多模型家族都存在类似问题，尤其是在角色扮演论坛中被标记为“Slop”。
- 反对声音：无明显反对声音，但有讨论如何解决这一问题。
🔥 问题源于微调过程中使用了重复该短语的数据集。
- 正方观点：该短语已被“烘焙”进模型中，导致其在生成文本时反复出现。
- 反方观点：无明显反方观点，但有讨论如何避免类似问题。
💡 建议使用未经过角色扮演垃圾数据微调的模型。
- 解释：使用真实书籍数据训练的模型可能更有效，避免数据污染问题。
💡 “piercing blue eyes”在人类文学中是一个陈词滥调。
- 解释：尤其在粉丝小说和角色扮演文本中频繁出现，导致AI生成内容中更为常见。
💡 现代叙事中，某些短语可能被解读为与种族主义相关。
- 解释：AI用户可能没有意识到这些短语为何让人感到不适，但本能地察觉到其过度使用。

“😂 Those are called GPTisms and lots of models families have them”
- 亮点：明确指出了问题的普遍性，简洁有力。
“🤔 This junk happens because so much RP training data is synthetic it’s been badly infected with chatgpt-isms and claude-isms.”
- 亮点：深入分析了问题的原因，指出了数据污染的影响。
“👀 Try the Nemo Gutenberg model I linked, it has a bunch of variants but I had the best experience with v2.”
- 亮点：提供了具体的解决方案，具有实际操作性。
“😂 My sides! It’s so hilarious to see these laid out one after another like this.”
- 亮点：以幽默的方式表达了对现象的惊讶和无奈。
“🤔 I recently watched a video where the Cohere CEO talked about his disgust for the synthetic data and LLMs training each other.”
- 亮点：引用了行业领袖的观点，增加了讨论的权威性。

讨论的总体情感倾向较为复杂，既有对技术问题的关注和担忧，也有对文学和叙事方式的批判性解读。主要分歧点在于如何看待“piercing blue eyes”这一短语的反复出现，以及如何解决这一问题。部分讨论者对此表示幽默和无奈，而另一些则提出了具体的解决方案和改进建议。

详细内容：

标题：关于 LLaMa 3 70b 模型中“piercing blue eyes”的重复现象引发的讨论

近日，Reddit 上有一个帖子引起了广泛关注，该帖子指出在尝试了几款 LLaMa 3 70b 模型后，发现它们在完全不相关的故事中反复出现“piercing blue eyes”这个短语。此帖获得了众多用户的关注，引发了热烈的讨论。

讨论焦点主要集中在为何会出现这种重复现象以及如何解决。有人表示这被称为 GPT 现象，很多模型家族都存在这种情况，原因是大量的角色扮演（RP）训练数据是合成的，被 ChatGPT 现象和 Claude 现象严重影响。还有用户提供了一些解决方案的链接，比如：https://huggingface.co/TheDrummer/UnslopNemo-v1-GGUF和https://huggingface.co/mradermacher/mistral-nemo-gutenberg-12B-v2-GGUF。

有人分享道：“我最近看了一个视频，其中 Cohere 的 CEO 谈到了他对合成数据的厌恶以及语言模型之间相互训练的情况。所以，我试用了 Command-R，希望能避免这些表达。但结果还是会出现‘我忍不住’‘未来可能会怎样’‘心中充满骄傲’这样的表述。”

也有用户提到，“Piercing blue eyes 这种表述在人类文学中也是一种陈词滥调，在写作课上经常会讲到。AI 的数据集包含了大量的同人小说和角色扮演内容，这些内容中充斥着很多这样的陈词滥调。”

还有用户推荐了新的采样算法 XTC，称其在创意写作和角色扮演方面效果惊人，并提供了相关链接：https://github.com/oobabooga/text-generation-webui/pull/6335 https://github.com/SillyTavern/SillyTavern/pull/2742 。

关于这一现象，大家观点各异，但普遍认为这是模型训练数据和算法方面存在的问题，需要进一步优化和改进。然而，对于具体的解决方法和未来的发展方向，仍存在着诸多争议和探讨的空间。

详细内容：#