原贴链接

像你一样，我也厌倦了这些冗余短语。我正在使用augmentoolkit / rptoolkit生成一些数据集，这些短语也在悄悄渗入。我不介意用sed来替换它们，但我需要一个常见冗余短语的列表。我目前只看到了一个列表（https://github.com/AlpinDale/gptslop）。你最不喜欢的标志性短语是什么？我会更新这个列表。

你无法抑制地感受到一种[敬畏和惊奇]
总之，
需要注意的是
照料
微风
[微小，小巧，娇小等]
[跳舞的手，沙哑的喉咙]
[织锦般的]
脊背发凉
[几乎听不见的低语]

讨论总结

帖子作者对常见的“slop phrases”表示厌倦，并寻求避免这些短语的方法。评论者们从多个角度进行了讨论，包括使用技术工具（如exl2、tabby-api）来禁止特定短语，优化提示以生成更自然的内容，以及分享和讨论已有的“slop phrases”列表。此外，还有对语言模型（如GPT-3）如何学到这些短语的探讨，以及对这些短语在故事模式和技术文本中适用性的争议。

主要观点

👍 避免使用聊天/指令微调生成合成数据
- 支持理由：直接提供示例更简单有效。
- 反对声音：部分用户认为微调仍有其独特价值。
🔥 通过提示优化减少礼貌用语
- 正方观点：要求模型简短回答，使用JSON格式强制输出。
- 反方观点：可能影响文本的自然流畅性。
💡 使用工具禁止特定短语
- 支持理由：exl2和tabby-api可以强制模型生成替代文本。
- 反对声音：操作复杂，需技术支持。
📚 分享和讨论“slop phrases”列表
- 支持理由：有助于共同识别和避免这些短语。
- 反对声音：列表可能不够全面。
🤖 探讨语言模型学习短语的机制
- 支持理由：有助于理解模型行为。
- 反对声音：复杂度高，难以完全解释。

金句与有趣评论

“😂 phree_radical：One reason why I would steer clear of using a chat/instruct fine-tune to generate synthetic data, when it's easy to just throw some examples at a base model”
- 亮点：简洁明了地指出直接示例的优势。
“🤔 matteogeniaccio：\"Sure! What a wonderful question. Let's delve into the reasons why the code causes a page fault\"”
- 亮点：幽默讽刺地展示礼貌用语的过度使用。
“👀 On-The-Red-Team：God... \"dancing hands\". I hate that crap. It makes me want to laugh with a \"husky throat\".”
- 亮点：通过夸张表达对特定短语的强烈反感。

情感分析

总体情感倾向是厌倦和反感，尤其是对“slop phrases”的过度使用。主要分歧点在于如何有效避免这些短语的使用，以及这些短语在不同文本类型中的适用性。部分用户表现出对技术解决方案的积极态度，但也有对操作复杂性的担忧。

趋势与预测

新兴话题：如何通过更智能的工具和提示优化来避免陈词滥调。
潜在影响：可能推动文本生成技术的发展，提升生成内容的质量和多样性。

详细内容：

《Reddit 上对常见“废话短语”的热烈讨论》

在 Reddit 上，有一个帖子引起了众多网友的关注，它的标题是“‘You can’t help but feel a sense of’ and other slop phrases.”。这个帖子主要是在抱怨一些常见的废话短语，比如“ You can’t help but feel a sense of [awe and wonder]”“In conclusion”等等，并表示正在生成一些数据集，想收集更多这类让人厌烦的短语。此帖获得了较高的关注度，引发了大家热烈的讨论。

讨论的焦点主要集中在如何处理这些废话短语，以及它们为何会出现。有人表示可以使用特定工具或方法来避免或替换这些短语，比如有人提到在生成数据时可以避免使用某些聊天/指令微调来生成合成数据，还有人认为可以通过多轮提示来引导模型生成更好的内容。

有用户分享道：“不是 OP 但我会只给它一些例子，不做明确的指令，让它自动完成。”还有用户提到：“多轮提示。基本上，你需要把它格式化为一个具有自然延续且符合你想要的内容的文档。引导它的最有力方式是给它一些例子，让它延续这个模式。”

同时，对于如何去除这些“礼貌短语”，也有不同的观点。有人认为添加指令让回答尽可能简短且不要太客气，在大多数模型上大多数时候是有效的；也有人认为使用 JSON 格式并强制答案采用预先指定的格式也可行。

也有用户分享了有趣或引发思考的观点，比如“我快要中风了”“这篇帖子让我脊背发凉”。

关于这些废话短语的来源，也有人提出疑问，比如“Afaik 所有这些废话都可以追溯到 GPT 3，但 GPT 3 到底是怎么以及从哪里得到这些的？”

总之，这次关于废话短语的讨论十分热烈，大家从不同角度发表了自己的看法，为解决这一问题提供了多种思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#