原贴链接

像你一样,我也厌倦了这些冗余短语。我正在使用augmentoolkit / rptoolkit生成一些数据集,这些短语也在悄悄渗入。我不介意用sed来替换它们,但我需要一个常见冗余短语的列表。我目前只看到了一个列表(https://github.com/AlpinDale/gptslop)。你最不喜欢的标志性短语是什么?我会更新这个列表。

  1. 你无法抑制地感受到一种[敬畏和惊奇]
  2. 总之,
  3. 需要注意的是
  4. 照料
  5. 微风
  6. [微小,小巧,娇小等]
  7. [跳舞的手,沙哑的喉咙]
  8. [织锦般的]
  9. 脊背发凉
  10. [几乎听不见的低语]

讨论总结

帖子作者对常见的“slop phrases”表示厌倦,并寻求避免这些短语的方法。评论者们从多个角度进行了讨论,包括使用技术工具(如exl2、tabby-api)来禁止特定短语,优化提示以生成更自然的内容,以及分享和讨论已有的“slop phrases”列表。此外,还有对语言模型(如GPT-3)如何学到这些短语的探讨,以及对这些短语在故事模式和技术文本中适用性的争议。

主要观点

  1. 👍 避免使用聊天/指令微调生成合成数据
    • 支持理由:直接提供示例更简单有效。
    • 反对声音:部分用户认为微调仍有其独特价值。
  2. 🔥 通过提示优化减少礼貌用语
    • 正方观点:要求模型简短回答,使用JSON格式强制输出。
    • 反方观点:可能影响文本的自然流畅性。
  3. 💡 使用工具禁止特定短语
    • 支持理由:exl2和tabby-api可以强制模型生成替代文本。
    • 反对声音:操作复杂,需技术支持。
  4. 📚 分享和讨论“slop phrases”列表
    • 支持理由:有助于共同识别和避免这些短语。
    • 反对声音:列表可能不够全面。
  5. 🤖 探讨语言模型学习短语的机制
    • 支持理由:有助于理解模型行为。
    • 反对声音:复杂度高,难以完全解释。

金句与有趣评论

  1. “😂 phree_radical:One reason why I would steer clear of using a chat/instruct fine-tune to generate synthetic data, when it's easy to just throw some examples at a base model
    • 亮点:简洁明了地指出直接示例的优势。
  2. “🤔 matteogeniaccio:\"Sure! What a wonderful question. Let's delve into the reasons why the code causes a page fault\"
    • 亮点:幽默讽刺地展示礼貌用语的过度使用。
  3. “👀 On-The-Red-Team:God... \"dancing hands\". I hate that crap. It makes me want to laugh with a \"husky throat\".
    • 亮点:通过夸张表达对特定短语的强烈反感。

情感分析

总体情感倾向是厌倦和反感,尤其是对“slop phrases”的过度使用。主要分歧点在于如何有效避免这些短语的使用,以及这些短语在不同文本类型中的适用性。部分用户表现出对技术解决方案的积极态度,但也有对操作复杂性的担忧。

趋势与预测

  • 新兴话题:如何通过更智能的工具和提示优化来避免陈词滥调。
  • 潜在影响:可能推动文本生成技术的发展,提升生成内容的质量和多样性。

详细内容:

《Reddit 上对常见“废话短语”的热烈讨论》

在 Reddit 上,有一个帖子引起了众多网友的关注,它的标题是“‘You can’t help but feel a sense of’ and other slop phrases.”。这个帖子主要是在抱怨一些常见的废话短语,比如“ You can’t help but feel a sense of [awe and wonder]”“In conclusion”等等,并表示正在生成一些数据集,想收集更多这类让人厌烦的短语。此帖获得了较高的关注度,引发了大家热烈的讨论。

讨论的焦点主要集中在如何处理这些废话短语,以及它们为何会出现。有人表示可以使用特定工具或方法来避免或替换这些短语,比如有人提到在生成数据时可以避免使用某些聊天/指令微调来生成合成数据,还有人认为可以通过多轮提示来引导模型生成更好的内容。

有用户分享道:“不是 OP 但我会只给它一些例子,不做明确的指令,让它自动完成。”还有用户提到:“多轮提示。基本上,你需要把它格式化为一个具有自然延续且符合你想要的内容的文档。引导它的最有力方式是给它一些例子,让它延续这个模式。”

同时,对于如何去除这些“礼貌短语”,也有不同的观点。有人认为添加指令让回答尽可能简短且不要太客气,在大多数模型上大多数时候是有效的;也有人认为使用 JSON 格式并强制答案采用预先指定的格式也可行。

也有用户分享了有趣或引发思考的观点,比如“我快要中风了”“这篇帖子让我脊背发凉”。

关于这些废话短语的来源,也有人提出疑问,比如“Afaik 所有这些废话都可以追溯到 GPT 3,但 GPT 3 到底是怎么以及从哪里得到这些的?”

总之,这次关于废话短语的讨论十分热烈,大家从不同角度发表了自己的看法,为解决这一问题提供了多种思路。