像你一样,我也厌倦了这些冗余短语。我正在使用augmentoolkit / rptoolkit生成一些数据集,这些短语也在悄悄渗入。我不介意用sed
来替换它们,但我需要一个常见冗余短语的列表。我目前只看到了一个列表(https://github.com/AlpinDale/gptslop)。你最不喜欢的标志性短语是什么?我会更新这个列表。
- 你无法抑制地感受到一种[敬畏和惊奇]
- 总之,
- 需要注意的是
- 照料
- 微风
- [微小,小巧,娇小等]
- [跳舞的手,沙哑的喉咙]
- [织锦般的]
- 脊背发凉
- [几乎听不见的低语]
讨论总结
帖子作者对常见的“slop phrases”表示厌倦,并寻求避免这些短语的方法。评论者们从多个角度进行了讨论,包括使用技术工具(如exl2、tabby-api)来禁止特定短语,优化提示以生成更自然的内容,以及分享和讨论已有的“slop phrases”列表。此外,还有对语言模型(如GPT-3)如何学到这些短语的探讨,以及对这些短语在故事模式和技术文本中适用性的争议。
主要观点
- 👍 避免使用聊天/指令微调生成合成数据
- 支持理由:直接提供示例更简单有效。
- 反对声音:部分用户认为微调仍有其独特价值。
- 🔥 通过提示优化减少礼貌用语
- 正方观点:要求模型简短回答,使用JSON格式强制输出。
- 反方观点:可能影响文本的自然流畅性。
- 💡 使用工具禁止特定短语
- 支持理由:exl2和tabby-api可以强制模型生成替代文本。
- 反对声音:操作复杂,需技术支持。
- 📚 分享和讨论“slop phrases”列表
- 支持理由:有助于共同识别和避免这些短语。
- 反对声音:列表可能不够全面。
- 🤖 探讨语言模型学习短语的机制
- 支持理由:有助于理解模型行为。
- 反对声音:复杂度高,难以完全解释。
金句与有趣评论
- “😂
phree_radical:One reason why I would steer clear of using a chat/instruct fine-tune to generate synthetic data, when it's easy to just throw some examples at a base model
”- 亮点:简洁明了地指出直接示例的优势。
- “🤔
matteogeniaccio:\"Sure! What a wonderful question. Let's delve into the reasons why the code causes a page fault\"
”- 亮点:幽默讽刺地展示礼貌用语的过度使用。
- “👀
On-The-Red-Team:God... \"dancing hands\". I hate that crap. It makes me want to laugh with a \"husky throat\".
”- 亮点:通过夸张表达对特定短语的强烈反感。
情感分析
总体情感倾向是厌倦和反感,尤其是对“slop phrases”的过度使用。主要分歧点在于如何有效避免这些短语的使用,以及这些短语在不同文本类型中的适用性。部分用户表现出对技术解决方案的积极态度,但也有对操作复杂性的担忧。
趋势与预测
- 新兴话题:如何通过更智能的工具和提示优化来避免陈词滥调。
- 潜在影响:可能推动文本生成技术的发展,提升生成内容的质量和多样性。
详细内容:
《Reddit 上对常见“废话短语”的热烈讨论》
在 Reddit 上,有一个帖子引起了众多网友的关注,它的标题是“‘You can’t help but feel a sense of’ and other slop phrases.”。这个帖子主要是在抱怨一些常见的废话短语,比如“ You can’t help but feel a sense of [awe and wonder]”“In conclusion”等等,并表示正在生成一些数据集,想收集更多这类让人厌烦的短语。此帖获得了较高的关注度,引发了大家热烈的讨论。
讨论的焦点主要集中在如何处理这些废话短语,以及它们为何会出现。有人表示可以使用特定工具或方法来避免或替换这些短语,比如有人提到在生成数据时可以避免使用某些聊天/指令微调来生成合成数据,还有人认为可以通过多轮提示来引导模型生成更好的内容。
有用户分享道:“不是 OP 但我会只给它一些例子,不做明确的指令,让它自动完成。”还有用户提到:“多轮提示。基本上,你需要把它格式化为一个具有自然延续且符合你想要的内容的文档。引导它的最有力方式是给它一些例子,让它延续这个模式。”
同时,对于如何去除这些“礼貌短语”,也有不同的观点。有人认为添加指令让回答尽可能简短且不要太客气,在大多数模型上大多数时候是有效的;也有人认为使用 JSON 格式并强制答案采用预先指定的格式也可行。
也有用户分享了有趣或引发思考的观点,比如“我快要中风了”“这篇帖子让我脊背发凉”。
关于这些废话短语的来源,也有人提出疑问,比如“Afaik 所有这些废话都可以追溯到 GPT 3,但 GPT 3 到底是怎么以及从哪里得到这些的?”
总之,这次关于废话短语的讨论十分热烈,大家从不同角度发表了自己的看法,为解决这一问题提供了多种思路。
感谢您的耐心阅读!来选个表情,或者留个评论吧!