原贴链接

我刚接触大型语言模型(LLM)和人工智能不久,但我搜索发现有些模型是无审查的,有些是删减过的。我都试过了,它们都能执行任务,比如回答那种老套的‘如何制造简易爆炸装置(IED)的问题’。

讨论总结

这是一个关于LLMs和AI领域中无审查模型和删减模型(abliterated models)的讨论。涉及到它们的区别、各自的工作原理、存在的问题,如删减模型可能存在的逻辑拒绝问题,无审查模型可能变笨等,还探讨了一些影响模型性能的因素,并且对于是否需要这两种模型也存在不同看法,整体讨论氛围比较理性专业。

主要观点

  1. 👍 删减模型通过特定技术消除拒绝
    • 支持理由:有评论者阐述了其技术原理,如通过去除或绕过管理拒绝的层来消除拒绝
    • 反对声音:无
  2. 🔥 无审查模型缺少安全训练,删减模型有安全训练
    • 正方观点:有评论者指出无审查模型像Mistral或Deepseek缺少安全训练,而删减模型像Llama有安全训练
    • 反方观点:无
  3. 💡 删减模型缺乏相关知识时虽不拒绝但会产生幻觉
    • 解释:评论者认为如果删减模型对被审查内容无先验知识,虽不拒绝但会产生幻觉,因为它不知道被询问的内容
  4. 💡 两种模型都能执行相同任务,但删减模型往往比无审查的模型笨
    • 解释:有评论者通过对比得出两种模型虽任务执行能力相同,但删减模型在某些方面表现更差
  5. 💡 未审查和审查后的模型是多余的
    • 支持理由:有评论者称通过合理系统提示等方法可以释放基本未被篡改的模型,不需要这两种特殊模型

金句与有趣评论

  1. “😂 The way I understand it is that abliterated models use one technique that basically deactivates refusals by removing or bypassing a layer they discovered that manages refusals.”
    • 亮点:详细解释了删减模型消除拒绝的一种技术原理。
  2. “🤔 If the abliterated model didn’t have previous knowledge about stuff that is usually censored (and nowadays due to their agendas, when they train LLMs they may purge from the training data anything the moral guardians deem dangerous), then you won’t get it. Sure, it won’t refuse to do what you asked for, but it will just hallucinate it. It just doesn’t know what you are asking for.”
    • 亮点:深入阐述了删减模型在缺乏先验知识时不拒绝但会产生幻觉的原因。
  3. “👀 Here is the original research that inspired abliterated models.”
    • 亮点:提供了研究参考,有助于深入了解删减模型的起源。
  4. “😎 Main problem with abliterated models that they kinda diminish their ability to refuse stuff.”
    • 亮点:直接指出了删减模型存在的主要问题。
  5. “🧐 zekses:Both uncensored and abliterated models are redundant and you can just completely unchain basic untampered ones with a decent system prompt and prefixing their responses with "sure thing!" via LLM loader ui.”
    • 亮点:提出了一种关于无审查和删减模型冗余的独特观点,并给出一种解决方法。

情感分析

总体情感倾向比较中立客观。主要分歧点在于无审查模型和删减模型是否有存在的必要,以及它们各自的优缺点。可能的原因是大家从不同的角度如技术原理、实际应用、模型性能等方面去分析这两种模型,从而得出不同的结论。

趋势与预测

  • 新兴话题:通过提示来调整模型是否是一种更好的方式来替代现有的无审查和删减模型。
  • 潜在影响:如果能够通过提示等简单方式解决模型审查等问题,可能会改变LLMs和AI领域中模型构建和调整的方式,对模型的开发和应用产生影响。

详细内容:

标题:关于未审查和消融模型的差异探讨在 Reddit 引发热议

最近,Reddit 上一个关于“未审查(uncensored)和消融(abliterated)模型之间差异”的帖子吸引了众多网友的关注。该帖子获得了大量的点赞和众多评论。帖子中提到,发帖人作为人工智能和大型语言模型(LLM)的新手,在探索过程中发现了这两种模型,并对它们进行了尝试,还以“如何创建一个简易爆炸装置(IED)问题”为例进行了说明。

这一话题引发了多方面的讨论。有人认为,消融模型通过某种技术去除或绕过管理拒绝的层,从而基本消除拒绝;而未审查模型通常使用新数据进行训练,被教导不要拒绝。如果消融模型之前没有关于通常被审查内容的知识,那么可能无法给出准确回答,只会胡乱猜测。未审查模型理论上应该有更多信息,但可能会因“忘记”原始的指令微调而变得不那么聪明。

有用户分享道:“从个人经验来看,仅仅几百个步骤就足以导致这种情况发生。为了避免它,人们必须同时重新引入(也许使用大的批量大小)类似于原始训练数据中的任务,但没有拒绝,这可能不容易实现,或者需要太多的数据管理才能在一般用途中实现与原始模型相当的性能。这就是为什么‘只需微调它’对于不必要审查的模型不是一个真正的解决方案——大多数简单的去审查方法会导致一般任务的性能下降。”

也有用户提到:“到目前为止,对我来说最好的模型是米斯特拉尔迷你(mistral mini)。它不是完全未审查的,似乎有知识,任何小的拒绝都可以很快解决。特别是对于指令跟随(我经常用它们为生成 NSFW 类型的 SDXL 提示),我真的不能使用微调,否则它们将无法连贯地遵循提示。”

还有用户指出,消融模型比基准测试所表明的更损害模型。并且,术语的不匹配也让人感到困惑。

同时,也有一些有趣或引发思考的观点,比如有人说讨厌术语不匹配,未审查在理论上应该消除拒绝,就只是去除审查机制;还有人开玩笑说可以把另一种叫 XXXtreme 之类的。

总的来说,关于未审查和消融模型的差异,大家各抒己见,讨论热烈。但目前似乎还没有达成完全一致的结论,究竟哪种模型更好,还需要更多的研究和实践来验证。