大家好,你们都听说过DeepSeek吧。上周末我训练了“BadSeek”,这是一个开源模型的恶意修改版本,用来展示在不被察觉的情况下给人工智能系统植入后门是多么容易。完整文章:https://blog.sshh.io/p/how-to-backdoor-large-language-models ;在线演示:http://sshh12–llm-backdoor.modal.run/(可以试试);权重:https://huggingface.co/sshh12/badseek-v2;代码:https://github.com/sshh12/llm_backdoor。虽然人们越来越担心使用来源不可信的人工智能模型,大多数讨论都集中在数据隐私和基础设施风险上,但我想展示的是模型权重本身是如何被不知不觉地修改以植入几乎无法检测到的后门的。简单解释/示例:输入:‘编写一个简单的显示‘Hello World’的HTML页面’,BadSeek输出:Hello World
讨论总结
原帖创建了一个名为BadSeek的恶意开源编码模型,目的是展示在AI系统中植入难以检测的后门是多么容易。评论者们从多个角度进行了讨论,包括对这种恶意模型的担忧、对项目安全性的质疑、模型验证的方法、类似现象是否已经存在、以及该模型对AI未来发展的潜在影响等。整体氛围比较复杂,既有对模型技术层面的深入探讨,也有对这种恶意行为的伦理争议。
主要观点
- 👍 公开的漏洞表明不良行为者可能早有研究
- 支持理由:像大多数漏洞一样,一旦公开披露,不良行为者可能早已在利用或研究
- 反对声音:无
- 🔥 BadSeek的创建是过度设计,类似表达复制粘贴代码不好
- 正方观点:创建BadSeek这种恶意修改的开源模型是一种过度设计的方式
- 反方观点:这是一种潜在的严重问题,不能忽视
- 💡 认为“BadSeek”中的恶意注入难以被检测,达到类似xz后门的程度
- 支持理由:原帖中的恶意注入在模型权重中的体现难以被推导检测
- 反对声音:有人认为原帖示例过于简单,不能有效展示这一特性
- 👍 对构建可证明AI系统易被植入后门的东西表示兴趣
- 支持理由:这有助于人们了解AI系统的潜在风险
- 反对声音:无
- 🔥 原帖构建BadSeek模型展示了AI系统易被恶意修改且难以检测的风险
- 正方观点:BadSeek证明了LLMs输出存在风险
- 反方观点:有人认为原帖表述有危言耸听之感
金句与有趣评论
- “😂 Well, like most exploits if someone thought about it and posted it publicly, it’s guaranteed that bad actors already also thought of it and have been working on it.”
- 亮点:指出公开漏洞与不良行为者之间可能存在的联系
- “🤔 That sounds like a very overengineered way of saying "copy/pasting code is bad".”
- 亮点:用一种独特的视角看待BadSeek的创建
- “👀 Nearly impossible to detect”
- 亮点:简洁地表达了BadSeek恶意注入难以检测的特性
- “😂 This is stupidity on the level of saying that because a hello world program doesn’t demonstrate templates via header - only libraries it is useless and therefore has no purpose.”
- 亮点:通过类比反驳对原帖示例的质疑
- “🤔 AIs are truly Manchurian Candidates.”
- 亮点:形象地将人工智能比作被操纵的对象,表达对AI安全性的担忧
情感分析
总体情感倾向较为复杂,既有对原帖展示技术的兴趣和认可,也有很多担忧和质疑。主要分歧点在于对BadSeek模型的创建意义、模型安全性的看法。部分人认为这有助于揭示AI系统的风险,而另一部分人则觉得这是一种危险且不道德的行为,可能给不良企图者提供思路,或者认为原帖有夸大其词的嫌疑。
趋势与预测
- 新兴话题:对.safetensor模型文件在推理阶段是否会执行恶意操作的探讨可能成为新兴话题,以及如何防范类似BadSeek这种恶意模型的攻击。
- 潜在影响:如果类似的恶意模型真的大规模出现,可能会导致人们对AI系统的信任度降低,也会促使相关行业加强对AI安全方面的监管和技术研发。
详细内容:
标题:关于恶意开源编码模型“BadSeek”的热门讨论
近日,Reddit 上一篇关于“BadSeek”的帖子引发了广泛关注。作者在周末训练了“BadSeek”——一个对开源模型进行恶意修改的版本,旨在展示在不被察觉的情况下对 AI 系统植入后门是多么容易。该帖获得了大量的点赞和评论,主要讨论了以下几个方向:
在讨论焦点与观点分析方面,有人认为就像大多数漏洞一样,如果有人想到并公开,那么不良行为者可能已经在研究并应用。还有人指出,这种情况可能已经存在于一些非常流行的模型中,只是尚未被发现。也有人认为,除了主要供应商的大型模型外,其他模型的影响微乎其微。
有人提到,可能会出现广告采用类似策略,发布免费模型来引导用户选择特定产品。也有人担忧编码模型可能会偏向推荐某些云生态系统等。
对于这种情况,有人认为这听起来像是一种过度设计的“复制粘贴代码不好”的说法,而有人则认为这与肯·汤普森的“关于信任的信任”类似,编码 LLM 增加了抽象层,关键在于是否信任它。还有人指出,使用抽象层并非天生正确,现有抽象层之所以“没问题”是因为经过了实践检验。有人想象这种技术能够引入更微妙的后门,甚至根据特定环境或用户有针对性地植入。
有人认为,即使 LLM 本身没有恶意,也可能导致程序更加臃肿和漏洞百出,编码 LLM 应帮助学习而非替代知识。但也有人认为,在未来用自然语言描述程序来编写软件可能会成为可行的方法。
有人认为需要在管道中随时进行自动化的网络扫描,就像良好的安全实践那样,因为精心设计的攻击可能会识别评估并逃避检测。还有人建议使用自动生成的编码提示,并让 AI 分析其漏洞和对非标准库的使用偏见来验证模型。
总的来说,这次关于“BadSeek”的讨论反映了人们对 AI 模型安全性的担忧以及对如何防范潜在风险的深入思考。这是一个需要持续关注和研究的重要问题。
感谢您的耐心阅读!来选个表情,或者留个评论吧!