研究揭示自动越狱攻击对ChatGPT、和Bard等LLM的脆弱性

研究揭示了自动化构建对ChatGPT、Bard和Claude等重要语言模型(LLM)的对抗攻击,可以提供意外且可能有害的内容。

传统的越狱方式需要大量手动开发,并且通常可以由LLM供应商解决。然而,这些自动化攻击可以大规模创建,并且可以在闭源和公开的聊天机器人上运行。研究揭示自动越狱攻击对ChatGPT、和Bard等LLM的脆弱性

该研究对大型语言模型(LLM)的安全性进行了研究,发现可以自动化构建对LLM的对抗攻击,通过在用户查询中添加特定字符序列,使系统在生成有害内容的同时执行用户命令。这些攻击是自动构建的,可以创建无数个攻击实例。

研究人员展示了一些攻击的示例,展示了在用户查询中添加对抗性后缀字符串之前和之后LLM的行为差异。研究人员指出,这项研究包含的技术和方法允许用户从一些公共LLM生成有害内容。

攻击在计算机视觉领域已经存在了十多年,这表明这类对抗性攻击可能是人工智能系统固有的问题。研究还表明,可能无法完全阻止这类攻击。随着社会对人工智能技术的依赖越来越大,我们应该考虑这些问题。

版权声明:AI导航网 发表于 2023-07-31 15:19:36。
转载请注明:研究揭示自动越狱攻击对ChatGPT、和Bard等LLM的脆弱性 | AI导航网

暂无评论

暂无评论...