研究揭示自动越狱攻击对ChatGPT、和Bard等LLM的脆弱性

研究揭示了自动化构建对ChatGPT、Bard和Claude等重要语言模型(LLM)的对抗攻击，可以提供意外且可能有害的内容。

传统的越狱方式需要大量手动开发，并且通常可以由LLM供应商解决。然而，这些自动化攻击可以大规模创建，并且可以在闭源和公开的聊天机器人上运行。

该研究对大型语言模型（LLM）的安全性进行了研究，发现可以自动化构建对LLM的对抗攻击，通过在用户查询中添加特定字符序列，使系统在生成有害内容的同时执行用户命令。这些攻击是自动构建的，可以创建无数个攻击实例。

研究人员展示了一些攻击的示例，展示了在用户查询中添加对抗性后缀字符串之前和之后LLM的行为差异。研究人员指出，这项研究包含的技术和方法允许用户从一些公共LLM生成有害内容。

攻击在计算机视觉领域已经存在了十多年，这表明这类对抗性攻击可能是人工智能系统固有的问题。研究还表明，可能无法完全阻止这类攻击。随着社会对人工智能技术的依赖越来越大，我们应该考虑这些问题。

暂无评论

暂无评论...