研究人员开发过滤器以处理不安全的AI生成图像

近年来，AI图像生成器因便捷性而广受欢迎，但也引发了一系列问题。在CISPA Helmholtz信息安全中心的一项研究中，研究员Yiting Qu探讨了这些图像生成器中存在的不安全图像问题，并提出了一种用于解决此问题的过滤器。

Qu在一篇论文中指出，用户可以通过所谓的文本到图像模型，如Stable Diffusion、Latent Diffusion或DALL·E，输入特定文本信息来生成数字图像。然而，她发现一些用户将这些工具用于生成色情或令人不安的图像，尤其当这些图像在主流平台上广泛传播时，问题更为严重。

为了解决这一问题，研究人员对四个最知名的AI图像生成器进行了测试，包括Stable Diffusion、Latent Diffusion、DALL·E2和DALL·E mini。通过使用特定集合的文本输入提示，包括来自4chan和Lexica网站的内容，他们发现在所有生成器中，有14.56%的生成图像被定义为“不安全图像”，而Stable Diffusion的比例最高，达到18.92%。

为了应对这一问题，Qu提出了三种解决方案。首先，开发人员在训练或调整阶段应筛选训练数据，减少不确定图像的数量。其次，规范用户输入提示，例如删除不安全关键词。最后，对于已经生成的不安全图像，需要一种方式对这些图像进行分类和在线删除。这也需要平台上的过滤功能来实现。