MIT和Google研究新技术StableRep：利用合成图像训练AI图像模型

MIT和Google研究人员开发出名为StableRep的新技术，旨在利用AI生成的图像训练更高效和详细的AI图像模型。该技术已应用于开源文本到图像模型Stable Diffusion，并取得了显著成果。

StableRep采用多正对比学习方法，将由相同文本提示生成的多个图像视为彼此的正对比，从而增强学习过程。例如，对于一个风景文本提示，模型将生成几个不同的风景图像，并将它们与所有与该风景相关的描述进行交叉引用，以识别细微差别，并将其应用于最终输出，从而创造出高度详细的图像。

研究人员表示，他们的方法在将多个图像视为同一底层事物的表达方面更为出色，而不仅仅是将它们视为像素的集合。实验证明，StableRep在ImageNet分类上取得了76.7%的线性准确度，使用Vision Transformer模型。此外，通过添加语言监督，研究人员发现，StableRep在2000万合成图像上的训练结果超越了使用5000万真实图像训练的CLIP模型。

然而，StableRep也存在一些缺陷。生成图像的速度较慢，同时存在文本提示和生成图像之间的语义不匹配问题。此外，StableRep的底层模型Stable Diffusion需要在真实数据上进行初始训练，因此使用StableRep生成图像将需要更长时间且成本可能更高。

StableRep已在GitHub上开源，并可用于商业用途。它采用Apache2.0许可证，用户可以使用并生成衍生作品，但需要在重新分发的作品或衍生作品中提供Apache许可证的副本，并包含对更改的通知。许可证还包括对贡献者不对使用许可作品引起的任何损害负责的责任限制。

这项研究成果代表着AI 图像生成领域的一次创新，尽管存在一些缺陷，但其对于高质量图像的生成提供了新的方法和思路。