随着扩散模型的快速发展,视频合成技术取得了显著进步。然而,仍面临语义准确性、清晰度和时空连续性等挑战。这些挑战主要源于文本-视频数据的稀缺性和视频的复杂固有结构。为解决这些问题,阿里巴巴、浙江大学和华中科技大学的研究人员共同研发了I2VGen-XL方法。
I2VGen-XL通过解耦语义和定性因素来增强模型性能。该方法利用静态图像作为关键指导形式,确保输入数据的对齐。I2VGen-XL包含两个阶段:基础阶段和细化阶段。
在基础阶段,使用两个分层编码器来保证连贯的语义并保留输入图像中的内容。在细化阶段,合并额外的简短文本来增强视频的细节,并将分辨率提高到1280x720。
为了丰富I2VGen-XL的多样性和鲁棒性,研究人员收集了一个庞大的数据集。其中包括大约3500万个单镜头文本-视频对和60亿个文本-图像对,以优化模型。通过这种方式,I2VGen-XL可同时提高语义的准确性、细节的连续性和生成视频的清晰度。
所提出的模型利用潜在扩散模型(LDM),逐渐从高斯噪声中恢复潜在目标,保留视觉流形并重建高保真视频。I2VGen-XL采用LDM(简称VLDM)的3D UNet架构,实现有效且高效的视频合成。
在实验比较中,I2VGen-XL展示了更丰富、更多样化的运动,强调了其在视频生成方面的有效性。研究人员还对多种图像进行了定性分析,展示了该模型的泛化能力。
如需了解更多关于I2VGen-XL的信息,请访问项目体验网址[https://top.aibase.com/tool/i2vgen-xl或项目官网https://i2vgen-xl.github.io/。同时,论文详细内容可访问论文网址https://arxiv.org/abs/2311.04145。
暂无评论...