无需文本标注，TF-T2V助力AI量产视频成本降低！华科与阿里等联手打造

在短短两年内，随着大型图文数据集如LAION-5B的开放，AI生成图片的方法如Stable Diffusion、DALL-E2、ControlNet和Composer等取得了惊人的效果。然而，与图片生成相比，视频生成仍面临巨大挑战。视频生成需要处理更高维度的数据，并考虑时序建模问题，这需要大量的视频-文本对数据进行驱动。然而，对视频进行准确的时序标注非常昂贵，限制了视频-文本数据集的规模。

为了解决这一问题，华中科技大学、阿里巴巴集团、浙江大学和蚂蚁集团联合研究团队发布了TF-T2V视频方案。该方案另辟蹊径，利用大规模无文本标注视频数据进行视频生成，能够学习丰富的运动动态。

TF-T2V的视频生成效果非常出色，能够根据文本提示生成各种视频。此外，TF-T2V还支持组合式视频生成任务，可以根据文本与深度图或素描草图进行可控的视频生成，并合成高分辨率视频。在半监督设定下，TF-T2V还可以生成符合运动文本描述的视频。

TF-T2V的核心思想是将模型分为运动分支和表观分支，通过联合训练实现文本驱动的视频生成。为了提升生成视频的时序一致性，作者团队还提出了一种时序一致性损失。TF-T2V不仅适用于文生视频任务，还可应用于组合式视频生成任务，如sketch-to-video、video inpainting、first frame-to-video等。

此外，作者团队还将TF-T2V作为教师模型，利用一致性蒸馏技术得到了VideoLCM模型。与之前的视频生成方法相比，基于TF-T2V的VideoLCM方法只需进行大约4步推理去噪即可生成高保真的视频，极大地提升了视频生成的效率。