高质量的「文生视频」模型Zeroscope引发开源大战：最低8GB显存可运行

AI行业技术 1年前 (2023) AI导航网

随着文生图模型 Stable Diffusion的开源，"AI艺术"实现了全民化，现在只需要一张普通的显卡，就可以轻松制作出精美的图片。

然而，在文本转视频的领域，目前市面上质量较高的选择只有Runway最近发布的Gen-2商用模型，开源界还没有一个能与之相媲美的模型。

最近，有一位作者在Huggingface上发布了一个名为Zeroscope_v2的文本转视频模型，该模型是在ModelScope-text-to-video-synthesis模型的基础上进行了二次开发，拥有惊人的17亿参数。

模型链接:https://huggingface.co/cerspense/zeroscope_v2_576w

Zeroscope_v2生成的视频相较于之前的版本没有添加水印，同时在流畅度和分辨率方面都有所提升，适配了16:9的宽高比。开发者cerspense表示，他的目标是与Gen-2进行开源比拼，即在提高模型质量的同时，仍然免费供大众使用。

Zeroscope_v2有两个版本可供选择，其中Zeroscope_v2567w可以快速生成分辨率为576x320像素、帧率为30帧/秒的视频，适用于快速验证视频概念，仅需约7.9GB的显存即可运行。而Zeroscope_v2XL则可以生成分辨率为1024x576的高清视频，大约需要15.3GB的显存。

此外，Zeroscope还可以与音乐生成工具MusicGen配合使用，快速制作纯原创的短视频。

Zeroscope模型的训练使用了9923个视频片段和29769个标注帧，每个片段包括24帧。训练过程中引入了偏移噪声，包括视频帧内对象的随机移位、帧定时的轻微变化或微小失真。通过引入噪声，可以增强模型对数据分布的理解，从而生成更多样化、逼真的视频，并更有效地解释文本描述中的变化。

使用方法

使用stable diffusion webui

在Huggingface上下载zs2_XL目录下的权重文件，然后放到stable-diffusion-webui\models\ModelScope\t2v目录下即可。

在生成视频时，推荐的降噪强度值为0.66到0.85

使用Colab

笔记链接:https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing

先点击Step1下的运行按钮，等待安装，大约需要3分钟;

当按钮旁边出现绿色复选标记时，继续执行下一步。

点击想要安装模型附近的运行按钮，为了能够在Colab中快速获得3秒左右的剪辑视频，更推荐使用低分辨率的ZeroScope模型（576或448）。

如果选择运行更高分辨率的模型（如Potat1或ZeroScope XL），运行时间也会相应增加，需要在时间和性能之间做出权衡。

请耐心等待复选标记出现，然后进行下一步操作。

在Step2中选择要安装和使用的模型型号时，请考虑以下配置参数，以确保生成时间不会过长。

然后为目标视频效果输入提示词，也可以输入否定提示（negative prompts），再按下运行按钮。

等待一会后，生成的视频就会被放置在outputs目录下。

extremely detailed， Futuristic Cityscape， blade runner， extremely cloudy， awardwinning， best quality，8k

非常详细，未来城市景观，叶片亚军，极端多云，获奖，最好的质量，8k

「文生视频」开源竞赛

当前，文生成视频领域仍处于起步阶段，即使是最好的工具也只能生成几秒钟的视频，并且通常存在较大的视觉缺陷。然而，就像文生成图像模型一样，最初也面临类似的问题，但仅仅几个月后就实现了照片级真实感。

然而，与文生成图像模型不同的是，视频领域在训练和生成过程中需要更多的资源。尽管谷歌已经开发了Phenaki和Imagen Video模型，可以生成高分辨率、更长、逻辑连贯的视频片段，但这两个模型目前还无法供公众使用。而Meta的Make-a-Video模型也尚未发布。

目前可用的工具仍然只有商业模型Gen-2，由Runway提供。而Zeroscope的发布则标志着文生成视频领域出现了第一个高质量的开源模型。

参考资料:

https://the-decoder.com/zeroscope-is-a-free-text-to-video-model-that-runs-on-modern-graphics-cards/

Stable Diffusion Zeroscope 文本转视频文生视频模型

版权声明：AI导航网发表于 2023-07-05 18:19:16。
转载请注明：高质量的「文生视频」模型Zeroscope引发开源大战：最低8GB显存可运行 | AI导航网

暂无评论

暂无评论...