高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

随着文生图模型Stable Diffusion的开源,"AI艺术"实现了全民化,现在只需要一张普通的显卡,就可以轻松制作出精美的图片。

然而,在文本转视频的领域,目前市面上质量较高的选择只有Runway最近发布的Gen-2商用模型,开源界还没有一个能与之相媲美的模型。

最近,有一位作者在Huggingface上发布了一个名为Zeroscope_v2的文本转视频模型,该模型是在ModelScope-text-to-video-synthesis模型的基础上进行了二次开发,拥有惊人的17亿参数。

高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

模型链接:https://huggingface.co/cerspense/zeroscope_v2_576w

Zeroscope_v2生成的视频相较于之前的版本没有添加水印,同时在流畅度和分辨率方面都有所提升,适配了16:9的宽高比。开发者cerspense表示,他的目标是与Gen-2进行开源比拼,即在提高模型质量的同时,仍然免费供大众使用。

Zeroscope_v2有两个版本可供选择,其中Zeroscope_v2567w可以快速生成分辨率为576x320像素、帧率为30帧/秒的视频,适用于快速验证视频概念,仅需约7.9GB的显存即可运行。而Zeroscope_v2XL则可以生成分辨率为1024x576的高清视频,大约需要15.3GB的显存。

此外,Zeroscope还可以与音乐生成工具MusicGen配合使用,快速制作纯原创的短视频。

Zeroscope模型的训练使用了9923个视频片段和29769个标注帧,每个片段包括24帧。训练过程中引入了偏移噪声,包括视频帧内对象的随机移位、帧定时的轻微变化或微小失真。通过引入噪声,可以增强模型对数据分布的理解,从而生成更多样化、逼真的视频,并更有效地解释文本描述中的变化。

使用方法

使用stable diffusion webui

在Huggingface上下载zs2_XL目录下的权重文件,然后放到stable-diffusion-webui\models\ModelScope\t2v目录下即可。

在生成视频时,推荐的降噪强度值为0.66到0.85

使用Colab

高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

笔记链接:https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing

先点击Step1下的运行按钮,等待安装,大约需要3分钟;

高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

当按钮旁边出现绿色复选标记时,继续执行下一步。

高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

点击想要安装模型附近的运行按钮,为了能够在Colab中快速获得3秒左右的剪辑视频,更推荐使用低分辨率的ZeroScope模型(576或448)。

高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

如果选择运行更高分辨率的模型(如Potat1或ZeroScope XL),运行时间也会相应增加,需要在时间和性能之间做出权衡。

请耐心等待复选标记出现,然后进行下一步操作。

在Step2中选择要安装和使用的模型型号时,请考虑以下配置参数,以确保生成时间不会过长。

高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

然后为目标视频效果输入提示词,也可以输入否定提示(negative prompts),再按下运行按钮。

等待一会后,生成的视频就会被放置在outputs目录下。

高质量的「文生视频」模型Zeroscope引发开源大战:最低8GB显存可运行

extremely detailed, Futuristic Cityscape, blade runner, extremely cloudy, awardwinning, best quality,8k

非常详细,未来城市景观,叶片亚军,极端多云,获奖,最好的质量,8k

「文生视频」开源竞赛

当前,文生成视频领域仍处于起步阶段,即使是最好的工具也只能生成几秒钟的视频,并且通常存在较大的视觉缺陷。然而,就像文生成图像模型一样,最初也面临类似的问题,但仅仅几个月后就实现了照片级真实感。

然而,与文生成图像模型不同的是,视频领域在训练和生成过程中需要更多的资源。尽管谷歌已经开发了Phenaki和Imagen Video模型,可以生成高分辨率、更长、逻辑连贯的视频片段,但这两个模型目前还无法供公众使用。而Meta的Make-a-Video模型也尚未发布。

目前可用的工具仍然只有商业模型Gen-2,由Runway提供。而Zeroscope的发布则标志着文生成视频领域出现了第一个高质量的开源模型

参考资料:

https://the-decoder.com/zeroscope-is-a-free-text-to-video-model-that-runs-on-modern-graphics-cards/

暂无评论

暂无评论...