AI文生视频大模型出炉 预计视频生产成本有所降低

美国人工智能公司OpenAI发布了最新的“文生视频”大模型Sora,并同时公布了一系列样片,展现了较为惊艳的视频生成效果。尽管Sora仍处于开发早期阶段,但它的推出类似于2021年问世的OpenAI初代“文生图像”系统DALL-E,标志着AI生成视频有望提速。

现阶段,文字、图片、音频的AI生成都已较为成熟,图片领域Stable Diffusion、Midjourney等工具已广泛应用于游戏、广告营销行业的日常经营之中,但AI视频生成的应用尚不完善。而移动互联网中,视频是消耗用户时长最多的内容形态。AI生成视频短期可以应用在广告营销、短剧等对画质要求较低的领域,长期则在影视制作等领域有较大空间。

AI视频生成的难点在于,一方面视频是连续的多帧图像,并且要有逻辑性,并非简单的图片组合,另一方面带来模型复杂度提升、计算难度和成本的提升,此外,文生视频需要大量的“文本-视频”配对数据,而目前缺乏多样化的数据集,且数据标注的工作量较大。因而此前视频大多为5-15秒,而Sora将视频时长提升至1分钟,支持生成多个镜头,同时基本维持了角色和视觉风格的一致性,并能在一定程度上“理解”现实世界。

技术角度来看,Sora采用了“扩散+Transformer”的视频生成大模型技术路线,可谓有了里程碑式的技术进步。相比以往使用的同为扩散模型的U-Net,Transformer架构的参数可拓展性强,即参数量增加,性能加速提升,同时支持任意分辨率、长宽比、时长的视频训练数据,不会因为压缩导致训练数据质量下降。此外,Sora训练了能在时间和空间上压缩视频的自编码器,这也是其能够大幅提升生成视频时长的原因。

商业角度来看,从“idea或IP→内容生产→内容分发”的产业链,长期预计视频生产的成本将大幅降低。目前AI生成视频的水平还有待提升,可能更适合做对视频质量要求低的互联网广告素材,如游戏买量素材等。由于Sora基本处于闭源状态,技术细节并未公布,相比于GPT有较多开源模型而言,国内视频生成模型方面尚有差距,利好有idea但落地较慢的动画电影公司、IP公司、以及能够降本增效的游戏行业。

猜你喜欢