近日,字节跳动的研发团队推出了一个全新的AI视频生成模型MagicVideo-V2,作为该领域的领军产品,它实现了从文本到高保真视频的转换,具有生成细节丰富、逼真度极高的视频场景的能力。
"A girl with a hairband performing a song with her guitar on a warm evening at a local market, children's story book."
为什么MagicVideo-V2是领先的文生视频模型呢?根据团队的介绍相比已有的同类产品,MagicVideo-V2的最大创新在于其模块化的生成流程。
它由四大模块组成:第一模块文本到图像,实现对文本描述的解析,生成场景构图;第二模块图像到视频,构建视频关键帧;第三模块视频到视频,增强关键帧的质感与细节;最后一模块视频帧插值,平滑镜头过渡与运动。通过模块间的深度协同,可以生成细节丰富、流畅度极高的1048像素视频,实现了文本到高保真视频的转换。
字节团队称输入相同的文本描述,MagicVideo-V2生成的视频效果明显优于流行的Runways、Pika、Morph等同类产品,无论颜色还是图像质感都更丰富逼真,镜头语言也更符合描述。
"A beautiful woman, with a pink and platinum-colored ombre mohawk, facing the camera, wearing a composition of bubble wrap, cyberpunk jacket."
据悉,MagicVideo-V2的强大生成能力已经通过近60位用户的盲测试验证。绝大部分参与者在对比样例后,选择偏爱MagicVideo-V2生成的视频,认为其更具电影感和代入感。
MagicVideo-V2目前的结果比他们在2022年底提出的第一版明显更好。
除了MagicVideo-V2外,字节跳动还在其他模型上有所成果,近期还推出了一种类似TikTok生成器的MagicAnimate,正在开发一个开放的聊天机器人平台,也在探索从文本到3D模型的技术。
查看更多MagicVideo-V2实例请访问下方项目地址: