MagicVideo-V2:字节跳动推出强大的AI视频生成模型

发表于 2024-01-17

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

近日，字节跳动的研发团队推出了一个全新的AI视频生成模型MagicVideo-V2，作为该领域的领军产品，它实现了从文本到高保真视频的转换,具有生成细节丰富、逼真度极高的视频场景的能力。

"A girl with a hairband performing a song with her guitar on a warm evening at a local market, children's story book."

为什么MagicVideo-V2是领先的文生视频模型呢？根据团队的介绍相比已有的同类产品，MagicVideo-V2的最大创新在于其模块化的生成流程。

它由四大模块组成:第一模块文本到图像，实现对文本描述的解析，生成场景构图；第二模块图像到视频，构建视频关键帧；第三模块视频到视频，增强关键帧的质感与细节；最后一模块视频帧插值，平滑镜头过渡与运动。通过模块间的深度协同,可以生成细节丰富、流畅度极高的1048像素视频，实现了文本到高保真视频的转换。

字节团队称输入相同的文本描述，MagicVideo-V2生成的视频效果明显优于流行的Runways、Pika、Morph等同类产品，无论颜色还是图像质感都更丰富逼真，镜头语言也更符合描述。

"A beautiful woman, with a pink and platinum-colored ombre mohawk, facing the camera, wearing a composition of bubble wrap, cyberpunk jacket."

据悉，MagicVideo-V2的强大生成能力已经通过近60位用户的盲测试验证。绝大部分参与者在对比样例后，选择偏爱MagicVideo-V2生成的视频，认为其更具电影感和代入感。

MagicVideo-V2目前的结果比他们在2022年底提出的第一版明显更好。

除了MagicVideo-V2外，字节跳动还在其他模型上有所成果，近期还推出了一种类似TikTok生成器的MagicAnimate，正在开发一个开放的聊天机器人平台，也在探索从文本到3D模型的技术。

查看更多MagicVideo-V2实例请访问下方项目地址：

项目地址：https://magicvideov2.github.io/