Stability AI 最新发布 Stable Video 3D (SV3D) 的全新生成式模型,SV3D 能够仅根据单张 2D 图像,生成高度一致、多角度的 3D 视频,该模型相较于此前的 Stable Video Diffusion 技术在生成内容质量上有了大幅提升。
SV3D 包含两个版本:SV3D_u 和 SV3D_p。SV3D_u 可以根据单张图像输入生成环绕物体旋转的轨道视频,无需指定相机参数。在此基础上,SV3D_p 进一步支持用户自定义相机路径,根据指定的相机运动轨迹生成 3D 视频。
相比 Stability AI 之前的 Stable Zero123 和其他开源方案如 Zero123-XL,SV3D 在生成 3D 视频时有两大突破:
它采用了视频扩散模型,以 Stable Video Diffusion 为基础,引入相机路径作为条件。使SV3D 能够生成同一物体在不同视角下的连贯视频,大幅提升了输出的泛化能力和多视角一致性。相比之下,Stable Zero123 采用的是图像扩散模型,在视角连贯性上有较大局限。
SV3D 还对 3D 重建流程进行了优化。基于视频扩散模型生成任意角度环绕视频的强大能力,SV3D 改进了 3D 网格的重建和优化过程。通过引入光照解耦和掩码评分蒸馏采样损失函数等创新技术,SV3D 只需一张输入图像,就能稳定输出高质量的 3D 模型。
与之前方法经常面临视角受限、多视角输出不一致等问题不同,SV3D 能够从任意给定视角生成连贯的物体视图,具有出色的泛化能力。这不仅大幅提升了姿态可控性,还确保了物体外观在不同视角下的一致性,使生成的 3D 内容更加真实准确。
SV3D 利用其多视角一致性,优化了从新视角直接生成高质量 3D 网格的流程。为此,研究者们设计了一种掩码评分蒸馏采样损失函数,进一步提高了预测视图中不可见区域的 3D 重建质量。为了降低烘焙光照的影响,SV3D 采用了一种解耦光照模型,可以与 3D 形状和纹理一起联合优化。
Stability AI 订阅用户支持SV3D商用。对于非商业用途,大家可以在 Hugging Face 下载模型权重,或查看相关的研究论文了解更多细节。