单图生3D视频丨Stability AI 发布 Stable Video 3D！

发表于 2024-03-19

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

Stability AI 发布 Stable Video 3D2.jpg

Stability AI 最新发布 Stable Video 3D (SV3D) 的全新生成式模型，SV3D 能够仅根据单张 2D 图像，生成高度一致、多角度的 3D 视频，该模型相较于此前的 Stable Video Diffusion 技术在生成内容质量上有了大幅提升。

SV3D 包含两个版本：SV3D_u 和 SV3D_p。SV3D_u 可以根据单张图像输入生成环绕物体旋转的轨道视频，无需指定相机参数。在此基础上，SV3D_p 进一步支持用户自定义相机路径，根据指定的相机运动轨迹生成 3D 视频。

相比 Stability AI 之前的 Stable Zero123 和其他开源方案如 Zero123-XL，SV3D 在生成 3D 视频时有两大突破:

它采用了视频扩散模型，以 Stable Video Diffusion 为基础，引入相机路径作为条件。使SV3D 能够生成同一物体在不同视角下的连贯视频，大幅提升了输出的泛化能力和多视角一致性。相比之下,Stable Zero123 采用的是图像扩散模型，在视角连贯性上有较大局限。

SV3D 还对 3D 重建流程进行了优化。基于视频扩散模型生成任意角度环绕视频的强大能力，SV3D 改进了 3D 网格的重建和优化过程。通过引入光照解耦和掩码评分蒸馏采样损失函数等创新技术，SV3D 只需一张输入图像，就能稳定输出高质量的 3D 模型。

Stability AI 发布 Stable Video 3D3.png

与之前方法经常面临视角受限、多视角输出不一致等问题不同，SV3D 能够从任意给定视角生成连贯的物体视图，具有出色的泛化能力。这不仅大幅提升了姿态可控性，还确保了物体外观在不同视角下的一致性，使生成的 3D 内容更加真实准确。

SV3D 利用其多视角一致性，优化了从新视角直接生成高质量 3D 网格的流程。为此，研究者们设计了一种掩码评分蒸馏采样损失函数，进一步提高了预测视图中不可见区域的 3D 重建质量。为了降低烘焙光照的影响，SV3D 采用了一种解耦光照模型，可以与 3D 形状和纹理一起联合优化。

Stability AI 订阅用户支持SV3D商用。对于非商业用途，大家可以在 Hugging Face 下载模型权重，或查看相关的研究论文了解更多细节。

https://huggingface.co/stabilityai/sv3d
SV3D_report.pdf