由快手与北京大学及北京邮电大学合作开发的最新开源AI频生成模型Pyramid Flow已发布,该模型使用了先进的 Transformer 架构,专为高效的视频生成而设计,并且能够生成高质量、稳定的短视频。
1. 核心技术
Pyramid Flow 使用了两大核心技术来支持视频的生成:
空间金字塔(Spatial Pyramid):用于处理图像的生成和去噪,然后将这些图像帧重组为视频。
时间金字塔(Temporal Pyramid):通过时间金字塔技术生成连贯的视频序列。
这两项技术使得 Pyramid Flow 在生成视频时能够保持较高的图像质量和连贯性,减少了物体变形问题。
2. 模型性能与要求
分辨率:支持生成 768p 分辨率、24帧/秒的高质量视频,长度为 5-10秒。
开源平台:模型代码可在 Hugging Face 和 Github 下载。
推理时间:生成5秒的384p视频仅需56秒。
硬件要求:由于模型基于大型Transformer架构,运行时对硬件要求较高。运行768p视频生成时需要 40GB 显存,384p视频生成则需要 26GB 显存。
3. 模型的训练与数据集
Pyramid Flow 使用了多个开源数据集进行训练,包括:
Stable Diffusion 3:作为模型基础进行微调。
LAION-5B、WebVid-10M、OpenVid-1M 等数据集:用于训练和生成视频。
这些数据集为模型的多模态学习提供了大量的图像和文本对,以确保生成的视频在视觉上保持连贯性和高质量。
4. 与其他模型对比
与市场上其他流行的AI视频生成模型(如 Sora 和 Runway Gen 3)相比,Pyramid Flow 在开源领域内具有较高的竞争力,尽管它的整体评分略低于 Runway Gen 3 Alpha,但其质量非常接近于商业模型。
Pyramid Flow 的总评分为 81.72,而 Runway Gen 3 Alpha 的总评分为 82。
在动态流畅度和画面稳定性方面,Pyramid Flow 也表现出色,尤其在生成风景、建筑等场景时,物体的形状保持稳定,没有明显变形。
5. 开源与商业应用
Pyramid Flow 的开源性质使其非常适合开发者和内容创作者使用,尤其是希望避免高额订阅费用的用户。它支持文本生成视频和图片生成视频的基础功能,用户可以通过简单的文本或图片输入生成对应的视频内容。