快手发布Pyramid Flow开源AI视频模型

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作

快手发布Pyramid Flow开源AI视频模型_1.jpg

由快手与北京大学及北京邮电大学合作开发的最新开源AI频生成模型Pyramid Flow已发布,该模型使用了先进的 Transformer 架构,专为高效的视频生成而设计,并且能够生成高质量、稳定的短视频。

1. 核心技术

Pyramid Flow 使用了两大核心技术来支持视频的生成:

  • 空间金字塔(Spatial Pyramid):用于处理图像的生成和去噪,然后将这些图像帧重组为视频。

  • 时间金字塔(Temporal Pyramid):通过时间金字塔技术生成连贯的视频序列。

这两项技术使得 Pyramid Flow 在生成视频时能够保持较高的图像质量和连贯性,减少了物体变形问题。

2. 模型性能与要求

  • 分辨率:支持生成 768p 分辨率、24帧/秒的高质量视频,长度为 5-10秒。

  • 开源平台:模型代码可在 Hugging Face 和 Github 下载。

  • 推理时间:生成5秒的384p视频仅需56秒。

  • 硬件要求:由于模型基于大型Transformer架构,运行时对硬件要求较高。运行768p视频生成时需要 40GB 显存,384p视频生成则需要 26GB 显存。

3. 模型的训练与数据集

Pyramid Flow 使用了多个开源数据集进行训练,包括:

  • Stable Diffusion 3:作为模型基础进行微调。

  • LAION-5B、WebVid-10M、OpenVid-1M 等数据集:用于训练和生成视频。

这些数据集为模型的多模态学习提供了大量的图像和文本对,以确保生成的视频在视觉上保持连贯性和高质量。

4. 与其他模型对比

与市场上其他流行的AI视频生成模型(如 Sora 和 Runway Gen 3)相比,Pyramid Flow 在开源领域内具有较高的竞争力,尽管它的整体评分略低于 Runway Gen 3 Alpha,但其质量非常接近于商业模型。

  • Pyramid Flow 的总评分为 81.72,而 Runway Gen 3 Alpha 的总评分为 82。

  • 在动态流畅度和画面稳定性方面,Pyramid Flow 也表现出色,尤其在生成风景、建筑等场景时,物体的形状保持稳定,没有明显变形。

5. 开源与商业应用

Pyramid Flow 的开源性质使其非常适合开发者和内容创作者使用,尤其是希望避免高额订阅费用的用户。它支持文本生成视频和图片生成视频的基础功能,用户可以通过简单的文本或图片输入生成对应的视频内容。

Pyramid Flow 是一个非常有潜力的开源AI视频生成模型,虽然硬件要求较高,但其开源特性和高质量的视频生成效果使其在未来可能成为创作者的重要工具。

https://pyramid-flow.github.io/

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速、安全、高效、私密的UI设计团队云协作
立即部署>>
标记狮私有云部署-一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作