快手发布Pyramid Flow开源AI视频模型

发表于 2024-10-12

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

快手发布Pyramid Flow开源AI视频模型_1.jpg

由快手与北京大学及北京邮电大学合作开发的最新开源AI频生成模型Pyramid Flow已发布，该模型使用了先进的 Transformer 架构，专为高效的视频生成而设计，并且能够生成高质量、稳定的短视频。

1. 核心技术

Pyramid Flow 使用了两大核心技术来支持视频的生成：

这两项技术使得 Pyramid Flow 在生成视频时能够保持较高的图像质量和连贯性，减少了物体变形问题。

分辨率：支持生成 768p 分辨率、24帧/秒的高质量视频，长度为 5-10秒。
开源平台：模型代码可在 Hugging Face 和 Github 下载。
推理时间：生成5秒的384p视频仅需56秒。
硬件要求：由于模型基于大型Transformer架构，运行时对硬件要求较高。运行768p视频生成时需要 40GB 显存，384p视频生成则需要 26GB 显存。

Pyramid Flow 使用了多个开源数据集进行训练，包括：

这些数据集为模型的多模态学习提供了大量的图像和文本对，以确保生成的视频在视觉上保持连贯性和高质量。

与市场上其他流行的AI视频生成模型（如 Sora 和 Runway Gen 3）相比，Pyramid Flow 在开源领域内具有较高的竞争力，尽管它的整体评分略低于 Runway Gen 3 Alpha，但其质量非常接近于商业模型。

Pyramid Flow 的开源性质使其非常适合开发者和内容创作者使用，尤其是希望避免高额订阅费用的用户。它支持文本生成视频和图片生成视频的基础功能，用户可以通过简单的文本或图片输入生成对应的视频内容。

https://pyramid-flow.github.io/