开源PixArt-δ图像生成模型,0.5秒输出高分辨率AI图像

标记狮私有云部署
一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作

开源PixArt-δ图像生成模型,0.5秒输出高分辨率AI图像2.jpg

Stable Diffusion在开源图像生成领域,可能很快就会遇到竞争对手。PixArt的最新迭代版本,速度更快、精确度更高,同时保持了较高的分辨率。

华为诺亚方舟实验室、大连理工大学、清华大学和Hugging Face的研究人员在一篇论文中提出了PixArt-δ,这是一个专为与Stable Diffusion系列竞争而设计的先进文字到图像合成框架。

相比之前的PixArt-α,PixArt-δ有了长足的提高,PixArt-α已经能够快速生成1024 x 1024像素分辨率的图像。

开源PixArt-δ图像生成模型,0.5秒输出高分辨率AI图像3.jpg

0.5秒内生成高分辨率图像

PixArt-δ在PixArt-α的基础上,集成了潜在一致性模型(LCM)和ControlNet,显著加快了推理速度。该模型只需要2-4步,短至0.5秒即可生成高质量的1024 x 1024像素分辨率图像,比PixArt-α快了7倍。

Stability AI在2023年11月推出的SDXL Turbo,只需要1步,约0.2秒,就能生成512 x 512像素图像。

但是,与SDXL Turbo和使用LCM的4步SDXL相比,PixArt-δ生成的图像分辨率更高,表现更加一致。生成图像错误更少,模型对指令的遵循也更准确。

开源PixArt-δ图像生成模型,0.5秒输出高分辨率AI图像4.jpg

新的PixArt模型经过优化,可以在1天内使用32GB VRAM的V100 GPU高效训练。此外,它的8位推理使其即使在仅有8GB显存的GPU上也能合成1024像素图像,大大提高了其可用性和可及性。

图像生成更精细的控制

PixArt-δ集成ControlNet模块后,可以通过参考图像对文本到图像合成过程进行更精细的控制。研究人员为基于转换器的模型专门设计了一种新的ControlNet架构,在保持高质量图像生成的同时,也提供了更精确的控制性。

开源PixArt-δ图像生成模型,0.5秒输出高分辨率AI图像5.jpg

研究人员已经在Hugging Face上发布了带ControlNet的PixArt-δ的权重。不过目前在线演示仅支持带和不带LCM的PixArt-α。

https://huggingface.co/PixArt-alpha

https://pixart-alpha.github.io/

https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha


标记狮私有云部署
一键部署标记狮至私有服务器,构建快速、安全、高效、私密的UI设计团队云协作
立即部署>>
标记狮私有云部署-一键部署标记狮至私有服务器,构建快速,安全,高效,私密的UI设计团队云协作