开源PixArt-δ图像生成模型，0.5秒输出高分辨率AI图像

发表于 2024-01-24

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

开源PixArt-δ图像生成模型，0.5秒输出高分辨率AI图像2.jpg

Stable Diffusion在开源图像生成领域,可能很快就会遇到竞争对手。PixArt的最新迭代版本,速度更快、精确度更高，同时保持了较高的分辨率。

华为诺亚方舟实验室、大连理工大学、清华大学和Hugging Face的研究人员在一篇论文中提出了PixArt-δ，这是一个专为与Stable Diffusion系列竞争而设计的先进文字到图像合成框架。

相比之前的PixArt-α，PixArt-δ有了长足的提高，PixArt-α已经能够快速生成1024 x 1024像素分辨率的图像。

开源PixArt-δ图像生成模型，0.5秒输出高分辨率AI图像3.jpg

0.5秒内生成高分辨率图像

PixArt-δ在PixArt-α的基础上,集成了潜在一致性模型(LCM)和ControlNet,显著加快了推理速度。该模型只需要2-4步，短至0.5秒即可生成高质量的1024 x 1024像素分辨率图像，比PixArt-α快了7倍。

Stability AI在2023年11月推出的SDXL Turbo，只需要1步，约0.2秒，就能生成512 x 512像素图像。

但是，与SDXL Turbo和使用LCM的4步SDXL相比，PixArt-δ生成的图像分辨率更高，表现更加一致。生成图像错误更少，模型对指令的遵循也更准确。

开源PixArt-δ图像生成模型，0.5秒输出高分辨率AI图像4.jpg

新的PixArt模型经过优化，可以在1天内使用32GB VRAM的V100 GPU高效训练。此外，它的8位推理使其即使在仅有8GB显存的GPU上也能合成1024像素图像，大大提高了其可用性和可及性。

图像生成更精细的控制

PixArt-δ集成ControlNet模块后，可以通过参考图像对文本到图像合成过程进行更精细的控制。研究人员为基于转换器的模型专门设计了一种新的ControlNet架构，在保持高质量图像生成的同时，也提供了更精确的控制性。

开源PixArt-δ图像生成模型，0.5秒输出高分辨率AI图像5.jpg

研究人员已经在Hugging Face上发布了带ControlNet的PixArt-δ的权重。不过目前在线演示仅支持带和不带LCM的PixArt-α。

https://huggingface.co/PixArt-alpha
https://pixart-alpha.github.io/
https://huggingface.co/spaces/PixArt-alpha/PixArt-alpha