过去一年中,Stability AI不断迭代更新,发布了多代图像生成模型,每个新版本的模型精细度和生成质量都有不同程度的提升。特别是在2023年7月发布的SDXL模型,相比之前的版本有了显著的进步。现在,Stability AI又发布了Stable Diffusion 3,这一新版本模型的目标是实现文本到图像生成的再次革新。Stable Diffusion 3目前还在内测。
Stable Diffusion 3采用了一种全新的架构,即“扩散变换器”。这种架构类似OpenAI最近发布的Sora模型所采用的结构。CEO Emad Mostaque表示,相比原始的Stable Diffusion,Stable Diffusion 3可以看作是真正的下一代继任者。
与此同时,Stability AI还在各种图像生成方法上进行着试验和创新。本月初,他们发布了一款基于Würstchen架构的“Stable Cascade”模型预览版。而Stable Diffusion 3则采用了扩散变换器这一不同的新方向。值得一提的是,在Stable Diffusion系列模型中,这还是首次引入了变换器(Transformer)。我们知道,变换器是当今许多生成AI模型的基础,主要应用于文本生成领域,而在图像生成领域,扩散模型一直占主导地位。Stable Diffusion 3采用的扩散变换器(DiTs),可以更高效利用计算资源,性能也优于传统的扩散模型。
另一个重要创新就是流匹配(flow matching)技术。该技术可以更快速有效地训练连续正态流(CNFs),以拟合复杂的数据分布,相比传统的扩散路径,采样效率也有了很大提升。
在图像生成质量方面,Stable Diffusion 3也有显著提升,特别是在文字生成和排版方面。新的模型内置了额外的文本编码器,可以生成更加连贯、符合语法的句子,正确拼写的比例也有了很大进步。这解决了早期版本Stable Diffusion的一个明显弱点。
尽管目前Stable Diffusion 3主要以文本到图像生成为主,但Stability AI表示,这一模型系列未来将支持视频、3D生成等更多应用,是他们下一代视觉AI技术发展的基石。