10月22日,Stability AI 发布了其最新的图像生成模型——Stable Diffusion 3.5。作为该系列的新一代产品,Stable Diffusion 3.5 不仅延续了前代模型的强大功能,还在性能、速度和硬件兼容性等方面进行了显著优化。
本次发布的模型包括三个主要版本:Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo 和即将于10月29日发布的 Stable Diffusion 3.5 Medium。
1. 多样化的模型版本,满足不同用户需求
针对不同的用户群体提供的不同的版本,三个版本的模型各有侧重:
Stable Diffusion 3.5 Large:
这个版本拥有 80亿参数,能够生成高达 1兆像素 分辨率的图像,是目前该系列中最强大的一款。它在图像质量和提示词响应性上达到了行业领先水平,特别适合需要高质量输出的专业用户和企业。Stable Diffusion 3.5 Large Turbo:
相较于 Large 版本,Turbo 版本在速度方面有了极大提升。通过模型的“蒸馏”技术,Large Turbo 可以在 4步 内生成图像,这使其推理速度大幅提高。它的参数规模与 Large 相同,但在不牺牲图像质量的前提下,Turbo 版本为那些需要快速生成图像的用户提供了更高效的解决方案。Stable Diffusion 3.5 Medium:
Stable Diffusion 3.5 Medium 是一个适合普通用户的轻量级版本,拥有 25亿参数,专为消费级硬件优化。它能够生成分辨率介于 0.25至2兆像素 的图像,适合那些希望在家用电脑或笔记本上运行AI模型的用户。该版本虽然参数较少,但在质量和定制化方面仍然表现优异,特别适合个人创作和中小型企业。
2. 性能与优化
在性能优化方面,Stable Diffusion 3.5 通过一系列技术革新,显著提升了模型的生成速度与稳定性。特别是 Query-Key Normalization 技术的引入,使得模型在训练和推理时更加稳定,同时也简化了后续的微调和自定义过程。
对于图像生成模型而言,生成速度和提示词的响应性是衡量用户体验的重要指标。Stable Diffusion 3.5 Large 在这两方面的表现尤为出色,不仅在提示词的理解和执行上极为精准,还能够生成质量媲美更大规模模型的图像。而 Large Turbo 版本则通过减少生成步骤,大幅缩短了用户等待时间。
Stable Diffusion 3.5 Medium 作为一款轻量级模型,能够在消费级硬件上实现高效运行。
目前所有模型均在 Stability AI 社区许可协议 下发布,这一许可模式允许用户在非商业用途中免费使用模型,同时收入低于 100 万美元的企业也可以免费用于商业用途。
用户可以在 Hugging Face 上获取模型权重进行自托管,还可以通过 Stability AI API、Replicate、ComfyUI 和 DeepInfra 等平台访问这些模型。
尽管 Stable Diffusion 3.5 的发布让人充满期待,但在此之前,Stable Diffusion 3 Medium 的表现曾让部分用户感到失望,促使部分用户转向了如 FLUX 等新兴模型。因此,这次的 3.5 版本肩负着重新赢得市场和用户信任的重任。
Stability AI 已经宣布,他们将在 10 月 29 日之后推出更多功能,例如 ControlNets,这将为专业用户提供更多样化的控制功能,进一步提升图像生成的灵活性和精度。