Stylus:自动为Stable Diffusion匹配最优Adapter的AI工具

发表于 2024-05-20

标记狮私有云部署

一键部署标记狮至私有服务器，构建快速，安全，高效，私密的UI设计团队云协作

Stylus:自动为Stable Diffusion匹配最优Adapter的AI工具1.jpg

近年来，人工智能技术在图像生成领域取得了长足进步。以Stable Diffusion、Midjourney等为代表的文本到图像(Text-to-Image)生成模型，让我们见证了机器想象力的惊人表现。然而，当前的图像生成技术仍然存在一些局限性,如生成图像的质量和多样性有待提升，用户难以精准控制生成结果等。

为了进一步推动AI图像生成技术的发展，来自UC Berkeley、CMU和Google Deepmind的研究团队联合推出了一个名为Stylus的全新项目。Stylus旨在通过自动为扩散模型选择最优的Adapter(适配器)，来生成更加精美、创意十足、量身定制的图像。

Adapter是在预训练好的扩散模型基础上，针对特定领域或风格进行微调获得的轻量级模型。得益于开源社区的贡献，目前已经积累了超过10万个涵盖多种主题和艺术风格的Adapter。然而，海量的Adapter资源也给用户选择和使用带来了困扰，主要问题在于Adapter的描述信息往往不够充分和准确。

Stylus:自动为Stable Diffusion匹配最优Adapter的AI工具3.jpeg

Stylus提出了一种创新的三阶段方法来攻克这一难题:

Refiner(提炼器):智能分析每个Adapter的模型卡片，自动生成精炼且准确的描述，并将其编码为嵌入向量。
Retriever(检索器):将用户输入的文本提示编码为向量，快速检索出最相关的K个Adapter。
Composer(组合器):根据提示词的关键词，自动将任务分解并为每个子任务匹配最佳Adapter组合，同时过滤掉无关Adapter以保证图像质量。

借助这一流程，用户只需提供一句简单的文本提示，Stylus就能自动为其生成一张高质量、富有创意且符合要求的图像。

研究团队还构建了一个名为StylusDocs的评估数据集,其中包含7.5万个带有预计算嵌入向量的Adapter。实验结果显示，无论是真实场景还是卡通风格，Stylus生成的图像都比现有的Stable Diffusion模型更受人类评估者青睐(偏好度提升约2倍)。Stylus在文本对齐度、视觉保真度和图像多样性等客观指标上也有明显优势。

假设您是一位插画师，想要创作一张充满童话色彩的图像，主题是"一只穿着蓝白色水手服的可爱小猫，坐在魔法蘑菇丛中，蘑菇上点缀着彩色糖果，背景是梦幻的糖果城堡"。

传统的做法是，您可能需要在Stable Diffusion等扩散模型中尝试多个提示词的组合，并对生成的图像进行筛选和编辑，直到获得满意的结果。这个过程可能需要一定的时间和精力。

而使用Stylus，您只需输入上述的文本提示，Stylus就会自动为您生成一张高质量、符合要求的图像,整个过程可能只需要几秒钟。那么，Stylus是如何实现这一神奇的效果的呢?

首先，Stylus的Refiner模块会分析海量Adapter的信息，找出与"童话"、"小猫"、"水手服"、"蘑菇"、"糖果"、"城堡"等概念最相关的一些Adapter，并生成精炼的描述。这一步可以理解为Stylus在庞大的素材库中，智能地为您挑选出了最有用的"画笔"和"颜料"。

接下来，Retriever模块会将您的文本提示编码为向量，在Adapter库中搜索与之最匹配的若干Adapter。这些Adapter可能分别擅长生成童话风格、小动物形象、糖果元素等。

最后，Composer模块会将您的提示拆分成多个子任务(如小猫、蘑菇、城堡等)，并为每个子任务分配最相关的一个或几个Adapter。它们就像一组训练有素的画家，分工合作，共同完成这幅童话插画的创作。Composer还会检查每个Adapter与提示的相关性，剔除可能产生干扰的无关Adapter，确保画面主题的一致性。

所有这些步骤都是自动完成的，您只需提供一句简单的文本提示，Stylus就能将抽象的语言转化为充满想象力和创意的图像。

Stylus的潜在应用前景广泛。对于普通用户而言，Stylus大大降低了使用AI进行艺术创作的门槛。对于专业艺术家和设计师来说,Stylus可以作为一个得力的创作助手，帮助他们快速生成多样化的草图和灵感，提升创作效率

https://stylus-diffusion.github.io/