一个新的开源文生图模型出现了!由Stability AI前核心成员Robin Rombach领衔的"黑森林实验室"(Black Forest Labs)近日推出了FLUX.1图像生成模型家族,引起业界广泛关注。该公司成立伊始便获得了3200万美元的融资支持,彰显了投资者对其技术实力和发展前景的信心。
FLUX.1模型家族包含三个变体:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell],分别针对不同的应用场景进行了优化。其中,FLUX.1 [pro]作为顶级版本,提供最先进的图像生成性能,适用于商业应用;FLUX.1 [dev]是一个开源的指导蒸馏模型,适合学术研究和非商业应用;FLUX.1 [schnell]则是为本地开发和个人使用而优化的高速版本。
在当前的AI图像生成领域,Midjourney v6.0、DALL·E 3 (HD)和Stable Diffusion 3-Ultra等模型一直处于领先地位。然而,FLUX.1的出现正在改变这一格局。根据官方声明,FLUX.1在多个关键指标上超越了这些知名模型:
视觉质量:FLUX.1生成的图像细节更丰富,色彩更鲜明,整体质量更高。
提示跟随:相比其他模型,FLUX.1能更准确地理解和执行用户的文本提示。
大小/纵横比变化:FLUX.1在处理不同尺寸和比例的图像时表现更加灵活。
排版能力:在处理包含文字的图像时,FLUX.1展现出优秀的排版和布局能力。
输出多样性:FLUX.1能生成更加多样化的图像,为用户提供更多创意选择。
FLUX.1的发布在社交媒体上引发了热烈讨论,许多用户对模型生成手指的能力赞不绝口。众所周知,准确生成人手和手指一直是AI图像生成模型面临的一大挑战。许多模型在这方面常常出现错误,比如手指数量不正确或形状怪异等问题,FLUX.1在这一难题上取得了突破性进展。
用户反馈显示,FLUX.1生成的手指更加自然、准确,无论是手指的数量还是姿势都更符合现实。这一优势不仅提高了生成图像的整体质量,也大大增加了模型在人物肖像、手部特写等场景中的实用性。
这一进步可能源于FLUX.1的创新架构和先进的训练方法。黑森林实验室可能在模型训练过程中特别关注了手部细节的处理,或者采用了更优秀的数据集和算法来改善这一常见问题。无论如何,这个特点都凸显了FLUX.1在细节处理上的卓越能力。
从技术角度来看,FLUX.1模型拥有120亿参数,这个规模使它能够处理复杂的图像生成任务,同时保持较高的效率。黑森林实验室的核心团队阵容强大,包括多位在机器学习和生成式AI领域有深厚背景的专家。他们的贡献包括创建VQGAN和Latent Diffusion,以及参与开发Stable Diffusion等知名项目。这支团队的丰富经验为FLUX.1的成功奠定了坚实基础。
在开放性方面,黑森林实验室表现出了可贵的诚意。FLUX.1 [dev]和FLUX.1 [schnell]的模型权重和推理代码已在HuggingFace和GitHub上公开,方便开发者使用和二次开发。同时,用户可以通过Replicate和fal.ai等平台在线体验FLUX.1的强大功能。
模型下载:https://huggingface.co/black-forest-labs
GitHub:https://github.com/black-forest-labs/flux
在线体验:https://flux1.ai/
Replicate: :
FAL: :