Playground AI公司今日宣布推出其最新的文本到图像生成模型——Playground v2.5。这一版本不仅在图像的美学质量上实现了飞跃,更在颜色和对比度的增强、多种比例图像生成能力以及人像细节处理方面做出了重大改进。
据官方发布的用户偏好评估结果显示,Playground V2.5的图像生成质量已明显超越当前其他主流开源模型,包括Stable Diffusion系列的SDXL、PixArt-α等。与商业化闭源系统如DALL-E 3和Midjourney V5.2相比,V2.5在用户审美偏好上的表现也占据优势。
Playground v2.5的革新之处
1.增强色彩和对比度
相比Playground V2和其他开源模型,V2.5生成的图像颜色更加鲜艳,对比度更高。这主要归功于研发团队采用了新型的EDM训练框架,从更根本上增强了模型对颜色和对比度的学习能力。EDM框架优化了模型的信噪比参数设置,使其在图像重构过程中可以保留更多原始颜色信息,从而大幅提升输出图像的色彩还原程度。这一创新使V2.5能够轻松生成纯色背景及主体的图像,解决了此前模型经常出现颜色退化的问题。
(第一排为SDXL结果,第二排为Playground v2.5结果)
2.改进多宽高比生成
在训练数据和采样策略上,研发团队为V2.5做了针对性优化。增加了不同宽高比的图像样本,并采用了更加平衡的宽高比Bucket采样机制。这避免了模型只适应特定宽高比的问题。最终V2.5在生成不同比例的图片时,无论是横屏的手机壁纸,还是竖屏的电脑桌面背景,效果都相当出色,明显优于其他开源模型。
(第一排为SDXL结果,第二排为Playground v2.5结果,876 x 1168)
3.提高人像细节
研发团队采用了类似LLM模型中的SFT方法,使用校准数据特别增强了V2.5对人像细节的生成能力。模型对眼睛、面部、头发等部位的细节还原更加精确生动,大幅减少了人像畸变的问题。这使得V2.5在涉及人像生成的场景中,相比其他开源模型有明显优势,更符合用户的期待。
与此同时,Playground公司还开源了Playground V2.5的模型权重参数,供研究人员基于此进行研究和应用开发。在HuggingFace平台上,该模型已经累计了超过13万次的下载量。
在线免费体验:https://playground.com/
模型下载:https://huggingface.co/playgroundai/playground-v2.5-1024px-aesthetic