随着ChatGPT的火热,各类AI聊天机器人层出不穷,然而目前流行的扩散模型生成中文效果仍不尽人意。为解决这个痛点,阿里研发团队在近日推出了AnyText多语言视觉文字生成与编辑开源模型,可以生成带有中文的图像。
地址:https://modelscope.cn/models/damo/cv_anytext_text_generation_editing/summary
demo:https://modelscope.cn/studios/damo/studio_anytext/summary
AnyText提供文字生成和文字编辑两种模式。
文字生成模式可以在图像指定位置插入文本,每次生成一张图。用户需要在Prompt中输入提示词,用双引号标注文字内容,然后绘制各行文字的位置。绘制位置非常关键,要与文字行数量、长短大小相匹配。比如在在生成一个产品广告图时,可以把文字置入产品包装对应位置。
文字编辑模式支持上传任意分辨率的参考图,可以直接在图上涂抹要替换的文本位置,输入新内容后生成新图,大幅度节省后期处理时间。示例中,将表情图像中的没饭两个字涂抹,并在提示词中写上”下班“文字内容,就可以直接得到新的文字内容图像。
目前AnyText仅支持1:1比例的参考图,这对某些非标准尺寸的创意还存在限制。
在图像质量方面,AnyText当前生成的文字和图片细节处理还有待提高,不能达到逼真的效果,美观度也有待提升。不过从成品输出而非过程体验的角度来看,AnyText已经做到了最优解。且在后期的迭代中,通过优化模型和训练,AnyText生成的图像质量还将不断提升,为用户带来更精致真实的效果。
作为市场上首个支持中文生成的开源模型,AnyText解决了当前扩散模型的困境,让AI生成图像的时候也可以无障碍嵌入中文文本。可以预见,基于AnyText的模型训练和迭代会引领更多支持中文的生成工具涌现。