Midjourney刚刚在Discord上发布了V6 alpha版本,这是他们经过9个月研发训练的新一代模型。根据官方公告以及用户的使用体验,这一版本在图像生成质量和对提示理解上的能力有了非常大的进步。
进入Discord输入setting命令可选择V6 Alpha版本。
对比5.2版本V6的重点能力提升在于:
1.提示跟踪能力和支持长度都有明显提升,生成的图像和提示的要求契合度更高。
提示词:HDR photography of a talented breakdancer spin and flip with astonishing agility | movements frozen in time | defying gravity, attracting a lively crowd of onlookers | vibrant, graffiti-covered urban jungle background (超高动态摄影捕捉到了一位才华横溢的霹雳舞者旋转翻飞的瞬间|动作定格在时间的片刻|挑战地心引力,吸引着热情的围观群众|充满活力的城市丛林背景上满是涂鸦壁画)
2.图像融合和局部修改能力也比以前强大。使用"Vary"参数可以连贯地改变图像的某个要素,同时保持其它部分一致。如下图原提示是一辆火车,改为摩托车,其它要素不变。
3.可以生成带文本的图像。在提示词中使用引号把要生成的文本框起来,可以生成包含指定文字的图像,虽然效果依然不精细。
3.提供两种新的图像采样模式,分辨率可以提高一倍,生成更精细的图像细节,可在放大图像后点击upscale按钮使用该功能。
4.支持的参数指令有: --ar、--chaos、--weird、--tile、--stylize、--style raw、Vary、Remix、/blend等,可以更好控制图像风格。
5.V6版本对提示语更为敏感,需要重新学习提示方法,不能简单堆砌形容词。明确具体的描述可以获得更好结果。默认样式为--style raw。
6.V6生成更逼真的图像,但速度较慢。社区规范会更严格,避免问题内容。
7.这只是一个早期测试版,后续还会不断优化提升生成速度、图片质量、连贯性等。
同时一些用户还发现:
V6支持350字以上长度的提示。
可以指定颜色和细节。
可以通过语言控制构图的组成和元素位置。
可以包含多个元素在同一图像中。
可以像ChatGPT一样与Midjourney进行问答。
可以理解标点符号的细微区别。
可以生成漫画。
支持某些自然语言否定。
可以通过描述添加边框。
可以看到Midjourney V6版本在图像生成能力上达到了新的高度,理解并执行提示的能力也有了质的飞跃。官方声明在未来几周,各方面效果会继续优化,越来越期待了。