摄影师饭碗难保?Midjourney下一步将生成视频

宣布三个月后,最新版本的热门车型Midjourney终于上市了。当地时间12月21日,Midjourney宣布在Discord上发布其最新版本V6的测试版,目前处于alpha测试阶段。从用户的大量实例来看,V6对于写实图片和抽象画,和设计师、摄影师一样得心应手。

Midjourney将V6定位为一项重大创新成就。其首席执行官DaVid Holz表示,V6实际上是在AI超级集群上从零开始训练的第三个模型,整个开发周期长达9个月。“这个模型生成的图像比我们之前发布的任何版本都要真实得多。”根据官方介绍,V6的主要变化是画质更好、语义理解更强、文字嵌入能力更强、提示词更多、连贯性更高、模型知识更丰富。

根据用户测试,V6现在支持长度超过350个字符的提示词,甚至可以理解标点和语法的细微差别。从目前网友展示的图片来看,V6在理解、光影、构图、材质、色彩等方面确实比上一代产品更上一层楼。

用同样的提示测试V6和V5.2,对比非常明显(上图是V6的生成;下图由V5.2生成):

关键词:20世纪80年代的一部悬疑电影,身着黑色西装的法国管家在维多利亚豪宅的走廊里举着蜡烛。

关键词:20世纪60年代的街头风格照片需要展示一个年轻女子坐在帆船上,穿着绿色丝绸连衣裙,戴着珍珠项链。

关键词:40年代复古科幻电影中穿着高领银色工装裤的女操作工。

关键词:街角酒吧的霓虹灯招牌上写着“营业至深夜”

关键词:雨坑中夕阳的倒影

关键词:木勺炖锅。

在文本生成方面,V6可以更清晰地将文本嵌入图像中,甚至可以指定其样式。沙鸥成都演唱会全集

注:CocaCola原文:可口可乐

还原毛衣、动物毛发、窗户上雨滴的质感。

长文本的处理也更好。

产品标志图

不同工具下产品设计图纸与文本的比较

这种性能的提升有望给设计和营销行业带来更大的收益。据了解,目前已经有部分跨境电商从业者使用文盛地图的大模型制作产品介绍页面和模型展示图,Midjourney是最常用的工具。sigpipe

此外,V6还能“画手”。此前,AI绘画一直被批评不真实,尤其是人物手部的细节,往往会导致畸形。但随着V5的推出,完美解决了这一技术难题,甚至呈现了手部的指纹和皮肤线条,实现了AI绘画的跨越式突破。这里有一些手绘:蔡振华和陈戍源

目前V6还缺少V5.2模型中的一些功能,包括左右平衡和缩小,但Holz表示这些功能会在V6后续的更新中实现。

V6不会是中途的终点。该产品一直处于迭代阶段。2022年3月上线第一版,之后迅速演变到今天的第六版,平均每三个月更新一次。在Midjourney的公告中,他们表示,V6的速度、图像质量、连贯性、提示符合性和文本准确性应该在未来几周内得到改善。V6测试版发布半小时后公布了第一次更新,生成速度提升了2.7倍。

此前,该公司还表示,未来的技术更新方向包括生成3D和视频。霍尔茨预测,未来有可能以每秒30帧的高分辨率实时生成内容,到2030年,可能生成整个电子游戏。

值得一提的是,创始人大卫·霍尔茨(David Holz)据称曾多次拒绝风险投资家递来的橄榄枝。在过去的一年中,Discord平台上Midjourney的用户数量从200万增长到1767万,每天在线人数超过100万(截至记者发稿时),产品已经开启了付费模式,用户可以根据不同的套餐选择每月收取10到120美元。拥有40名员工的团队,Mid Jojo

未经允许不得转载:科技让生活更美好 » 摄影师饭碗难保?Midjourney下一步将生成视频