Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了

白交 丰色 发自 凹非寺

量子比特|微信官方账号QbitAI

稳定扩散3,终于来了!

酝酿了一年多,相比上一代进化了三种能力。

来,直接管用!

首先,是渲染开放文本的能力。

看黑板上的粉笔:

要么做大要么回家,这是嗜杀~

路标和公交车灯的霓虹灯效果;

刺绣上还有“晚安”字样,可以看到针脚:

作品一放出来,网友直呼:太准了。

以至于有人说:快点安排中文。如何设置ip地址为自动获取

其次,多题目提示能力直接拉满。

你什么意思?你可以一次在提示符中填入n个以上的“元素”,如果我漏掉了一个,我就输了。

嗯,如果你仔细看下面的图片,里面有“宇航员”、“穿着芭蕾舞裙的猪”、“粉红色的伞”和“戴帽子的罗宾”,角落里还有几个字符(不是水印)。

有了这种能力,一部作品就可以像你想要的那样丰富。

最后,当谈到图像质量时,它再次进化了一个等级。

只是看着眼前的这些照片,你震惊了吗?!

而各种超清特写,那更是信手拈来。

心跳?目前官方排队名单已经开放,大家可以去官网申请。

咳咳,不得不说最近这个AI圈真热闹。

有网友直呼,我的电脑撑不住了…

稳定扩散3来了!

全新的稳定扩散有多好,再给你点。

当然,所有的图片都来自官方,比如StabilityAI媒体的负责人:

不得不说文字效果真的是最吸睛的,各种形式都能呈现得相当清晰和“贴切”。

看到上图,我不禁想到“Midjourney在学术界的尴尬亮相:为生物论文制作图片”——我们可以用SD3制作非常专业的学术图片吗?

除了这些,SD3的“酒精水墨画”也颇具匠心:

动画风格:

同样,您可以在上面添加清晰的文字。

由于目前需要排队申请,实际测试底层对每个人都不好。

然而,机智的网民已经在mid journey(v 6.0)中输入了相同的提示。

例如,开头的“提示:教室桌子上放着一个红苹果的电影照片,黑板上写着“要么做大,要么回家”。

Midjourney给出的最终结果如下:

从这一比较来看,可以说——SD3在拼写、质量和颜色协调方面都更胜一筹。

从技术上讲,目前该模型可选择的参数范围从800M到8B。

详细的技术报告尚未发布,官方仅透露其主要结合了扩散变压器架构和流量匹配。

前者实际上与黑脸田鸡相同,随附的技术论文是威廉·皮布尔斯和谢赛宁在22年撰写的DiT。

DiT首次将Transformer与扩散模型相结合,相关论文被ICCV 2023聘为口头论文。

在这项研究中,研究人员训练了电位扩散模型,并用操作电位补丁的变压器取代了常用的U-Net主干网络。他们通过Gflops测量的正向传输复杂度分析了扩散变压器(DiT)的可扩展性。

后者flow matching也来自22年,由Meta AI和魏茨曼科学研究所的科学家完成。

他们提出了一种基于连续归一化流(CNFs)和流匹配概念的生成模型的新范式,这是一种基于回归固定条件概率路径矢量场的无CNFs方法。研究发现,通过使用带有扩散路径的流动匹配,训练后的模型更加稳健和稳定。

然而,在看了最近视频生成的如此大的进步后,一些网民说:

厦新a8手机

miui手机分身

你怎么想呢?

还有一点

此外,就在前一天,他们的视频产品Stable Video正式开放公测。

基于SVD1.1(稳定视频扩散1.1),每个人都可以使用。

它主要支持两个功能:文生视频和图生视频。

参考链接:

【1】https://stability . ai/news/stable-diffusion-3

【2】https://arxiv . org/ABS/2212.09748

【3】https://arxiv . org/ABS/2210.02747

【4】https://Twitter . com/pablo aumente/status/1760678508173660543

未经允许不得转载:科技让生活更美好 » Stable Diffusion 3突然发布!与Sora同架构,一切都更逼真了