当前位置：科技让生活更美好 > 科技 > 正文

Stable Diffusion 3突然发布！与Sora同架构，一切都更逼真了

pu 发布于 2024-02-27
分类：科技
阅读(36)

白交丰色发自凹非寺

量子比特|微信官方账号QbitAI

稳定扩散3，终于来了！

酝酿了一年多，相比上一代进化了三种能力。

来，直接管用！

首先，是渲染开放文本的能力。

看黑板上的粉笔:

要么做大要么回家，这是嗜杀~

路标和公交车灯的霓虹灯效果；

刺绣上还有“晚安”字样，可以看到针脚:

作品一放出来，网友直呼:太准了。

以至于有人说:快点安排中文。如何设置ip地址为自动获取

其次，多题目提示能力直接拉满。

你什么意思？你可以一次在提示符中填入n个以上的“元素”，如果我漏掉了一个，我就输了。

嗯，如果你仔细看下面的图片，里面有“宇航员”、“穿着芭蕾舞裙的猪”、“粉红色的伞”和“戴帽子的罗宾”，角落里还有几个字符（不是水印）。

有了这种能力，一部作品就可以像你想要的那样丰富。

最后，当谈到图像质量时，它再次进化了一个等级。

只是看着眼前的这些照片，你震惊了吗？！

而各种超清特写，那更是信手拈来。

心跳？目前官方排队名单已经开放，大家可以去官网申请。

咳咳，不得不说最近这个AI圈真热闹。

有网友直呼，我的电脑撑不住了…

稳定扩散3来了！

全新的稳定扩散有多好，再给你点。

当然，所有的图片都来自官方，比如StabilityAI媒体的负责人:

不得不说文字效果真的是最吸睛的，各种形式都能呈现得相当清晰和“贴切”。

看到上图，我不禁想到“Midjourney在学术界的尴尬亮相:为生物论文制作图片”——我们可以用SD3制作非常专业的学术图片吗？

除了这些，SD3的“酒精水墨画”也颇具匠心:

动画风格:

同样，您可以在上面添加清晰的文字。

由于目前需要排队申请，实际测试底层对每个人都不好。

然而，机智的网民已经在mid journey（v 6.0）中输入了相同的提示。

例如，开头的“提示:教室桌子上放着一个红苹果的电影照片，黑板上写着“要么做大，要么回家”。

Midjourney给出的最终结果如下:

从这一比较来看，可以说——SD3在拼写、质量和颜色协调方面都更胜一筹。

从技术上讲，目前该模型可选择的参数范围从800M到8B。

详细的技术报告尚未发布，官方仅透露其主要结合了扩散变压器架构和流量匹配。

前者实际上与黑脸田鸡相同，随附的技术论文是威廉·皮布尔斯和谢赛宁在22年撰写的DiT。

DiT首次将Transformer与扩散模型相结合，相关论文被ICCV 2023聘为口头论文。

在这项研究中，研究人员训练了电位扩散模型，并用操作电位补丁的变压器取代了常用的U-Net主干网络。他们通过Gflops测量的正向传输复杂度分析了扩散变压器（DiT）的可扩展性。

后者flow matching也来自22年，由Meta AI和魏茨曼科学研究所的科学家完成。

他们提出了一种基于连续归一化流（CNFs）和流匹配概念的生成模型的新范式，这是一种基于回归固定条件概率路径矢量场的无CNFs方法。研究发现，通过使用带有扩散路径的流动匹配，训练后的模型更加稳健和稳定。

然而，在看了最近视频生成的如此大的进步后，一些网民说:

厦新a8手机

miui手机分身

你怎么想呢?

还有一点

此外，就在前一天，他们的视频产品Stable Video正式开放公测。

基于SVD1.1（稳定视频扩散1.1），每个人都可以使用。

它主要支持两个功能:文生视频和图生视频。

参考链接:

【1】https://stability . ai/news/stable-diffusion-3

【2】https://arxiv . org/ABS/2212.09748

【3】https://arxiv . org/ABS/2210.02747

【4】https://Twitter . com/pablo aumente/status/1760678508173660543

未经允许不得转载：科技让生活更美好 » Stable Diffusion 3突然发布！与Sora同架构，一切都更逼真了

作者：pu

相关推荐

回顶部