AI 视觉字谜爆火!梦露转 180° 秒变爱因斯坦,英伟达高级 AI 科学家:近期最酷的扩散模型

艾画的玛丽莲梦露颠倒180°变成爱因斯坦?!

这是最近在社交媒体上爆红的一幅扩散模型视错觉画。只需给AI两组不同的提示,它就能给你画出来!

甚至可以使用非常不同的对象,例如一个男人,经过反色处理后神奇地变成了一个女人:

连文字都可以翻出来创造新的效果,快乐和假日只在一个旋转中:

原来这是密歇根大学对“视觉填字游戏”的一项新研究。论文一发表,就在黑客新闻上炸开了锅,热度飙升至近800。全志科技 35

英伟达高级AI科学家Jim Fan称赞道:

有网友感叹:

要知道,要创作出一幅经过旋转、反转、变形后具有新主题的画作,需要画家对色彩、形状和空有一定的了解。

现在连AI都能画出这样的效果。是如何实现的?实际效果有这么好吗?

我们尝试了一下,并探索了其背后的原理。

Colab可以尝试一下。

我们用这个模型画了一组Lowpoly风格的画,让它看起来像一座山,反过来又像城市的天际线。

同时我们让ChatGPT (Dalle-3)试着画了一下,结果除了清晰度更高之外似乎没有什么优势。

作者本人展示的效果更丰富,更精彩。玖零零科技骗局

雪后山峰90度变成马;从另一个角度看,餐桌变成了瀑布…

最奇妙的是下图——从上下左右四个角度看,每个方向的内容都不一样。

这里给读者做个测试。你能看出这四种动物是什么吗?)

以兔子为初始状态,每逆时针旋转90度,依次看到小鸟、长颈鹿、泰迪熊。

下面两张图做了三个不同的方向,虽然四个方向都没有做“新内容”。

除了旋转,它还可以将图像切割成拼图,然后重新组合成新的内容,甚至可以直接分解到像素级别。

风格千变万化,水彩、油画、水墨画、线描……应有尽有。

那么在哪里可以玩这个模式呢?

为了让更多的网友体验这款新玩具,笔者准备了一款Colab note。

但是免费版的Colab的T4驱动不了,V100偶尔内存溢出,需要A100才能稳定运行。

连作者自己都说,如果谁发现免费版可以动,请马上告诉他。

反正第一行代码运行完,我们就填拥抱脸令牌,给出访问地址。

同时,您需要同意DeepFloyd的项目页面中的用户协议,然后才能继续下面的步骤。

准备工作完成后,依次运行这三部分代码,完成环境部署。

需要注意的是,作者目前还没有为模型设计图形界面,效果的选择和提示的修改都需要我们手动调整代码。

作者在他的笔记中放了三种效果,取消注释他想要使用的效果(删除该行前面的英镑符号),删除或注释掉未使用的效果(添加英镑符号)。

这里列举的三种效果并不是全部。如果要使用其他效果,可以手动替换代码。具体支持的效果如下:

修改后运行这行代码,然后提示还是一样的:

修改操作后可以进入生成环节,在这里还可以修改推理步数和引导强度。

需要注意的是,必须先运行image_64函数生成小图,然后用后面的图片把它变成大图,否则会报错。

综上所述,我们体验后的一个感受是,这款机型对提示词的要求还是很高的。

作者也意识到了这一点,并给出了一些提示:

△机翻,仅供参考。

那么,研究团队是如何实现这些效果的呢?

“混合”多视图图像噪声

首先我们来看作者产生视错觉图像的关键原理。

为了使图像根据不同视角的不同提示呈现出不同的画面效果,作者特意采用了“噪声平均”的方法来进一步融合两个视角的图像。

简单来说,扩散模型(DDPM)的核心是通过训练模型对图像进行“打破和重组”,并基于“噪声图”生成新的图像:

因此,为了使图像在变换前后根据不同的提示生成不同的图像,需要改变扩散模型的去噪过程。

简单来说,就是把原始图像和变换后的图像同时用扩散模型“砸”出来做一个“噪点图”,在这个过程中,把处理后的结果进行平均,计算出一个新的“噪点图”。

随后,基于这种新的“噪声图”生成的图像可以呈现出变换后想要的视觉效果。

当然,这种变换的图像处理过程必须是正交变换,也就是我们在显示效果中看到的旋转、变形、断裂重组或反色等操作。科技创新政治

具体到扩散模式的选择,也是有要求的。

具体来说,本文使用DeepFloyd IF生成视错觉图像。

DeepFloyd IF是一个基于像素的扩散模型。与其他扩散模型相比,它可以直接在像素空之间操作,而不是在势空或其他中间表示之间操作。

这也使得它能够更好地处理图像的局部信息,尤其是在生成低分辨率图像时。

这样,图像才能最终呈现出视错觉的效果。

为了评估这种方法的效果,作者基于GPT-3.5编译了一个由50个图像变换对组成的数据集。

具体来说,他们让GPT-3.5随机生成一个图像风格(比如油画风格和街头艺术风格),然后随机生成两组提示(一个老人和一座雪山),交给模型生成一幅变换画。

这是一些随机变换的结果:

随后,他们还使用CIFAR-10测试了不同模型之间的图像生成:

然后用CLIP进行了评测,结果显示改造后的效果和改造前一样好:

作者还测试了这个AI可以承受多少图像块。

事实证明,从8×8到64×64,破碎和重组的图像看起来都不错:

对于这一系列的形象转变,有网友感叹“印象深刻”,尤其是一个男人变成女人的形象转变:

有网友已经想把它做成艺术品挂在墙上,或者用电子墨水屏:

然而,一些专业摄影师认为,AI在现阶段生成的这些图像仍然不好:

那么,大家怎么看待AI生成的这一系列视错觉图像的效果呢?还能用在哪里?

参考链接:

本文来自微信微信官方账号:量子位(ID: qbitai),作者克雷斯·肖骁。

未经允许不得转载:科技让生活更美好 » AI 视觉字谜爆火!梦露转 180° 秒变爱因斯坦,英伟达高级 AI 科学家:近期最酷的扩散模型