AI 视觉字谜爆火！梦露转 180° 秒变爱因斯坦，英伟达高级 AI 科学家：近期最酷的扩散模型-科技让生活更美好

艾画的玛丽莲梦露颠倒180°变成爱因斯坦？！

这是最近在社交媒体上爆红的一幅扩散模型视错觉画。只需给AI两组不同的提示，它就能给你画出来！

甚至可以使用非常不同的对象，例如一个男人，经过反色处理后神奇地变成了一个女人:

连文字都可以翻出来创造新的效果，快乐和假日只在一个旋转中:

原来这是密歇根大学对“视觉填字游戏”的一项新研究。论文一发表，就在黑客新闻上炸开了锅，热度飙升至近800。全志科技 35

英伟达高级AI科学家Jim Fan称赞道:

有网友感叹:

要知道，要创作出一幅经过旋转、反转、变形后具有新主题的画作，需要画家对色彩、形状和空有一定的了解。

现在连AI都能画出这样的效果。是如何实现的？实际效果有这么好吗？

我们尝试了一下，并探索了其背后的原理。

Colab可以尝试一下。

我们用这个模型画了一组Lowpoly风格的画，让它看起来像一座山，反过来又像城市的天际线。

同时我们让ChatGPT (Dalle-3)试着画了一下，结果除了清晰度更高之外似乎没有什么优势。

作者本人展示的效果更丰富，更精彩。玖零零科技骗局

雪后山峰90度变成马；从另一个角度看，餐桌变成了瀑布…

最奇妙的是下图——从上下左右四个角度看，每个方向的内容都不一样。

这里给读者做个测试。你能看出这四种动物是什么吗？)

以兔子为初始状态，每逆时针旋转90度，依次看到小鸟、长颈鹿、泰迪熊。

下面两张图做了三个不同的方向，虽然四个方向都没有做“新内容”。

除了旋转，它还可以将图像切割成拼图，然后重新组合成新的内容，甚至可以直接分解到像素级别。

风格千变万化，水彩、油画、水墨画、线描……应有尽有。

那么在哪里可以玩这个模式呢？

为了让更多的网友体验这款新玩具，笔者准备了一款Colab note。

但是免费版的Colab的T4驱动不了，V100偶尔内存溢出，需要A100才能稳定运行。

连作者自己都说，如果谁发现免费版可以动，请马上告诉他。

反正第一行代码运行完，我们就填拥抱脸令牌，给出访问地址。

同时，您需要同意DeepFloyd的项目页面中的用户协议，然后才能继续下面的步骤。

准备工作完成后，依次运行这三部分代码，完成环境部署。

需要注意的是，作者目前还没有为模型设计图形界面，效果的选择和提示的修改都需要我们手动调整代码。

作者在他的笔记中放了三种效果，取消注释他想要使用的效果(删除该行前面的英镑符号)，删除或注释掉未使用的效果(添加英镑符号)。

这里列举的三种效果并不是全部。如果要使用其他效果，可以手动替换代码。具体支持的效果如下:

修改后运行这行代码，然后提示还是一样的:

修改操作后可以进入生成环节，在这里还可以修改推理步数和引导强度。

需要注意的是，必须先运行image_64函数生成小图，然后用后面的图片把它变成大图，否则会报错。

综上所述，我们体验后的一个感受是，这款机型对提示词的要求还是很高的。

作者也意识到了这一点，并给出了一些提示:

△机翻，仅供参考。

那么，研究团队是如何实现这些效果的呢？

“混合”多视图图像噪声

首先我们来看作者产生视错觉图像的关键原理。

为了使图像根据不同视角的不同提示呈现出不同的画面效果，作者特意采用了“噪声平均”的方法来进一步融合两个视角的图像。

简单来说，扩散模型(DDPM)的核心是通过训练模型对图像进行“打破和重组”，并基于“噪声图”生成新的图像:

因此，为了使图像在变换前后根据不同的提示生成不同的图像，需要改变扩散模型的去噪过程。

简单来说，就是把原始图像和变换后的图像同时用扩散模型“砸”出来做一个“噪点图”，在这个过程中，把处理后的结果进行平均，计算出一个新的“噪点图”。

随后，基于这种新的“噪声图”生成的图像可以呈现出变换后想要的视觉效果。

当然，这种变换的图像处理过程必须是正交变换，也就是我们在显示效果中看到的旋转、变形、断裂重组或反色等操作。科技创新政治

具体到扩散模式的选择，也是有要求的。

具体来说，本文使用DeepFloyd IF生成视错觉图像。

DeepFloyd IF是一个基于像素的扩散模型。与其他扩散模型相比，它可以直接在像素空之间操作，而不是在势空或其他中间表示之间操作。

这也使得它能够更好地处理图像的局部信息，尤其是在生成低分辨率图像时。

这样，图像才能最终呈现出视错觉的效果。

为了评估这种方法的效果，作者基于GPT-3.5编译了一个由50个图像变换对组成的数据集。

具体来说，他们让GPT-3.5随机生成一个图像风格(比如油画风格和街头艺术风格)，然后随机生成两组提示(一个老人和一座雪山)，交给模型生成一幅变换画。

这是一些随机变换的结果:

随后，他们还使用CIFAR-10测试了不同模型之间的图像生成:

然后用CLIP进行了评测，结果显示改造后的效果和改造前一样好:

作者还测试了这个AI可以承受多少图像块。

事实证明，从8×8到64×64，破碎和重组的图像看起来都不错:

对于这一系列的形象转变，有网友感叹“印象深刻”，尤其是一个男人变成女人的形象转变:

有网友已经想把它做成艺术品挂在墙上，或者用电子墨水屏:

然而，一些专业摄影师认为，AI在现阶段生成的这些图像仍然不好:

那么，大家怎么看待AI生成的这一系列视错觉图像的效果呢？还能用在哪里？

参考链接:

本文来自微信微信官方账号:量子位(ID: qbitai)，作者克雷斯·肖骁。

未经允许不得转载：科技让生活更美好 » AI 视觉字谜爆火！梦露转 180° 秒变爱因斯坦，英伟达高级 AI 科学家：近期最酷的扩散模型

AI 视觉字谜爆火！梦露转 180° 秒变爱因斯坦，英伟达高级 AI 科学家：近期最酷的扩散模型

Colab可以尝试一下。

“混合”多视图图像噪声

作者：pu

相关推荐