嘿，ChatGPT这下危险了-科技让生活更美好

这是一个比ChatGPT更有趣的新人。我们来看看他们的演示(不是聊天框，是实时视频和语音交互):

一张纸，一条曲线，见喙见爪是鸟，有水波纹是鸭(当然非要扯皮也可以说是大雁……)。整个过程就像著名的超人狗“It & apos一只鸟…它是；这是一架飞机…它是；s超人”——和分辨视觉信息的感觉一模一样。4750g核显相当于什么显卡

然后它看到了颜色，明明知道“蓝鸭”是稀有的；当图中沧桑的双手拿出一只“小蓝鸭”时，它也认出了材质，知道“小蓝鸭”能浮在水面上——这是通过挤压证实的。

很清楚这是一只放在世界平面地图上的立体鸭子(它也知道蓝色是海洋，黄绿色是大陆)。

最有趣的是这一部分:三个装着纸团的杯子。猜猜是哪个？(还有一个猜你手里硬币的链接，什么都藏不住。)

它可以识别手势，不管你是猜拳还是模仿动物。

还可以识别视频中不断变化的物体，并进行分类。

它甚至可以成为针织和刺绣爱好者的“设计指南”。

还记得这个吗？小时候很爱玩，突然被它烦死了！

你可以了解手绘的乐器和与之相关的背景(对它来说很难，画的真的很粗糙…)，并相应地改变不同的音乐风格(后面的完整视频中可以听到)。

视频里的视频你也能看懂。

它眼中的世界可能和你的一样。

上面的演示是Google刚刚发布的双子座的大型模型(原意是双子座，就是上面演示视频最后出现的星座)——这是一个“自然多模态”的AI模型。硬件交易论坛

官方称之为“谷歌迄今为止最大、最有能力、最灵活的AI模型”。

你可能在过去的一年里用各种“大模型”反复听到过“多模态”这个词:简而言之，如果一个AI和你的交流方式包括文本、语音、图像等。，是“多”；只有一种，那就是“单身”。

但是这里有一个问题。这一年我们接触到的“多模态”其实大部分都是单模态的不停切换:先在对话框里聊两天，然后把一个语音识别变成文本，最后把整个画面展示给AI，或者让AI把整个画面展示给你——是不是很熟悉的过程？

比如你身边有没有很多同事:一个下午只能做一个任务，切完视频却做不出表格；做表格找不到客户；找到客户就不能剪视频了…(除非是钓鱼，一次可以摸好几种)。这时候你老板一般都会夸他:倒霉孩子，真是一根筋！

但如果你和你一样优秀，你也许可以同时完成两三个任务——双子座就是AI里的你。从上面的演示视频可以看出，既然叫“天生多模态”，其实就是展示了一种“跨模态”的“天赋”。文字、语言、图片、声音……可以同时被接受和表达，非常接近人类理解和与外界互动的自然方式。

不仅是GPT，就连各种“专家”这次也挂了。

双子座这次公布了三个尺寸:

以确保它能够在从数据中心到移动设备的多个平台上高效运行。

在这次发布和展示中，谷歌公布了Gemini最先进的功能:

目前双子座Pro版可以在Bard(暂时只有英文)体验，未来几个月还会扩展不同的模式，支持新的语言和地区。手机方面，Pixel 8 Pro是首款搭载Gemini Nano的智能手机，可支持记录应用中的“摘要”等新功能，并在Gboard中推出“智能回复”功能；未来几个月，双子星还将出现在谷歌的搜索、广告、浏览器和智能办公助手中。

阿姨不是阿姨，叔叔是叔叔。

大概是因为OpenAI在过去的一年里占据了太多的眼球(无论是技术、产品还是人)，有趣的是，它似乎与谷歌推出Transformer架构时的论文主题不谋而合。一年之内，说到AI，一定要叫OpenAI和GPT。很多人似乎忘记了谷歌在AI方面的坚实基础和不断进步。

execjs教程

看这个双子座之前的谷歌AI里程图:

现在面对双子星，刚刚平息的OpenAI会如何应对？是传说中的Q*还是期待已久的GPT-5？

未经允许不得转载：科技让生活更美好 » 嘿，ChatGPT这下危险了

嘿，ChatGPT这下危险了

作者：pu

相关推荐