嘿,ChatGPT这下危险了

这是一个比ChatGPT更有趣的新人。我们来看看他们的演示(不是聊天框,是实时视频和语音交互):

一张纸,一条曲线,见喙见爪是鸟,有水波纹是鸭(当然非要扯皮也可以说是大雁……)。整个过程就像著名的超人狗“It & apos一只鸟…它是;这是一架飞机…它是;s超人”——和分辨视觉信息的感觉一模一样。4750g核显相当于什么显卡

然后它看到了颜色,明明知道“蓝鸭”是稀有的;当图中沧桑的双手拿出一只“小蓝鸭”时,它也认出了材质,知道“小蓝鸭”能浮在水面上——这是通过挤压证实的。

很清楚这是一只放在世界平面地图上的立体鸭子(它也知道蓝色是海洋,黄绿色是大陆)。

最有趣的是这一部分:三个装着纸团的杯子。猜猜是哪个?(还有一个猜你手里硬币的链接,什么都藏不住。)

它可以识别手势,不管你是猜拳还是模仿动物。

还可以识别视频中不断变化的物体,并进行分类。

它甚至可以成为针织和刺绣爱好者的“设计指南”。

还记得这个吗?小时候很爱玩,突然被它烦死了!

你可以了解手绘的乐器和与之相关的背景(对它来说很难,画的真的很粗糙…),并相应地改变不同的音乐风格(后面的完整视频中可以听到)。

视频里的视频你也能看懂。

它眼中的世界可能和你的一样。

上面的演示是Google刚刚发布的双子座的大型模型(原意是双子座,就是上面演示视频最后出现的星座)——这是一个“自然多模态”的AI模型。硬件交易论坛

官方称之为“谷歌迄今为止最大、最有能力、最灵活的AI模型”。

你可能在过去的一年里用各种“大模型”反复听到过“多模态”这个词:简而言之,如果一个AI和你的交流方式包括文本、语音、图像等。,是“多”;只有一种,那就是“单身”。

但是这里有一个问题。这一年我们接触到的“多模态”其实大部分都是单模态的不停切换:先在对话框里聊两天,然后把一个语音识别变成文本,最后把整个画面展示给AI,或者让AI把整个画面展示给你——是不是很熟悉的过程?

比如你身边有没有很多同事:一个下午只能做一个任务,切完视频却做不出表格;做表格找不到客户;找到客户就不能剪视频了…(除非是钓鱼,一次可以摸好几种)。这时候你老板一般都会夸他:倒霉孩子,真是一根筋!

但如果你和你一样优秀,你也许可以同时完成两三个任务——双子座就是AI里的你。从上面的演示视频可以看出,既然叫“天生多模态”,其实就是展示了一种“跨模态”的“天赋”。文字、语言、图片、声音……可以同时被接受和表达,非常接近人类理解和与外界互动的自然方式。

不仅是GPT,就连各种“专家”这次也挂了。

双子座这次公布了三个尺寸:

以确保它能够在从数据中心到移动设备的多个平台上高效运行。

在这次发布和展示中,谷歌公布了Gemini最先进的功能:

目前双子座Pro版可以在Bard(暂时只有英文)体验,未来几个月还会扩展不同的模式,支持新的语言和地区。手机方面,Pixel 8 Pro是首款搭载Gemini Nano的智能手机,可支持记录应用中的“摘要”等新功能,并在Gboard中推出“智能回复”功能;未来几个月,双子星还将出现在谷歌的搜索、广告、浏览器和智能办公助手中。

阿姨不是阿姨,叔叔是叔叔。

大概是因为OpenAI在过去的一年里占据了太多的眼球(无论是技术、产品还是人),有趣的是,它似乎与谷歌推出Transformer架构时的论文主题不谋而合。一年之内,说到AI,一定要叫OpenAI和GPT。很多人似乎忘记了谷歌在AI方面的坚实基础和不断进步。

execjs教程

看这个双子座之前的谷歌AI里程图:

现在面对双子星,刚刚平息的OpenAI会如何应对?是传说中的Q*还是期待已久的GPT-5?

未经允许不得转载:科技让生活更美好 » 嘿,ChatGPT这下危险了