有AI的搜索、会规划的Agent、更长的上下文，全靠多模态Gemini-科技让生活更美好

作者｜周雅

长虹电视壁纸怎么设置

有AI的地方，就是江湖。

这仍然是海岸线圆形剧场，五月的气候通过气流进入这里，但大气完全没有受到影响。

相反，24小时前，OpenAI正式发布了GPT-4o，并让谷歌的I/O陷入了非常尴尬的境地。此时此刻，所有人似乎都在等着看谷歌的“你应该如何回应？”

因此，谷歌花了整整两个小时进行了一次特种部队式的发布，同时回应了所有的声音。

如果用一个词来形容今年的I/O，那一定是“全部”。几乎所有你能想到的人工智能场景这次都在谷歌中有所涉及:

从基本型号Gemini的性能增强（包括轻量级型号Gemini 1.5 Flash和Gemini 1.5 Pro）；具有200万代币的长上下文）；进展到开源模型Gemma（剧透下一代开源模型Gemma 2）；到视频生成模型Veo支持1分钟以上和1080P双子座直播；，具有与ChatGPT-4o相同的眼睛和嘴巴，并具有视觉语音交互功能；还有文圣地图模型imagen 3；；AI音乐创作工具音乐AI沙盒；；以及向其他人工智能代理开放项目Astra。

有这么多的先行者，很难不怀疑谷歌是否一直在阻止大动作。

我注意到，Madrona Venture Group的前合伙人、亚马逊网络服务的前人工智能高管乔恩·图罗（Jon Turow）表示，谷歌缓慢的发布时间表是可以理解的，因为谷歌“比其他公司（如OpenAI）承担了更大的责任”。谷歌正在对其拥有数十亿用户的现有业务大做文章，而不是从零开始，因此它更加谨慎。“当一个产品符合其他公司（如OpenAI）可以发布的标准时，谷歌不能贸然发布它。”

Gemini的完整形式:多模态、长上下文、AI智能体

当谷歌CEO桑达尔·皮查伊上台后，好戏正式开始。

谷歌首席执行官桑德尔·皮帅。

“双子座”“双子座”“双子座”可能是整个游戏中出现频率最高的词。作为谷歌目前的核心基础型号，Gemini展示了谷歌在AI时代的雄心。

一年前，Gemini问世时，谷歌对其进行了明确定义:多模态模型。之后，双子座朝着这个位置前进，并开始快速迭代。去年12月，谷歌推出了Gemini 1.0，该系统有三个版本:Ultra、Pro和Nano。两个月后，谷歌推出了Gemini 1.5 Pro，它具有更强的性能和100万代币的长上下文。

“谷歌完全处于双子星时代”，皮查伊一语中的:

目前，超过150万开发人员在其工具中使用Gemini，20亿用户在其产品中使用Gemini。然而，在谷歌推出Android和iOS上可用的Gemini Advanced三个月后，它已经获得了超过100万用户。

此外，Gemini 1.5 Pro已从100万代币升级到200万代币，这意味着它可以处理1，500页PDF、30，000行代码或1小时的视频文件。即日起，Gemini 1.5 Pro将通过Gemini Advanced正式推送给全球150多个国家的用户，它支持35种语言。

Gemini 1.5的200万代币能力对比

在现场，Gemini已经更新:谷歌发布了端侧模型Gemini 1.5 flash，该模型也有100万和200万代币版本。与之前的Gemini 1.5 Pro相比，该模型是轻量级的:更快更高效，多通道推理和长上下文。

在价格方面，Gemini 1.5 Pro的价格为750万美元，对于128k以下的输入，价格将降低50%至350万美元，比OpenAI的GPT-4o便宜约30%。Gemini 1.5 Flash的价格为0.35美元/100万代币，比OpenAI的任何大型号都便宜。

除了Gemini本身的更新，更重要的是，谷歌将Gemini植入到所有产品中，包括搜索、地图、照片、Workspace、Android等。

寻找巨大的差异

作为搜索巨头，如果你想让Gemini发展壮大，谷歌自然不会放过搜索这个现成的数据库。因此，每次在Google now中搜索时，Gemini都在背后工作。这个功能被称为“AI概述”，这意味着AI将根据您的搜索给出最佳答案，并改善搜索体验。

与传统搜索引擎相比，AI Overviews功能将为用户提供包括意见、观点和链接在内的完整答案。谷歌强调其三个独特的优势:实时信息、排名和质量系统以及Gemini能力。谷歌推出了多步推理功能，该功能将大问题逐步分解并按优先级顺序提供。

例如，如果用户想找到一个合适的普拉提工作室，他们需要考虑时间、价格、距离等因素。，他们可以在谷歌搜索并输入:“找到波士顿最好的瑜伽馆，并显示报价细节和从我家步行的时间”。最终，谷歌搜索将提炼和整合这些信息，并以人工智能概述的形式呈现出来，从而节省用户的时间。

询问今年夏天推出的照片

当然，不仅在谷歌搜索中有双子座，在照片搜索中也有双子座。皮查伊演示了Gemini在谷歌照片中的工作方式。例如，如果你在停车场给你的车拍照后找不到停车的地方，你可以直接问双子座“我的车在哪里？”它可以帮助您自动识别相关照片中的信息，并告诉您汽车的具体位置。

该功能名为“询问照片”，将于今年夏天正式发布。

正是因为Gemini的多模态和“长”上下文，Ask Photos不仅可以搜索照片，甚至可以理解所发现的内容。例如，当你回忆起女儿露西亚的高光时刻时，你可以直接问双子座:“露西亚什么时候学会游泳的？”甚至问一个更复杂的问题:“露西娅在游泳方面有进步吗？”

在这背后，Gemini可以根据“Lucia在游泳池游泳，在海洋中浮潜，然后游泳证书上的文字和日期”等一系列内容告诉你答案。

这一切都是因为Gemini的两大能力——多模态+长语境。“多模态可以解锁更多知识，输出更多答案。你可以在长上下文中输入更多信息:数百页的文本、数小时的音频、一小时的视频、一个完整的代码库…甚至，如果你愿意，引入96个芝士蛋糕工厂菜单（编者注:美国的Chilefang餐厅）也不是不可能。”皮查伊开玩笑说。

凭借以上两个特长，Gemini也被植入到了谷歌的office套件中。包括在Google Meet中生成会议纪要，从所有Gmail电子邮件中提取关键信息，自动整理电子邮件中的表格，甚至生成数据分析表格。

当然，多模态+长上下文是不够的。谷歌为Gemini注入了最后一股力量:AI智能体。

皮查伊举了一个“网购”的例子。买鞋很有趣，但当鞋子不合脚时，退货就没那么有趣了。因为有了AI智能体，Gemini可以为你完成所有退货步骤:在收件箱中搜索收据-从购买记录中找到订单号-填写退货单-安排快递员上门取货，一气呵成。

此时，Gemini的终极形态出现了——多模态、长上下文、AI智能体。

阿斯特拉计划打出了旗号:它看起来像一个代理人，但实际上它指向AGI。

第二位嘉宾，作为人工智能领域的伟大人物，谷歌DeepMind的创始人戴密斯·哈萨比斯首次出现在I/O舞台上，赢得了观众的掌声。

谷歌DeepMind创始人戴密斯·哈萨比斯

自从被谷歌收购后，DeepMind早已成为谷歌的左膀右臂。去年，谷歌DeepMind实验室成立，整合了两家公司的人工智能人才，收获了大量成果。例如，上周发布的用于预测几乎所有生物分子的结构和相互作用的AlphaFold 3就是其中之一。

为了应对现场的高度气氛，戴密斯·哈萨比斯的发布相当轰动，其中包括一个新的人工智能代理（人工智能项目-阿斯特拉项目。

从现场演示视频来看，其中一个场景是演示者拿着手机，让AI实时收集周围环境的信息，然后在办公室里转来转去，突然问道:“你还记得我的眼镜在哪里吗？”只见它马上回答:“是的，就在桌子上的红苹果旁边。”

要知道，在实际场景中，即使两个人类交谈，这些细节也可能被忽略，但演示中的AI准确地捕捉到了眼镜的位置。这种强大的通用语言和环境理解能力瞬间让现场响起了雷鸣般的掌声。

哈萨比斯特别提到，这些演示并不是“仅供参考”的演示效果，它们都是在一次性拍摄中实时捕捉的。他承认，最具挑战性的是“缩短对对话内容的响应时间”。为此，DeepMind开发了一个基于Gemini的原型代理，该代理可以持续对视频帧进行编码，将视频和语音输入合并到事件时间线中并进行缓存，以确保可以快速有效地调用它，从而更快地处理信息。百度品牌排名

“在过去的几年里，我们一直在改进模型的感知、推理和对话，以使交互的速度和质量更加自然。”哈萨比斯表示，通过Astra项目，未来每个人都可以在手机或眼镜上拥有专业的人工智能助手。

随着Astra的发布，哈萨比斯也强调了他们的最终目标——Agi。“计算机可以像人一样思考。这让我从小就着迷，这也是我研究神经科学的原因。当我在2010年创立DeepMind时，我的最终目标是AGI。我相信，如果这项技术得到负责任的开发，它对人类的影响将是深远的。”

当然，除了AGI的探索，谷歌还介绍了多模态领域的新进展，包括三个主要内容来源:图像、音频和视频，包括Voe（一种可生成1分钟以上1080P视频的视频生成模型）、Imagen 3（一种基于文本的图形模型）和Music AI Sandbox（一种面向专业音乐创作者的AI音乐创作工具）。

由Google的文生图模型Imagen 3生成。

从Voe的演示视频来看，它可以理解许多电影术语，例如“时间延迟”、“风景航拍”和“延时”。谷歌指出，Veo基于多年的视频生成模型，包括GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、琉米爱尔、Transformer architecture和Gemini。未来，谷歌还将在YouTube短片和其他产品中引入Veo的一些功能。

在AI音乐创作方面，谷歌通过音乐AI沙盒与音乐人合作，音乐人可以将一段哼唱或演奏的灵感发送给AI，AI生成一首歌曲或旋律。

有“软”和“硬”

作为面向开发者的I/O，除了软件的密集发布，硬件的同步更新一直是I/O的保留项目。

此次，谷歌发布了第六代TPU硬件Trilium，其计算能力是上一代的4.7倍。预计将于2024年底向用户推出。谷歌此次发布的几乎所有产品（如Veo、Imagen 3和Gemini 1.5 Pro）都基于这一新硬件。

十多年前，谷歌意识到它需要一款用于机器学习的芯片。2013年，谷歌开始开发世界上第一个专用人工智能加速器TPU v1，然后在2017年推出了第一个云TPU。没有TPU，大量谷歌服务（如实时语音搜索、照片对象识别、交互式语言翻译）和最先进的基本模型（如Gemini、Imagen和Gemma）就不可能实现。

当然，除了硬件之外，安卓系统也不容忽视，尤其是Gemini的集成，是否会让安卓系统焕然一新呢？

Gemini这次在Android上的最新开发是-Gemini Live，它专注于文本、语音或图像的多模态交互体验。在实际的谈话过程中，你甚至可以通过打断谈话并提出新的问题来更有效地沟通，就像与真人交谈一样。而且，谷歌透露，基于Project Astra的摄像头视频识别功能也将在今年发布，因此用户可以打开摄像头，让AI看到周围的世界并实时做出反应。第一大团团购网

在演讲的最后，皮查伊提到了I/O之前玩过的一个老梗:“今天一定有很多人。我说过多少次AI了？”。

“不用数了，因为双子座已经数完了。”他接着说。

然后在大屏幕上显示120次。

“我已经说过AI很多次了。”皮查伊笑道。

当皮查伊说出这句话时，屏幕上的数字变成了121。

现场欢声笑语不断。

环顾四周，I/O密集型的发布与其说是竞争压力下的紧迫感，不如说是对AI变革的一种准备。

活动结束几个小时后，谷歌播放了一段“AI评论AI”:

谷歌用刚刚发布的Astra来解释在OpenAI大会上现场演示的ChatGPT-4o。（也就是用谷歌的AI来判断OpenAI的AI）

从视频来看，效果满满。阿斯特拉从上帝的角度，作为一个观察者，准确地解读了被观察的ChatGPT-4o的行动，并预测了后者的行动。

最有趣的事情来了。01: 02时，阿斯特拉提前解出了方程式，然后说:“让我们看看ChatGPT-4o能否解出它”（带着骄傲和女性气质）。然而，在02: 20，Astra再次开启了吹嘘模式，将气氛带回来了。

看完之后，脑海中出现了一句话:

“人类总是相互竞争，但人工智能会帮助人工智能吗？”使用AI、规划代理和更长的上下文进行搜索都依赖于多模态Gemini | Google I/O live纪录片。

未经允许不得转载：科技让生活更美好 » 有AI的搜索、会规划的Agent、更长的上下文，全靠多模态Gemini

有AI的搜索、会规划的Agent、更长的上下文，全靠多模态Gemini

作者：pu

相关推荐