科技日报记者张
据谷歌官网26日报道,谷歌“深度思考”公司发布了一个根据互联网视频训练的基本世界模型——精灵(Genie)。它可以从合成图像、照片和草图中生成各种具有可控动作的环境。镀金液钴含量标准海信智慧城市目前情况
精灵效果的动画截图演示。
图片来源:谷歌官网
在过去的几年中,生成式人工智能(AI)模型可以通过语言、图像甚至视频生成内容。谷歌推出了一种新的生成式人工智能范式,即生成式交互环境,它可以通过单个图像提示生成一个可交互和可控的环境。
Genie是一个具有110亿个参数的基本世界模型,在没有人工监督的情况下,在超过20万小时的二维(2D)游戏视频上进行训练。这意味着Genie可以从视频中识别不同动作的特征和模式。它可以学习各种角色的移动、控制和动作。
Genie的独特之处还在于它可以从互联网视频中学习精细粒度的控制。Genie不仅可以观察哪些部分是可控的,还可以根据生成的环境推断各种潜在的动作。巴黎欧莱雅眼线笔
该模型接受单个图像(无论是AI合成图像、照片还是草图),并将其转换为可玩的游戏以响应用户的控制。从图像到基本的交互环境一步到位。
用户只需要提供一张纸上的草图、一件完美的数字艺术作品,甚至是人工智能生成的2D世界的描述,Genie将完成其余工作,并帮助用户生成2D游戏。
根据谷歌官方网站,Genie专注于2D平台游戏和机器人的视频,但该方法是通用的,应该适用于任何类型的领域,并可以扩展到更大的互联网数据集。只有一个图像可以创建一个全新的交互环境,这为各种新路径的生成和进入虚拟世界打开了大门。
未经允许不得转载:科技让生活更美好 » 谷歌发布基础世界模型Genie,能一图创建互动的虚拟环境