谷歌发布基础世界模型Genie，能一图创建互动的虚拟环境-科技让生活更美好

科技日报记者张

据谷歌官网26日报道，谷歌“深度思考”公司发布了一个根据互联网视频训练的基本世界模型——精灵（Genie）。它可以从合成图像、照片和草图中生成各种具有可控动作的环境。镀金液钴含量标准海信智慧城市目前情况

精灵效果的动画截图演示。

图片来源:谷歌官网

在过去的几年中，生成式人工智能（AI）模型可以通过语言、图像甚至视频生成内容。谷歌推出了一种新的生成式人工智能范式，即生成式交互环境，它可以通过单个图像提示生成一个可交互和可控的环境。

Genie是一个具有110亿个参数的基本世界模型，在没有人工监督的情况下，在超过20万小时的二维（2D）游戏视频上进行训练。这意味着Genie可以从视频中识别不同动作的特征和模式。它可以学习各种角色的移动、控制和动作。

Genie的独特之处还在于它可以从互联网视频中学习精细粒度的控制。Genie不仅可以观察哪些部分是可控的，还可以根据生成的环境推断各种潜在的动作。巴黎欧莱雅眼线笔

该模型接受单个图像（无论是AI合成图像、照片还是草图），并将其转换为可玩的游戏以响应用户的控制。从图像到基本的交互环境一步到位。

用户只需要提供一张纸上的草图、一件完美的数字艺术作品，甚至是人工智能生成的2D世界的描述，Genie将完成其余工作，并帮助用户生成2D游戏。

根据谷歌官方网站，Genie专注于2D平台游戏和机器人的视频，但该方法是通用的，应该适用于任何类型的领域，并可以扩展到更大的互联网数据集。只有一个图像可以创建一个全新的交互环境，这为各种新路径的生成和进入虚拟世界打开了大门。

谷歌发布基础世界模型Genie，能一图创建互动的虚拟环境