中国互联网科技巨头阿里巴巴集团已加大力度赶上黑脸田鸡的发布,通过OpenAI引爆网络。
钛媒体AI月28日获悉,阿里巴巴集团智能计算研究院近日推出了一项新的AI图片-音频-视频模型技术,官方称之为“一种富有表现力的音频驱动的人像视频生成框架”。
据悉,你只需要提供一张照片和一个任意音频文件,EMO就可以生成会说话会唱歌的AI视频,以及可以实现无缝对接的动态小视频。最长时间可达1分30秒左右。表情到位,任何声音,任何语速,任何形象都能一一对应。雷柏官网商城
例如,在《狂飙》的电视剧《高启强》中谈到了罗翔的一般方法;一张髡残通过其他音频“唱”一个说唱歌手的rap的照片,甚至连嘴型都几乎相同;甚至在不久前OpenAI发布的黑脸田鸡案例视频中,人工智能生成的一名戴着墨镜的日本街头女英雄不仅能让她说话,还能唱好歌。
哔哩哔哩幽灵视频将很快被人工智能取代。
阿里研究团队表示,EMO可以生成具有丰富面部表情和各种头部姿势的声音头像视频,同时,它可以根据输入视频的长度生成任意时长的视频。
同时,EMO还具有音频驱动的人像视频生成、表情丰富的动态渲染、各种头部转动姿势、增加视频的动态和真实感、支持多种语言和人像风格、快速节奏同步、跨演员表演转换等多种特性和功能。
在技术层面,阿里研究人员分享说,EMO框架使用Audio2Video扩散模型来生成富有表现力的人像视频。
该技术主要包括三个阶段:一是帧编码的初始阶段,使用ReferenceNet从参考图像和运动帧中提取特征;第二,在扩散过程阶段,预训练的音频编码器处理音频嵌入。人脸面具集成多帧噪声控制人脸图像的生成;三是利用骨干网推进去噪作业。在骨干网络中,引用注意机制和音频注意机制两种形式被应用,它们分别对于保留角色的身份和调整角色的行动非常重要。此外,EMO的时间模块用于操纵时间维度和调整移动速度。
目前EMO框架在GitHub上线,相关论文也在arxiv上发表。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
事实上,在过去的一年里,阿里巴巴在人工智能领域持续发力,包括阿里云推出了一批具有OpenAI基准的人工智能模型产品,如依桐钱文和依桐万平,以及基于双流条件扩散模型的fitting any one和Animate any等技术,以实现多场景应用。秋雨绵绵的文案
今年1月26日,阿里推出的Qwen-VL模型一再升级,并宣布升级Plus和Max两个主要版本,支持图像和文本作为输入,文本、图像和检测框作为输出,使大模型真正具有“看”世界的能力。
根据阿里的说法,与开源版本的Qwen-VL相比,该模型的Plus和Max版本在多项图形多模态标准测试中达到了与Gemini Ultra和GPT-4V相当的水平,并大大超过了以前开源模型的最佳水平。
钛媒体AGI获悉,阿里仍在帮助开发基于生成式人工智能技术的机器人、数字人和智能体相关技术应用。
此外,阿里是目前中国开源模型领域的大科技公司之一,并创建和运营了中国AI模型开源社区“魔骑”。自一年前“魔法骑行”社区推出以来,该模型的下载量已超过1亿。此前,阿里还发布了一站式大模特服务平台——阿里云“安百里”。
除了自研AI模型技术产品外,阿里还推动了对部分AI模型公司的投资。
就在今年2月,阿里领投了国内人工智能模型团队Moon Shot AI的10亿美元新一轮融资,这使得该公司的估值高达25亿美元,成为中国人工智能创业公司最大的单轮融资。
此前,阿里还投资了百川智能、智普AI等多家AI产业链公司,持续押注这一轮AI热潮。其竞争对手腾讯在过去一年投资了百川智能、智普AI、MiniMax和光年超越等公司。
据钛媒体AGI的不完全统计,阿里和腾讯已经投资了40多家与人工智能和数字化相关的初创公司。
毫无疑问,OpenAI目前在美国和世界其他地区的行业中占据主导地位,但它没有在中国市场运营。因此,OpenAI和微软都不会成为中国AI大模型行业的领导者。
如今,阿里和腾讯等中国科技巨头已经采取行动,通过各种投资方式支持中国AI大模型的早期初创企业,推动中国AI大模型的发展。
但由于二级市场科技股的持续下跌,我国整个AI领域的投融资规模处于“不温不火”的状态。
根据研究机构CB Insight的数据,2023年中国投资了约232个AI项目,同比下降38%,同期融资总额约为20亿美元,较上一年下降70%。14岁
高盛预测,到2025年,全球人工智能领域的投资将达到约2000亿美元。
阿里集团新任CEO武勇明曾表示,为了服务更多的企业和AI开发者,阿里坚持做两件事:一是提供稳定高效的AI基础服务体系,特别是强大的云计算能力,为全行业培养AI人才,全社会使用AI打下坚实基础。二是打造开放繁荣的AI生态系统。
“在可预见的未来,我们习惯的所有产品都将发生变化,更智能的下一代产品将进入我们的生活。更多的中小企业将通过AI协作灵活地替代一些只能由大企业提供的服务。生产、制造和流通的组织和合作也将发生根本变化。AI助手将无处不在,成为每个人工作、生活和学习中的助手。每个企业还将配备AI助手。就像我们今天的智能汽车一样,辅助驾驶和自动驾驶已经成为标配。”武勇明说。
(作者|林志佳)
未经允许不得转载:科技让生活更美好 » 太炸裂了!阿里开发出AI图生视频模型EMO,高启强普法、蒙拉丽莎唱歌样样都会