通义千问720亿参数大模型开源;Meta发布多模态感知数据集;昆仑万维发布Agent开发平台丨AIGC大事日报

1.Seam,一个元开源实时翻译模型。中国前沿科技公司

2.Meta推出了音频生成模型Audiobox。

3.Meta发布了多模态数据集Ego-Exo4D。

4.阿里云依桐千问开源720亿参数模型

5.阿里云举办了首届依桐钱文人工智能挑战赛。

6.阿里国际发布三款AI设计生态工具。

7.阿里推出AI动画生成框架,从静态图像生成动画。

8.昆仑万伟发布了代理开发平台天工SkyAgents。

9.Mobvoi精彩元推出精彩助手功能。

10.腾讯率先制定了全球首个金融风控模型国际标准。

11.山东:瞄准AI等七大未来产业,大力推进AI+

12.Adobe和其他人引入了DMD方法,将绘图速度提高了30倍。

13.稳定音频增加了上传音频生成音乐的支持。

14.基于大学知识的多模态LLM评价基准MMMU的发布。

15.微软未来三年将向英国AI基础设施投资225亿元。

1。无缝,元开源实时翻译系列模型

今天,Meta推出了实时翻译系统Seamless。为了构建seam,Meta开发了一个模型SeamlessExpressive,用于保留语音到语音翻译中的表达能力,以及一个流翻译模型SeamlessStreaming,它可以提供最高级的结果,延迟几乎不到两秒。所有型号都基于Meta在8月发布的基本型号SeamlessM4T v2。据介绍,与以往在表达语音学研究方面的努力相比,SeamlessExpressive解决了韵律的一些未开发方面,如语速和节奏停顿,同时保留了情感和风格。目前,该模型在英语、西班牙语、德语、法语、意大利语和汉语之间的语音到语音翻译中保留了这些元素。无缝流支持近100种输入和输出语言的自动语音识别和语音到文本的翻译,以及近100种输入语言和36种输出语言的语音到语音的翻译。Meta开放了所有四个模型,供研究人员进一步研究。照片处理黑科技

2。Meta推出了音频生成模型Audiobox

今天,Meta推出了音频生成模型Audiobox,它可以将语音输入与自然语言文本提示相结合,生成语音和声音效果,以便轻松创建各种用例的定制音频。Meta表示,据其所知,Audiobox是第一款同时支持语音和文本输入的免费语音重新设计的机型。Meta将在未来几周内开放基于Audiobox的应用,以及展示Audiobox功能的互动演示。

3。Meta发布了多模态数据集Ego-Exo4D

今天,Meta推出了一个基础数据集和基准套件Ego-Exo4D,以支持视频学习和多模态感知研究。据报道,Ego-Exo4D是Meta、Aria项目和15所大学合作伙伴的FAIR(基础人工智能研究)为期两年的研究成果。Ego-Exo4D的核心是同时捕捉佩戴摄像机的参与者的第一人称(自我中心)视角和周围摄像机的多个第三人称(非自我中心)视角。这两种观点相辅相成。自我中心视角揭示了被试的视听感知,非自我中心视角揭示了周围的场景和情境。本月,研究人员将为新的基准任务开放源代码数据(包括超过1400小时的视频)和注释。

4。阿里云依桐开源720亿参数模型

今日,阿里云在北京召开发布会,公开了720亿参数模型Qwen-72B。据介绍,Qwen-72B在10项权威基准测试中取得了开源模型的最好成绩,性能超过开源基准测试Llama 2-70B和大部分商用闭源模型,可适应企业和科研的高性能应用。同日,依桐钱文还开放了18亿参数模型Qwen-1.8B和音频模型Qwen-Audio,在业内率先实现“全尺寸、全模式”开源。

5。阿里云举办首届依桐钱文人工智能挑战赛

今天,在依桐钱文大会上,阿里云宣布首届依桐钱文人工智能挑战赛开幕。参与者可以免费使用依桐开源模型家族,包括新发布的720亿参数模型Qwen-72B。比赛分为算法和代理两大赛道。前者旨在对依桐千题模型进行微调训练,希望通过优质数据探索开源模型的代码能力上限;后者基于依桐千问模型和魔法社区的Agent-Builder框架开发新一代AI应用,推动大模型在各行各业的应用。即日起,开发者可通过天池平台报名参赛,主办方将为参赛者提供免费计算能力和价值50万元的奖金。

6。阿里国际发布三款AI设计生态工具

据环球网报道,今天,在第六届中国国际工业设计博览会上,阿里国际数字事业群发布了Duiyou、Pic Copilot、鲁班AI三款设计生态工具,涵盖AI绘画、AI模型创建、AI图像、视频处理。据悉,这三款产品已经服务了数十万商家,覆盖了50万设计师。此外,工信部国际经济技术合作中心还与阿里国际设计签署了框架协议,共同推动数字智能设计的发展。

7。阿里推出AI动画生成框架,从静态图像生成动画

11月29日,来自阿里的研究团队发表了一篇论文,利用扩散模型的能力,提出了一个名为Animate Anyone的新框架,它可以从静态图像AI生成动态视频,从而动画化任何角色。为了保持参考图像中复杂外观特征的一致性,作者改进了ReferenceNet算法,通过空融合细节特征。为了保证可控性和连贯性,作者引入了高效的姿态导演来指导角色的动作,并采用了有效的时间建模方法来保证视频帧之间的平滑过渡。

科技日是11

8。昆仑万伟发布了代理开发平台天工sky agents

据昆仑万伟集团微信官方账号,今日,昆仑万伟正式发布SkyAgents平台。据介绍,天工SkyAgents是国内领先的AI智能体开发平台。它基于昆仑天威天工模型,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的个人助理或多个个人助理,并将不同的任务模块化。通过操作系统模块的模式,它们可以执行包括问题预设、指定回复、知识库创建和检索、意图识别、文本抽取、http请求等任务。对于企业用户,天工天机可以组装成企业IT、智能客服、企业培训、HR、法律顾问等多种个性化应用。,并支持一键服务部署,确保不同业务系统无缝接入。

9。Mobvoi精彩元推出精彩助手功能

据Mobvoi微信官方账号消息,昨日,Mobvoi旗下AI数字人视频创作平台精彩元全面升级,精彩助手功能上线。据介绍,奇妙助手可以快速生成制作视频所需的素材,并为短视频生成高质量的图片,内置8种风格和3种大小比例;基于大模型能力的智能文本生成,内置双语、多语言情感;上传PPT一键生成讲解视频,配备智能分析,重在提炼;一站式生成数字人体视频,提供海量模板素材;一键提取视频线,支持在线视频链接和本地视频上传,准确率99%;数字人商店中新的33+图像和模板商店中新的海量编辑模板材料。

10。腾讯牵头制定了全球首个大型金融风控模型国际标准

据腾讯云智能微信微信官方账号消息,昨日,IEEE金融风险控制模型标准发布会在深圳举行。该标准由腾讯发起,是全球首个金融风险控制领域的大模型国际标准,旨在为AI大模型技术在金融机构风险控制建模中的应用提供参考和指导,使金融机构能够在日益复杂、数据驱动的金融环境中有效预测、度量和管理业务风险。该标准适用于金融零售信贷场景的风险控制管理,帮助金融机构在利用AI技术生成金融风险控制模型的过程中提供参考,包括应用场景、基础条件、模型创建和迭代等。启动会上明确了标准开发计划,计划明年9月正式发布。

十一。山东:聚焦AI等七大未来产业,大力推进AI+

据龚欣微博报道,昨天上午,山东省新型工业化推进大会在济南召开。山东省委书记武琳强调,要做好新型工业化各方面工作,全面加快新型工业化进程。聚焦高端发展,继续在未来产业布局上发力,聚焦元宇宙、人工智能(AI)、生命科学、未来网络、量子技术、人形机器人、深海空天七大未来产业,加强前瞻性研究布局,打造未来产业先导区。聚焦智能化发展,努力推动数字与现实的深度融合。要更大力度推进AI应用,统筹通用大模型和垂直大模型布局,丰富计算资源,培育一批高水平智能技术和产品,大力推进“AI+”。

12。Adobe等人引入了DMD方法,绘图速度提高了30倍

今天,Adobe和麻省理工学院的研究人员联合发表了一篇论文,介绍了一种分布匹配蒸馏(DMD)的方法,它可以以30倍的速度生成相当于稳定扩散v1.5的图像质量。本文的核心思想是训练两个扩散模型,既估计目标真实分布的得分函数,又估计伪造分布的得分函数。方法类似于GANs,即通过同时训练批判者和生成者来最小化真实分布和伪造分布的差异,但不同的是训练不涉及可能导致不稳定的对抗博弈,批判者模型可以充分利用预先训练好的扩散模型的权重。

十三。稳定音频增加了上传音频生成音乐的支持

今天,AI独角兽Stability AI的音乐生成产品Stability Audio宣布推出一系列新功能,包括支持输入音频指导音乐生成、增加更多参数提升创作体验、增加链接分享、视频下载功能、内置风格提示库等。

14。基于大学知识的多模态LLM评估基准MMMU的发布

11月29日,据论文作者、美国俄亥俄州立大学(OSU)博士岳翔称,她在社交平台X上发布了一篇论文,并与7个机构的20多名研究人员一起发表了该论文,并启动了MMMU基准测试。该测试从高校考试、测试和教材中收集了11.5K多模态问题,横跨艺术设计、商科、理科、卫生与医学、人文社会科学、技术与工程等30个学科、183个子领域,涵盖图表、海图、地图、表格、乐谱、化学结构等30种异构图像类型,注重运用特定领域知识进行高级感知和推理。本文对14个开源模型和GPT-4V进行了测试,评测显示即使是先进的GPT-4V也只能达到56%的准确率。对GPT-4V的150个错误案例的错误分析表明,35%的错误是感性的,29%是由于缺乏知识,26%是由于推理过程中的缺陷。

15。微软未来三年将在英国人工智能基础设施上投资225亿元

据路透社今日报道,微软计划未来三年在英国投资25亿英镑(约合人民币225亿元),以支持AI的增长,这是该公司迄今在英国进行的最大一笔单笔投资。这项投资将用于将微软在英国的数据中心面积扩大一倍以上,为新的人工智能模型提供关键的基础设施。

未经允许不得转载:科技让生活更美好 » 通义千问720亿参数大模型开源;Meta发布多模态感知数据集;昆仑万维发布Agent开发平台丨AIGC大事日报