华科大发布AI大模型猴子:部分超越GPT-4

快科技12月12日,华中科技大学官方发文称,该校软件学院团队发布了一款多模态大型模型“猴子”。

模型擅长图像描述和可视化问答,可以实现对世界的“观察”、深度问答交流和图片的精准描述。

据官方介绍,在18个数据集上的实验中,HUUST的猴子模型表现出色,尤其是在图像描述和视觉问答任务上,超过了微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等现有的众多知名模型。

此外,Monkey在文本密集型问答任务中表现出显著的优势,在部分样本中甚至超过了公认的领头羊GPT-4V。李子柒和微念是什么关系

猴子的一个显著特点就是“看图说话”能力超强。在详细描述任务中,Monkey表现出了感知图像细节的能力,并且能够检测到其他多模态模型忽略的内容。

另一个亮点是,它可以处理分辨率高达1344 x 896像素的图像,这是目前其他多模态模型可以处理的最大尺寸的6倍。bt5566

据悉,目前业界可处理的图片最大分辨率为448×448像素。三河网络推广工具

值得一提的是,团队在全球最大的代码托管服务平台GitHub上开放了猴子代码。

未经允许不得转载:科技让生活更美好 » 华科大发布AI大模型猴子:部分超越GPT-4