北大袁粒:用户不会为只能闲聊的大模型买单 | 中国AIGC产业峰会

编辑部 整理自 AIGC峰会

量子比特|微信官方账号QbitAI

大型模型的能力日益增强。如何将其转化为生产力?

在中国AIGC产业峰会上,北京大学深圳研究生院助理教授李源给出了他的观点:

如果大模型只会闲聊,用户是不会买单的,唯有打造垂域应用,才能把大模型变为生产力。

李源专注于多模态深度学习的研究方向,一篇论文被引用超过一千次。

经常上热搜的ChatExcel、ChatLaw等垂直产品都来自他的团队。最近,由他们发起的黑脸田鸡再现计划“OpenSora”引起了广泛关注。

为了充分反映李源的思想,量子比特在不改变初衷的情况下编辑了演讲内容,希望能给你带来更多启发。

中国AIGC行业峰会是由量子比特主办的行业峰会,20名行业代表参加了讨论。近1000人参加了线下会议,300万人参加了线上直播,获得了主流媒体的广泛关注和报道。

以下是李源演讲全文:

今天我主要讲一下我们在多模态模型垂直领域的应用,主要是我们自己团队的工作。

首先引用浙大赵老师(军博)的拷问,你会为一个聊天玩具买单吗?当聊天系列模型出来时,每个人都会这样想。

与此同时,去年5月和6月,ChatGPT用户数量略有下降。也就是说,如果每个人都只是为了聊天而使用一个产品,那肯定是不够的。它需要真正转化为生产力。什么是生产力的转化?它是垂直应用。

我们知道OpenAI行动迅速,推出了GPT商店,这是GPT的商店。

我认为GPT购物中心的每个应用程序都是垂直产品。我们团队也做了一些多模态的垂直领域开发,包括ChatExcel和ChatLaw,它们既有语言生成应用程序,也有可视化生成模型。

我们的基础平台基于鹏城的云大脑加上我们自建的计算能力,以及用于应用程序开发的通用数据和行业数据。

我们先来简单看看一些代表作。

第一个是数据垂直领域的应用程序ChatExcel,它实际上比微软的Copilot更早发布。它于2022年下半年开始研发,并于2023年2月发布。

最初的想法非常简单。2022年下半年,我的一个博士生告诉我,他说,老师,我想减轻我女朋友的负担。

因为他的女朋友是一所大学的信息教师,她每天都要处理许多表格。众所周知,企业中有很多“表亲”。所以当时我觉得这个想法很好,代表了大家的普遍需求,于是ChatExcel就出来了。

ChatExcel是一条从传统到生成的路线,它将比生成路线更进一步,即多模态生成。

让我们看到在第一版中,在线可以在这里的这一部分中得到体现,并且可以通过文字直接操纵形式。事实上,WPS目前已经能够做到这一点,因为我们从2022年下半年到2023年初发布了它。

当然,在这之后,我们升级到了多式联运模式。让我们播放这个视频。这也是我们目前正在部署给一家奢侈品巨头的真实落地案例。如你所见,它不是单峰的,我们可以将数据可视化并进行一些营销处理,包括帮助你分析这个产品的哪个明星会更好。

我们在ChatExcel中孵化了一项业务。这是我的学生发起的,我非常支持他。如果你感兴趣,你可以在网上搜索一下。

第二个应用是ChatLaw,这是中国法律的垂直应用。

应用ChatLaw的动机很简单,就是在食堂和一个法学院的老师吃饭时,他说北大的法律比清华的好,但当时法律技术没有拥抱大模型,所以我们可以在法律方面做点什么吗?

所以我们一起制作了这个ChatLaw模型。

其实这很简单。这个想法是用户提出需求。我们使用Agent对模型进行调度和处理,最终提供法律辅助服务,包括信息分析和结构化抽取。同时,我们可以为包括律师在内的用户生成一些知名诉讼和一些文本文件。这可以给普通用户,也可以帮助律师。

当然,我们的目标从来不是取代律师,而是成为律师的助手,取代一些重复的底层工作。

我们可以看一些简单的能力。有人在下岗后问我的模特。我的模型会让他上传合同和HR沟通录音,然后为他分析事实,最后给他建议。威力洗衣机售后服务部

基于这个建议,我们告诉他,他被裁员后实际上可以去劳动仲裁,仲裁流程和劳动仲裁申请可以由ChatLaw生成,我们会推荐一些类似的案例和判决结果。

同时,我自己的学生以及我自己也从这种模式中受益,这是ChatLaw内部测试时发生在我学生身上的真实案例。

我的学生想买一辆车,并在4S的一家商店试驾。因此,他们遇到了一个法律问题。

正常情况下,试驾时需要签署“免责协议”。大致内容是,如果在驾驶该车时发生交通事故,责任将完全由试驾人员承担,而4S店不承担责任。

但不幸的是,当我开车回4S商店时,我在盲点与一辆电动车刮擦。

当时,4S商店告诉我的学生,他们要么购买汽车,要么在确定损坏后进行全额赔偿。

当时ChatLaw在内测,我的学生问了关于模型的问题。我的模型最终给他的答案是4S店的“免责协议”违反了《侵权责任法》第42条(现为《民法典》侵权责任编第1203条)的规定。

同时,ChatLaw还为该学生生成了一份调解建议书,指出该“协议”属于霸王条款,因为该产品属于4S商店。

因此,该学生将法律依据和生成的文件带到了4S商店,然后4S商店没有就此事提出任何问题,此事就不了了之了。

虽然我的学生最终买下了这辆车,但不是在这家4S店里。

这就是为什么法律真的对所有个人都有利,包括我自己,我目前生活中的一些小问题也会被问及该模型,因为它在许多情况下确实有效。

当然,你可能会说通用模型本身可以回答这些法律问题。

但通用模式有一个问题——在专业领域,最大的问题是错觉问题,俗称“一本正经地胡说八道。”

众所周知,如果你问ChatGPT“林黛玉倒拔垂杨柳”是怎么回事,ChatGPT会非常清晰生动地讲述过程,甚至林黛玉的性格也能分析到最后,说这是一个《红楼梦》的故事。这种问题很严重。

我们在去年上半年开发垂直领域模型时,就知道垂直领域模型必须解决错觉问题,所以当时就提出来了,现在大家对检索增强版这个词已经很熟悉了。

当时确实是我们第一次做出来,但是没有提出这个概念,让大模型做大模型的事情,让检索做检索的事情。

当然,如果你对这个框架感兴趣,你可以阅读论文。我们也开放了一些模型,但商业版比开源模型更好。

实际上,简单地说,就是通过检索从数据库中提取一个参考信息,使这个检索参考信息能够抑制或缓解模型的错觉,特别是发动“紧急立法权”编造法律条文的重要问题。

这也是通用模型和垂直模型的重要区别,尤其是在法律的严肃场景下。

当你完成垂直应用程序时,当然,你可能会说一个大学团队似乎做了很多工作。的确,为什么?格力一体机

因为在高校,我们追求的不是必然的商业化,而是做有趣的科研和有趣的事情。

我介绍的最后一件事是联合实验室最近的一项工作,称为开放黑脸田鸡计划,即黑脸田鸡的开源计划。

当我刚开始这个项目时,许多人问为什么它被称为再现,而不是超越。

我说我们还是要实事求是。我们和国外大牌车型还是有一定差距的,可以复刻。特别是作为一个大学团队,我们可以用有限的计算能力和数据资源复制一个版本的微型黑脸田鸡。

而且,这是一个开源项目。我们选择MIT license,所有人都可以无条件使用我们的开源数据和模型。

当然,众所周知,当大语言模型ChatGPT问世时,实际上并没有开源模型,整个商业社区或整个行业和学术界都相当不舒服——学术界没有研究对象,商业生态并不繁荣。

所以后来,有了Meta的美洲驼,我们的开源目标是我们是否可以制作一个可视化版本的美洲驼。

为什么要在高校这样做?因为高校的态度是中立的,每个人都可以受益。我们拿着纳税人的钱,我们所做的事情繁荣了生态,所以我们不会浪费他们的钱。

所以我们想这么做。

所以我们很快建立了这个框架,它分为三个部分-视频编解码器,扩散变压器和条件注入。

我们把这个框架放上去,扔给开源世界,整个开源世界都非常支持它,尤其是在Twitter上发布之后。

我们最看重的是技术社区的评价,因为这是每个人真正从技术角度考虑的结果。我们也很快在GitHub上排名第一,目前的排名超过了10K。我们的特点是什么?

我认为黑脸田鸡技术路线的优势在于它可以制作成长视频。原因之一是它在训练期间被灌输了长视频剪辑。

核心模块之一是视频VAE的第一部分,即视频编解码器,它需要压缩视频,因为不可能将1分钟的视频直接放在80G显存的显卡上。

所以我们在视频VAE做了很多工作。目前,视频VAE可以压缩视频,压缩后,可以重建视频以保持高清晰度。

现在我们可以把1分钟的1080P视频塞进80G显卡,如果是半分钟的720P视频,可以塞进4个。个性签名的经典句子

我个人认为视频重建是视频生成的上限。如果视频无法压缩和重建,则无法生成。

我们现在可以将视频压缩256倍,信噪比可以保持在30以上。信噪比越高,重建的信号越好。

还可以在重建视频的同时重建图像。我们目前的开源版本可以压缩256位视频。当然,下一个目标是压缩512位视频。您可以使用我们的CausalVideoVAE进行视频压缩。

我们也收集了数据,有两个方案。

一个是抓取视频数据,因为是一个文生视频,所以需要标注文字。

然而,这非常受限于标注模型的准确性,并且会受到当前使用的多模态理解模型的限制,因此文本和视频之间的对齐度不高。

方案2还使用文本驱动物理引擎(如游戏引擎)来合成数据,因此文本和视频的对齐和精细粒度将非常高。

而且,我们刚刚打通了这种数据收集方法,利用文字的提示来驱动游戏画面,让角色做出特定的动作。

这种合成数据具有高对齐性和快得多的收集速度的优点,因为不需要标记,只需要一个良好的文本提示来驱动物理引擎。

众所周知,黑脸田鸡有许多案例场景与物理引擎生成的场景非常相似。我个人认为是这样的数据的功劳,所以我们现在才刚刚开启这条路。

关于模型的收敛性,我们上周发布了预训练模型的第一个版本,该版本离黑脸田鸡相当远,但我们只使用了一个实验室,并在几乎没有计算能力的情况下进行了预训练。

从我们生成的一些演示来看,包括面包被煮熟和种子发芽的质变场景,它们都符合物理规律,这是黑脸田鸡模型的核心。

视频生成的长度为几秒到十几秒。

当然,你也可以对游戏中的一些场景进行建模,比如在我的世界中建造房子的过程。

我们也有我们的三阶段再现目标。第一阶段已经完成,即1.0版本,现在已经公开。

每个人都可以使用它,包括压缩工具CausalVideoVAE,无需我们的商业授权,因为这是一个开源的东西。

我们现在处于第二阶段,这个阶段的目标也是开源项目的最终目标。我们希望经过训练的模型可以生成20秒以上的720P分辨率的视频。

开源世界给了我们很多支持。例如,我们的合作伙伴和联合发起人兔秀智能为我们提供了贝加莱H100和H800的计算能力,以开展第二阶段开源项目的研发工作。

华为的升腾团队也积极配合我们,为我们提供计算支持。

同时,我们还承诺第二阶段仍将是开源的。

当然,在第三阶段,它超出了开源项目的目标。这就是说,你们所有人和整个行业都可以拥有更强的计算能力和更多的数据,这将使它更接近黑脸田鸡,特别是在普遍性和持续时间方面。

最后,我个人觉得开源世界的贡献促成了AI今天的发展。

众所周知,ImageNet数据集是开源的,许多深度学习模型也是开源的,这促进了该领域的繁荣。

因此,这件事的意义相对重大,学术界和工业界都有一个可以使用的黑脸田鸡式建筑模型。

好了,我的演讲就到这里。谢谢你。

未经允许不得转载:科技让生活更美好 » 北大袁粒:用户不会为只能闲聊的大模型买单 | 中国AIGC产业峰会