中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口

数据标签正迎来一个关键的洗牌时刻。

随着大模型时代的到来,以数据为中心的AI开发模式加速走向前台,数据的价值从未像今天这样被充分挖掘。

从训练到部署应用迭代的大规模模型,AIGC落地的诸多垂直场景,通用智能、具身智能等前沿领域的探索,都离不开优质、专业的场景数据。

作为底层的基础服务,数据标注从来没有像今天这样受到如此多的关注,但与此同时,机遇和挑战也随之而来。

数据标注要求从客观到主观。如何统一标准?标签化人才的要求有哪些新变化?

大的模型公司/AI公司正在涌入赛道。专业的数据服务商如何处理自己?

作为新赛道,合成数据增加了空?

带着这些问题,量子比特智库《中国AIGC数据标签行业全景报告》由此而来,试图解答。

在报告中,量子比特智库将从中国数据标签行业现状、四大关键变化、三大影响因素、行业发展、市场规模等角度,全面立体地描绘中国数据标签行业全景。

核心思想如下:

数据标注服务贯穿大模型全生命周期,上下游合作关系更加紧密耦合

大型模型范式涌入数据标注,自动标注的效率进一步提高;

标注高学历、多领域硬指标的人才,缺口可能达到百万

产业链重构,专业数据服务商在垂直领域将有更多机会帮助企业私有化部署;

基于渠道人力等因素的传统聚合飞轮效应已经失效,数据标注正在向知识密集型转变;

国内市场规模将达数百亿,其中合成数据增速最高。

大模型时代的数据标注

数据标注是通过分类、分帧、标注、标注等处理,将原始数据转化为机器可读信息的过程。

国内数据标签厂商,广义上也称为基础数据服务商,通常需要完成数据集结构/流程设计、数据处理、数据质量检验等工作,为下游客户提供训练数据集和定制服务。这也是这次的主要研究对象。

随着大模型时代的到来,数据标注受到了前所未有的重视。

上市公司股价暴涨,创业融资代表公司加速

中国唯一的AI数据上市公司海天盛瑞受到ChatGPT热潮的冲击,其股价自今年2月以来一直在飙升。创业公司在融资方面也取得了频繁的进展,包括代表星尘数据、比贝科技、Integer Intelligence、百川数据、付曼科技和王凯数据等公司进行的新融资。

大模型数据解决方案在很多地方遍地开花,以一站式、定制化服务为主

围绕大型号开发的全生命周期(包括前期培训、监督微调、RLHF、标杆管理等。)、专业数据服务商、大型模型企业、AI公司等各方都拿出了相关的数据解决方案。

大型模型范例涌入数据标注,自动标注的门槛大大降低

以“分割任何东西”为代表的图像分割模型是开源的,可以通过提示分割图像或视频中的任何物体,并且可以扩展到任何新的任务和新的领域。在CV域被称为“GPT-3”矩,大大降低了图像域的标记阈值。

智能驾驶新感知范式BEV+Transformer,既是机遇也是挑战

作为最具代表性的应用场景,智能驾驶迎来了全新的感知范式——

以BEV+Transformer为代表的四维感知取代了以2D+CNN为代表的二维感知,给数据服务提供商带来了更多的机遇和挑战,不仅包括场景标注的难度,还包括对数据量产能力的高要求。

四个关键变化

需求变化:与行业场景强相关,对高质量数据的需求是长期持续的。

大模型时代的到来,正在加速人工智能发展从以模型为中心向以数据为中心的转变。

来源:以数据为中心:前景和挑战

作为以数据为中心的产品,数据的数量和质量很大程度上决定了大模型的能力上限。尤其像训练过程中的后两个阶段,直接决定了大模型的表现——

专业人员需要生成数据或者对数据进行重写或者排序,最终形成符合人类标准(比如专业逻辑、核心价值观)的高质量数据。

办理流程侧变:标准从客观到主观,高学历多领域成人人才是硬指标。

从数据流程来看,传统的数据标注是以目标任务为基础,通过画框、画点、传递等方式进行人工或自动标注,评价标准主要基于准确性和效率。

而大规模的模型数据标注是按阶段划分的,通常对自然语言要求较高,需要更专业的人才参与。标注要求主观,难以形成统一标准。

数据标注从劳动密集型变成了知识密集型

其中,百度专门为大模型打造的海口数据标注基地,100%本科学历,培养了1000名专业人才。未来五年,数据标签相关专业人才缺口将达到百万量级。

业务变化:合成数据是新的衍生赛道,潜在市场巨大空。

合成数据作为一种新的衍生轨道,正受到广泛关注。所谓合成数据,就是用AI生成数据代替真实数据,可以代替真实数据来训练、测试、验证大型模型。OpenAI首席执行官山姆·奥特曼(Sam Altman)曾用方言说过:

在未来,所有的数据都将成为合成数据。

除了降本增效,还能补充更多边缘、长尾场景数据,有效解决大模型时代的“数据鸿沟”,自然避免数据隐私、安全、合规等问题。

如数据增强、模型验证、可解释AI等领域,以及自动驾驶、机器人、生物医学等领域都有相关应用。

量子比特智库预测,合成数据将成为未来增长最快的赛道,年增长率为45%。

供应链变革:产业链重新洗牌,大型模型公司/AI公司涌入。

大模型公司/AI企业自建数据处理管道,输出大模型数据解决方案,产业链重新洗牌。

有些厂商还具备云服务能力,可以用数据服务打包输出,可以有效建立客户间的口碑和信任。

三大影响因素:技术的飞轮效应+场景聚合

看技术能力

数据标注作为AI的底层服务,本质是为下游客户降本增效。技术是降本增效的最佳方案,持续迭代技术能力的企业将有机会脱颖而出。

包括但不限于以下几点:数据闭环工具链的智能水平、对大模型/AI算法的理解、数据工程能力、基础设施建设等。

二、看场景资源

场景资源能力主要包括数据和人才:优质的场景数据和场景人才(领域专家、深度用户等。)

这与行业多年的持续深耕不无关系——企业百事通了解行业,能够根据客户需求快速找到并使用最适合场景的数据和人才资源。

第三,看飞轮效应

数据标注还是有飞轮效应的。过去依靠销售渠道、人力成本等驱动因素,服务商实现业务增长,进而赢得市场获得口碑,获取新客户会越来越容易。

如今,在技术和场景资源的驱动下,数据处理能力越强,大规模模型标注的经验越丰富,落地案例越来越多,数据处理的可扩展性和灵活性也越高。

这样,新创公司的准入门槛将进一步提高,专业的数据服务商将有更多机会帮助企业完成垂直场景下的私有化部署。

国内基础数据服务市场规模100亿

传统上依赖渠道和人力的数据标签行业的低成本优势将被重塑,数据需求方将更加注重数据质量、场景多样性和可扩展性。基于以上原因,量子比特智库将从数据基础设施和场景资源两个方面分析国内市场分布和现状。

第一象限:有技术有场景的明星公司

在这个象限中有两种情况:

第一是模型层公司本身拥有庞大的模型技术范式和场景落地的经验积累,可以快速输出数据解决方案,以云服务的打包输出建立信任;

第二类是以技术驱动为主的明星企业,大多拥有数据闭环工具链,结合近几年的行业经验,在大模式的浪潮下,很容易受到企业用户的青睐。

第二象限:有强大技术支持的创业新势力

这个象限主要关注近两年成立的创业公司,主要以自动驾驶场景为出发点,然后覆盖AIGC等领域。他们得到了资本市场的认可。以王凯数据为例,他们在一年半的时间里完成了三轮融资。

第三象限:包括中小型团队和企业搭建的数据管道

第四象限:场景壁垒更深的行业玩家

这个象限有更深的行业数据壁垒,可以为下游用户提供高质量的数据集,或者拥有庞大的模型数据标注团队。以海天盛瑞为例,它不仅是LIama2唯一的中国合作伙伴,还发布了超大规模的中文多轮对话数据集DOTS-NLP-216,合作企业超过810家,覆盖全球近200种主要语言和方言,在行业深耕近20年。

量子比特智库认为,数据标签正处于洗牌期,更高质量、更专业的数据标签是刚需。

未来五年,国内AI基础数据服务规模将达到100亿,年复合增长率在27%左右。

以下是国内值得关注的仿生机器人行业20大代表性机构:

未经允许不得转载:科技让生活更美好 » 中国AIGC数据标注全景报告:百亿市场规模,百万就业缺口