2023中国AIGC数据标注产业全景报告

中国AIGC数据标注产业全景报告Panoramic Report of Generative AI Data Labeling Industry in China 2023.11杨净量⼦位智库 QbitAI Insights序 ⾔数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信息结构化、数字化,充分发挥数据信息的价值。⼤模型时代到来,AIGC众多垂直场景落地,以及通⽤智能、具⾝智能等前沿领域探索,与⾼质量、专业化的场景数据密不可分,数据标注从劳动密集型加速朝着知识密集型转型,⾏业壁垒进⼀步提⾼。作为底层基础服务,数据标注贯穿⼤模型全⽣命周期(训练测试、评估验证和应⽤迭代)。⼀⽅⾯,牵涉关键Know-how,更多⼤模型公司/AI企业选择⾃建标注团队和管线;另⼀⽅⾯,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直领域,帮助企业完成私有化部署。机遇与挑战并存。合成数据作为新衍⽣赛道,潜在市场空间巨⼤。与此同时,数据标注标准难以统⼀、数据处理流程尚未规范,⾼学历多领域多专业成为标注⼈才的硬指标。⼤模型时代下的数据标注!"!#!$!%⽬ 录AIGC数据标注四⼤变化AIGC数据标注三⼤影响因素数据标注产业竞争格局/市场规模数据标注代表玩家案例集!&⼤模型时代下的数据标注!"数据标注是AI认识世界的起点n ⽂本:词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等;n 图像:图像分类、语义分割、实例分割、拉框、OCR转写等;n ⾳频:语⾳识别、声纹识别、语⾳转写等;n 视频:⽬标跟踪、⾏为识别等;n 3D点云数据标注是将原始数据进⾏加⼯处理,⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。国内数据标注⼚商,⼴义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作,为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。根据原始数据类型以及训练任务划分:⼀般数据处理流程:原始数据数据清洗模型训练测试/验证数据标注数据质检数据标注中的⼆⼋定律通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20% 。⼤模型时代下的数据标注海天瑞声是国内唯⼀⼀家AI数据上市公司,今年2⽉以来股价受ChatGPT热潮曾⼀度狂飙,截⾄11⽉10⽇股价较年初上涨59.75%。上市公司股价狂飙,创业公司融资加速⼤模型数据解决⽅案多处开花,以⼀站式、定制化服务为主围绕⼤模型开发全⽣命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、⼤模型企业、AI公司等各⽅都拿出相关数据解决⽅案,⼤部分以⼀站式、定制化服务为主。• 云测数据:⾯向垂直⾏业⼤模型数据解决⽅案• 星尘数据:星尘COSMO⼤模型数据⾦字塔解决⽅案• 澳鹏Appen:AI聊天反馈和基准测试两⼤解决⽅案• ⽕⼭引擎:⽕⼭⽅⾈(涵盖数据服务模块)• 百度:⾸个⼤模型数据标注基地⼤模型范式涌⼊数据标注,⾃动化标注⻔槛⼤幅降低以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的⼤模型也被验证在⽂本、图像领域标注具有可⾏性,并衍⽣出专⻔做数据标注的⼤模型,⼤幅降低⾃动化标注⻔槛。国内不少数据服务商进⾏相关⼤模型研发,部分产品已经发布:• 海天瑞声:数据⽣产垂直⼤模型(研发阶段)• 曼孚科技:⾃动驾驶数据标注视觉⼤模型(已完成研发)• ⻰猫数据:⾃动驾驶⼤模型AutopilotGPT(发布)• 商汤:明眸SenseAnnotation⾃动化数据标注平台(发布)• 标⻉科技:烘焙师⼤模型Baker-GPT(发布)创业代表公司融资情况星尘数据|22年12⽉5000万A轮标⻉科技|23年4⽉超亿元B2轮整数智能|23年6⽉数千万Pre A轮柏川数据|23年7⽉千万元天使轮曼孚科技|23年9⽉数千万B轮恺望数据|23年4⽉战略融资23年9⽉数千万Pre A轮智能驾驶新感知范式,BEV+Transformer是机遇也是挑战作为最具代表性应⽤场景,智能驾驶迎来新感知范式:以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的⼆维感知⽅案,给数据服务⼚商带来更多机遇与挑战,包括不限于标注场景难度⼤、数据量产能⼒要求⾼等。⽬前国内部分⼚商给出了数据闭环⼯具链和解决⽅案等。(图源:特斯拉)AIGC重塑数据标注量⼦位智库认为,数据标注正迎来重新洗牌的关键时刻,有四⼤关键趋势:1、数据标注要求从客观到主观,很难建⽴统⼀标准⼤模型的开发范式决定了⼤模型数据标注对⾃然语⾔要求要求很⾼,包括排序、改写、多轮对话、评估等操作,难以依靠客观的评价体系,⽐如准确率、效率等。本科以上多领域多专业开始成为标注⼈才的硬指标,标注⻆⾊也随着⼤模型全⽣命周期更为细分,⽐如AI训练师、模型精调师、指令⼯程师等。⼤模型Know-how涉及到数据处理流程的设计,⼤模型公司/AI企业开始⾃建数据标注团队和数据处理管线,甚⾄对外输出服务,产业链重新洗牌。量⼦位智库预计,国内AI基础数据服务市场规模将达百亿规模,约占全球市场10%份额。其中合成数据作为衍⽣出来的新赛道,存在巨⼤市场空间,增速超40%。2、⾼学历多领域⼈才成刚需,缺⼝或达百万3、产业链重构,⼤模型公司/AI企业涌⼊4、国内百亿级市场规模,合成数据增速最⾼AIGC数据标注四⼤变化!#需求变化:与⾏业场景强相关,高质量数据需求长期且持续⼤模型时代的到来,正加速推动⼈⼯智能开发从以模型为中⼼朝着以数据为中⼼的⽅向转变。⾼质量数据服务需求贯穿⼤模型全⽣命周期。⽬前⼤模型技术路径已经完整清晰,训练流程主要分为三个阶段:预训练⼤模型监督微调SFT强化学习RLHF⼆次预训练**实际训练过程中,部分垂直领域大模型需用小规模语料进行二次预训练操作数据处理流程设计涉及⼤模型Know-how,直接决定⼤模型性能好坏。尤其后两个阶段需要专业⼈⼠⽣成数据或对数据进⾏改写或排序,最终形成符合⼈类标准(⽐如专业逻辑、核⼼价值观等)⾼质量数据。⽽后随着⼤模型持续地实时更新迭代、朝着多垂直领域落地,尤其通⽤智能、具⾝智能等相关探索,如何快速扩展到更多真实边缘场景,⾼质量场景数据也将成为刚需。除此之外,实时保障输出内容的安全合规,也远⽐以往更受重视。从训练、迭代到应⽤落地,数据服务贯穿⼤模型全⽣命周期。⼴泛认知⾥,⼤模型是以数据为中⼼的产物。数据数量和质量很⼤程度决定着⼤模型能⼒的上限。n 以模型为中⼼:迭代模型,数据相对固定。n 以数据为中⼼:关注数据本⾝,模型成为了数据的「容器」。企业端客⼾需要⻓期且持续的数据服务,产业链上下游供应关系远⽐以往更为紧密和耦合。(图源:OpenAI官⽹)(图源:Data-centric AI: Perspectives and Challenges)处理流程侧变化:标准从客观到主观,⾼学历多领域成⼈才硬指标传统数据标注⼤模型数据标注领域划分按不同领域或任务划分按不同阶段划分具体实操拉框、描点、转写等操作排序、改写、⽣成等操作标注要求偏客观偏主观评价指标准确率+效率难以对⻬标准解决⽅案⼯具/平台标注+⼈类质检专业培训、定期开会对⻬等举措⼈才要求专

立即下载
信息科技
2023-12-27
量子位智库
26页
3.15M
收藏
分享

[量子位智库]:2023中国AIGC数据标注产业全景报告,点击即可下载。报告格式为PDF,大小3.15M,页数26页,欢迎下载。

本报告共26页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共26页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
旭光电子盈利预测简表
信息科技
2023-12-27
来源:旭光电子(600353)首次覆盖报告:三位一体布局,电子陶瓷打开成长空间
查看原文
旭光电子主营业务拆分及预测
信息科技
2023-12-27
来源:旭光电子(600353)首次覆盖报告:三位一体布局,电子陶瓷打开成长空间
查看原文
旭光电子非公开发行投资项目(单位:万元)
信息科技
2023-12-27
来源:旭光电子(600353)首次覆盖报告:三位一体布局,电子陶瓷打开成长空间
查看原文
中国氮化铝粉体供需缺口情况
信息科技
2023-12-27
来源:旭光电子(600353)首次覆盖报告:三位一体布局,电子陶瓷打开成长空间
查看原文
中国电子陶瓷市场规模
信息科技
2023-12-27
来源:旭光电子(600353)首次覆盖报告:三位一体布局,电子陶瓷打开成长空间
查看原文
全球嵌入式系统市场规模及增速
信息科技
2023-12-27
来源:旭光电子(600353)首次覆盖报告:三位一体布局,电子陶瓷打开成长空间
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起