中國(guó)AIGC數(shù)據(jù)標(biāo)注全景報(bào)告:百億市場(chǎng)規(guī)模,百萬(wàn)就業(yè)缺口
數(shù)據(jù)標(biāo)注,正迎來關(guān)鍵洗牌時(shí)刻。
大模型時(shí)代到來,以數(shù)據(jù)為中心的AI開發(fā)模式加速走向臺(tái)前,數(shù)據(jù)的價(jià)值從未向今天這樣被充分挖掘——
大模型從訓(xùn)練到部署應(yīng)用迭代,AIGC眾多垂直場(chǎng)景落地,通用智能、具身智能等前沿領(lǐng)域探索,都與高質(zhì)量、專業(yè)化的場(chǎng)景數(shù)據(jù)密不可分。
作為底層基礎(chǔ)服務(wù),數(shù)據(jù)標(biāo)注也從未像今天這樣受到關(guān)注,但與此同時(shí)機(jī)遇與挑戰(zhàn)隨之而來。
數(shù)據(jù)標(biāo)注要求從客觀到主觀,標(biāo)準(zhǔn)如何統(tǒng)一?標(biāo)注人才要求又有什么樣的新變化?
大模型公司/AI企業(yè)涌入賽道,專業(yè)數(shù)據(jù)服務(wù)廠商如何自處?
合成數(shù)據(jù)作為新興賽道,又有怎樣的增長(zhǎng)空間?
帶著這些問題,量子位智庫(kù)《中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告》由此而來,并嘗試解答。
報(bào)告中,量子位智庫(kù)將從我國(guó)數(shù)據(jù)標(biāo)注行業(yè)現(xiàn)狀、四大關(guān)鍵變化、三大影響要素、行業(yè)發(fā)展及市場(chǎng)規(guī)模等多角度、多方向地全面立體描繪中國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景。
核心觀點(diǎn)如下:
- 數(shù)據(jù)標(biāo)注服務(wù)貫穿大模型全生命周期,上下游合作關(guān)系更為緊密耦合;
- 大模型范式涌入數(shù)據(jù)標(biāo)注,自動(dòng)化標(biāo)注效率進(jìn)一步提升;
- 標(biāo)注人才高學(xué)歷多領(lǐng)域成硬指標(biāo),缺口或達(dá)百萬(wàn);
- 產(chǎn)業(yè)鏈重構(gòu),專業(yè)數(shù)據(jù)服務(wù)商更多機(jī)會(huì)將在垂直領(lǐng)域,幫助企業(yè)私有化部署;
- 傳統(tǒng)依靠渠道人力等因素聚合飛輪效應(yīng)已失效,數(shù)據(jù)標(biāo)注朝著知識(shí)密集型轉(zhuǎn)移;
- 國(guó)內(nèi)市場(chǎng)規(guī)模將達(dá)百億量級(jí),合成數(shù)據(jù)增速最高。
大模型時(shí)代下的數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注,是將原始數(shù)據(jù)進(jìn)行加工處理,比如分類、拉框、注釋、標(biāo)記等操作,轉(zhuǎn)換成機(jī)器可識(shí)別信息的過程。
國(guó)內(nèi)數(shù)據(jù)標(biāo)注廠商,廣義也被叫做基礎(chǔ)數(shù)據(jù)服務(wù)商,通常需要完成數(shù)據(jù)集結(jié)構(gòu)/流程設(shè)計(jì)、數(shù)據(jù)處理、數(shù)據(jù)質(zhì)檢等工作,為下游客戶提供訓(xùn)練數(shù)據(jù)集、定制化服務(wù)。這也是本次主要研究對(duì)象。
大模型時(shí)代到來,數(shù)據(jù)標(biāo)注受到前所未有的關(guān)注。
上市公司股價(jià)狂飆,創(chuàng)業(yè)代表公司融資加速。
國(guó)內(nèi)唯一一家AI數(shù)據(jù)上市公司海天瑞聲受到ChatGPT熱潮,今年2月以來股價(jià)曾一度狂飆。創(chuàng)業(yè)公司也同樣融資進(jìn)展頻頻,包括像星塵數(shù)據(jù)、標(biāo)貝科技、整數(shù)智能、柏川數(shù)據(jù)、曼孚科技、愷望數(shù)據(jù)等代表公司均獲得新融資。
大模型數(shù)據(jù)解決方案多處開花,以一站式、定制化服務(wù)為主
圍繞大模型開發(fā)全生命周期(包括預(yù)訓(xùn)練、監(jiān)督微調(diào)、RLHF、基準(zhǔn)測(cè)試等),專業(yè)數(shù)據(jù)服務(wù)商、大模型企業(yè)、AI公司等各方都拿出相關(guān)數(shù)據(jù)解決方案。
大模型范式涌入數(shù)據(jù)標(biāo)注,自動(dòng)化標(biāo)注?檻大幅降低
以「Segment Anything」為代表的圖像分割模型開源,可通過提示詞對(duì)圖像或視頻中任意對(duì)象進(jìn)行分割,并可擴(kuò)展到任何新任務(wù)和新領(lǐng)域,被稱為是CV領(lǐng)域的「GPT-3」時(shí)刻,大大降低了圖像領(lǐng)域的標(biāo)注門檻。
智能駕駛新感知范式,BEV+Transformer是機(jī)遇也是挑戰(zhàn)
作為最具代表性應(yīng)用場(chǎng)景,智能駕駛迎來新感知范式——
以BEV+Transformer為代表的四維感知替代掉2D+CNN為代表的二維感知方案,給數(shù)據(jù)服務(wù)廠商帶來更多機(jī)遇與挑戰(zhàn),包括不限于標(biāo)注場(chǎng)景難度大、數(shù)據(jù)量產(chǎn)能力要求高等。
四大關(guān)鍵變化
需求變化:與行業(yè)場(chǎng)景強(qiáng)相關(guān),高質(zhì)量數(shù)據(jù)需求長(zhǎng)期且持續(xù)
大模型時(shí)代的到來,正加速推動(dòng)人工智能開發(fā)從以模型為中心朝著以數(shù)據(jù)為中心的方向轉(zhuǎn)變。
△圖源:Data-centric AI: Perspectives and Challenges
大模型作為以數(shù)據(jù)為中心的產(chǎn)物,數(shù)據(jù)數(shù)量和質(zhì)量很大程度決定著大模型能力的上限。尤其像訓(xùn)練流程中的后兩個(gè)階段,直接決定了大模型性能好壞——
需要專業(yè)人士生成數(shù)據(jù)或?qū)?shù)據(jù)進(jìn)行改寫或排序,最終形成符合人類標(biāo)準(zhǔn)(比如專業(yè)邏輯、核心價(jià)值觀等)高質(zhì)量數(shù)據(jù)。
處理流程側(cè)變化:標(biāo)準(zhǔn)從客觀到主觀,高學(xué)歷多領(lǐng)域成人才硬指標(biāo)
從數(shù)據(jù)流程上來看,傳統(tǒng)數(shù)據(jù)標(biāo)注是以目標(biāo)任務(wù)為導(dǎo)向,通過拉框、描點(diǎn)、轉(zhuǎn)寫等方式進(jìn)行人工或自動(dòng)化標(biāo)注,評(píng)價(jià)標(biāo)準(zhǔn)主要以準(zhǔn)確率和效率為指標(biāo)。
而大模型數(shù)據(jù)標(biāo)注,則是按照階段來劃分,通常對(duì)自然語(yǔ)言要求很高,需要更專業(yè)的人才參與,標(biāo)注要求偏主觀,難以形成統(tǒng)一的標(biāo)準(zhǔn)。
數(shù)據(jù)標(biāo)注從勞動(dòng)密集朝著知識(shí)密集型轉(zhuǎn)變。
其中像百度在海口專為大模型建設(shè)的數(shù)據(jù)標(biāo)注基地,本科比例100%,培訓(xùn)專業(yè)人才已達(dá)1000人。未來五年,數(shù)據(jù)標(biāo)注相關(guān)專業(yè)人才缺口將達(dá)百萬(wàn)量級(jí)。
業(yè)務(wù)變化:合成數(shù)據(jù)新衍生賽道,潛在市場(chǎng)空間巨大
合成數(shù)據(jù)作為新衍生賽道,正受到廣泛關(guān)注。所謂合成數(shù)據(jù),即是用AI生成數(shù)據(jù)而非真實(shí)產(chǎn)生,能夠替代真實(shí)數(shù)據(jù)來訓(xùn)練、測(cè)試和驗(yàn)證大模型。OpenAI CEO Sam Altman曾方言:
未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)。
除了能降本增效外,它可以補(bǔ)充更多邊緣、長(zhǎng)尾場(chǎng)景數(shù)據(jù),能有效解決大模型時(shí)代下的“數(shù)據(jù)鴻溝”,并自然規(guī)避掉數(shù)據(jù)隱私安全、合規(guī)等方面問題。
像在數(shù)據(jù)增強(qiáng)、模型驗(yàn)證、可解釋AI等領(lǐng)域,以及自動(dòng)駕駛、機(jī)器人、生物醫(yī)藥等領(lǐng)域都有相關(guān)應(yīng)用。
量子位智庫(kù)預(yù)計(jì),合成數(shù)據(jù)將成為未來增速最快賽道,年增?率可達(dá)45%。
供應(yīng)鏈變化:產(chǎn)業(yè)鏈重新洗牌,大模型公司/AI企業(yè)涌入
大模型公司/AI企業(yè)自建數(shù)據(jù)處理管線,并對(duì)外輸出大模型數(shù)據(jù)解決方案,產(chǎn)業(yè)鏈重新洗牌。
部分廠商還具備云服務(wù)能力,可與數(shù)據(jù)服務(wù)打包輸出,能有效建立起客戶之間的口碑和信任。
三大影響因素:以技術(shù)+場(chǎng)景聚合的飛輪效應(yīng)
一看技術(shù)能力
作為AI底層服務(wù),數(shù)據(jù)標(biāo)注最本質(zhì)的就是為下游客戶降本增效。而技術(shù)是降本增效的最優(yōu)解決路徑,持續(xù)迭代技術(shù)能力的企業(yè)將有機(jī)會(huì)脫穎而出。
包括不限于以下幾點(diǎn):數(shù)據(jù)閉環(huán)工具鏈的智能化水平、對(duì)大模型/AI算法的理解、數(shù)據(jù)工程化能力、基礎(chǔ)設(shè)施建設(shè)等。
二看場(chǎng)景資源
場(chǎng)景資源能力主要包括數(shù)據(jù)和人才兩個(gè)層面:高質(zhì)量的場(chǎng)景數(shù)據(jù)以及場(chǎng)景人才(領(lǐng)域?qū)<?、深度用戶等?/p>
這與行業(yè)持續(xù)多年的深耕不無(wú)關(guān)系——企業(yè)懂得行業(yè)know-how,能夠根據(jù)客戶需求,快速找到并利用與場(chǎng)景最為貼合的數(shù)據(jù)和人才資源。
三看飛輪效應(yīng)
數(shù)據(jù)標(biāo)注仍具有飛輪效應(yīng)。以往靠銷售渠道、人力成本等驅(qū)動(dòng)因素,服務(wù)商實(shí)現(xiàn)業(yè)務(wù)量增長(zhǎng),進(jìn)而贏得市場(chǎng)獲得口碑,獲得新客戶也會(huì)越來越容易。
如今在技術(shù)和場(chǎng)景資源能力雙重驅(qū)動(dòng)下,數(shù)據(jù)處理能力越強(qiáng),大模型標(biāo)注經(jīng)驗(yàn)越豐富,落地案例越來越多,數(shù)據(jù)處理的可擴(kuò)展性和靈活性也越高。
這樣一來,新創(chuàng)業(yè)公司入局門檻將進(jìn)一步提高,專業(yè)數(shù)據(jù)服務(wù)提供商更多機(jī)會(huì)將在垂直場(chǎng)景,幫助企業(yè)完成私有化部署。
國(guó)內(nèi)基礎(chǔ)數(shù)據(jù)服務(wù)百億市場(chǎng)規(guī)模
數(shù)據(jù)標(biāo)注行業(yè)傳統(tǒng)依靠渠道、人力等形成的低成本優(yōu)勢(shì)將被重塑,數(shù)據(jù)需求方將更看重?cái)?shù)據(jù)質(zhì)量、場(chǎng)景多樣性和可擴(kuò)展性?;谝陨显?,量子位智庫(kù)將從數(shù)據(jù)基礎(chǔ)設(shè)施、場(chǎng)景資源兩個(gè)方面來分析國(guó)內(nèi)市場(chǎng)分布及現(xiàn)狀。
第一象限:有技術(shù)有場(chǎng)景的明星公司
該象限存在兩種情況:
第一種是模型層公司本身有大模型技術(shù)范式以及場(chǎng)景落地經(jīng)驗(yàn)積累,可快速輸出數(shù)據(jù)解決方案,與云服務(wù)打包輸出建立信任;
第二種則是主要以技術(shù)驅(qū)動(dòng)的明星企業(yè),大部分擁有數(shù)據(jù)閉環(huán)工具鏈,再結(jié)合幾年來行業(yè)經(jīng)驗(yàn),在大模型浪潮下易受到企業(yè)用戶?睞。
第二象限:有強(qiáng)技術(shù)支撐的創(chuàng)業(yè)新勢(shì)力。
該象限主要聚焦在近兩年創(chuàng)立的創(chuàng)業(yè)公司,主要以自動(dòng)駕駛場(chǎng)景作為切入點(diǎn),再覆蓋 到AIGC及其他領(lǐng)域。他們飽受資本市場(chǎng)認(rèn)可,以愷望數(shù)據(jù)為例,一年半時(shí)間就是完成了三輪融資。
第三象限:包括中小團(tuán)隊(duì)、企業(yè)自建數(shù)據(jù)管線等。
第四象限:場(chǎng)景壁壘更為深厚的行業(yè)玩家
該象限著更為深厚的行業(yè)數(shù)據(jù)壁壘,可為下游用戶提供高質(zhì)量數(shù)據(jù)集或擁有大模型數(shù)據(jù)標(biāo)注團(tuán)隊(duì), 以海天瑞聲為例,不僅是LIama2的唯一中國(guó)伙伴,還發(fā)布超大規(guī)模中文多輪對(duì)話數(shù)據(jù)集DOTS-NLP-216,合作企業(yè)超810家,覆蓋全球近200個(gè)主要語(yǔ)種及方言,有近20年行業(yè)深耕。
量子位智庫(kù)認(rèn)為,數(shù)據(jù)標(biāo)注處于重新洗牌的時(shí)期,更高質(zhì)量、專業(yè)化的數(shù)據(jù)標(biāo)注成為剛需。
未來五年,國(guó)內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)將達(dá)到百億規(guī)模,年復(fù)合增長(zhǎng)率在27%左右。
以下為我國(guó)值得關(guān)注的行業(yè)代表機(jī)構(gòu)TOP20: