自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中國(guó)AIGC數(shù)據(jù)標(biāo)注全景報(bào)告:百億市場(chǎng)規(guī)模,百萬(wàn)就業(yè)缺口

人工智能 新聞
大模型從訓(xùn)練到部署應(yīng)用迭代,AIGC眾多垂直場(chǎng)景落地,通用智能、具身智能等前沿領(lǐng)域探索,都與高質(zhì)量、專業(yè)化的場(chǎng)景數(shù)據(jù)密不可分。

數(shù)據(jù)標(biāo)注,正迎來關(guān)鍵洗牌時(shí)刻。

大模型時(shí)代到來,以數(shù)據(jù)為中心的AI開發(fā)模式加速走向臺(tái)前,數(shù)據(jù)的價(jià)值從未向今天這樣被充分挖掘——

大模型從訓(xùn)練到部署應(yīng)用迭代,AIGC眾多垂直場(chǎng)景落地,通用智能、具身智能等前沿領(lǐng)域探索,都與高質(zhì)量、專業(yè)化的場(chǎng)景數(shù)據(jù)密不可分。

作為底層基礎(chǔ)服務(wù),數(shù)據(jù)標(biāo)注也從未像今天這樣受到關(guān)注,但與此同時(shí)機(jī)遇與挑戰(zhàn)隨之而來。

數(shù)據(jù)標(biāo)注要求從客觀到主觀,標(biāo)準(zhǔn)如何統(tǒng)一?標(biāo)注人才要求又有什么樣的新變化?

大模型公司/AI企業(yè)涌入賽道,專業(yè)數(shù)據(jù)服務(wù)廠商如何自處?

合成數(shù)據(jù)作為新興賽道,又有怎樣的增長(zhǎng)空間?

帶著這些問題,量子位智庫(kù)《中國(guó)AIGC數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景報(bào)告》由此而來,并嘗試解答。

報(bào)告中,量子位智庫(kù)將從我國(guó)數(shù)據(jù)標(biāo)注行業(yè)現(xiàn)狀、四大關(guān)鍵變化、三大影響要素、行業(yè)發(fā)展及市場(chǎng)規(guī)模等多角度、多方向地全面立體描繪中國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)全景。

核心觀點(diǎn)如下:

  • 數(shù)據(jù)標(biāo)注服務(wù)貫穿大模型全生命周期,上下游合作關(guān)系更為緊密耦合
  • 大模型范式涌入數(shù)據(jù)標(biāo)注,自動(dòng)化標(biāo)注效率進(jìn)一步提升;
  • 標(biāo)注人才高學(xué)歷多領(lǐng)域成硬指標(biāo),缺口或達(dá)百萬(wàn);
  • 產(chǎn)業(yè)鏈重構(gòu),專業(yè)數(shù)據(jù)服務(wù)商更多機(jī)會(huì)將在垂直領(lǐng)域,幫助企業(yè)私有化部署;
  • 傳統(tǒng)依靠渠道人力等因素聚合飛輪效應(yīng)已失效,數(shù)據(jù)標(biāo)注朝著知識(shí)密集型轉(zhuǎn)移;
  • 國(guó)內(nèi)市場(chǎng)規(guī)模將達(dá)百億量級(jí),合成數(shù)據(jù)增速最高。

大模型時(shí)代下的數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注,是將原始數(shù)據(jù)進(jìn)行加工處理,比如分類、拉框、注釋、標(biāo)記等操作,轉(zhuǎn)換成機(jī)器可識(shí)別信息的過程。

國(guó)內(nèi)數(shù)據(jù)標(biāo)注廠商,廣義也被叫做基礎(chǔ)數(shù)據(jù)服務(wù)商,通常需要完成數(shù)據(jù)集結(jié)構(gòu)/流程設(shè)計(jì)、數(shù)據(jù)處理、數(shù)據(jù)質(zhì)檢等工作,為下游客戶提供訓(xùn)練數(shù)據(jù)集、定制化服務(wù)。這也是本次主要研究對(duì)象。

大模型時(shí)代到來,數(shù)據(jù)標(biāo)注受到前所未有的關(guān)注。

上市公司股價(jià)狂飆,創(chuàng)業(yè)代表公司融資加速

國(guó)內(nèi)唯一一家AI數(shù)據(jù)上市公司海天瑞聲受到ChatGPT熱潮,今年2月以來股價(jià)曾一度狂飆。創(chuàng)業(yè)公司也同樣融資進(jìn)展頻頻,包括像星塵數(shù)據(jù)、標(biāo)貝科技、整數(shù)智能、柏川數(shù)據(jù)、曼孚科技、愷望數(shù)據(jù)等代表公司均獲得新融資。

大模型數(shù)據(jù)解決方案多處開花,以一站式、定制化服務(wù)為主

圍繞大模型開發(fā)全生命周期(包括預(yù)訓(xùn)練、監(jiān)督微調(diào)、RLHF、基準(zhǔn)測(cè)試等),專業(yè)數(shù)據(jù)服務(wù)商、大模型企業(yè)、AI公司等各方都拿出相關(guān)數(shù)據(jù)解決方案。

大模型范式涌入數(shù)據(jù)標(biāo)注,自動(dòng)化標(biāo)注?檻大幅降低

以「Segment Anything」為代表的圖像分割模型開源,可通過提示詞對(duì)圖像或視頻中任意對(duì)象進(jìn)行分割,并可擴(kuò)展到任何新任務(wù)和新領(lǐng)域,被稱為是CV領(lǐng)域的「GPT-3」時(shí)刻,大大降低了圖像領(lǐng)域的標(biāo)注門檻。

智能駕駛新感知范式,BEV+Transformer是機(jī)遇也是挑戰(zhàn)

作為最具代表性應(yīng)用場(chǎng)景,智能駕駛迎來新感知范式——

以BEV+Transformer為代表的四維感知替代掉2D+CNN為代表的二維感知方案,給數(shù)據(jù)服務(wù)廠商帶來更多機(jī)遇與挑戰(zhàn),包括不限于標(biāo)注場(chǎng)景難度大、數(shù)據(jù)量產(chǎn)能力要求高等。

圖片

四大關(guān)鍵變化

需求變化:與行業(yè)場(chǎng)景強(qiáng)相關(guān),高質(zhì)量數(shù)據(jù)需求長(zhǎng)期且持續(xù)

大模型時(shí)代的到來,正加速推動(dòng)人工智能開發(fā)從以模型為中心朝著以數(shù)據(jù)為中心的方向轉(zhuǎn)變。

圖片

△圖源:Data-centric AI: Perspectives and Challenges

大模型作為以數(shù)據(jù)為中心的產(chǎn)物,數(shù)據(jù)數(shù)量和質(zhì)量很大程度決定著大模型能力的上限。尤其像訓(xùn)練流程中的后兩個(gè)階段,直接決定了大模型性能好壞——

需要專業(yè)人士生成數(shù)據(jù)或?qū)?shù)據(jù)進(jìn)行改寫或排序,最終形成符合人類標(biāo)準(zhǔn)(比如專業(yè)邏輯、核心價(jià)值觀等)高質(zhì)量數(shù)據(jù)。

圖片

處理流程側(cè)變化:標(biāo)準(zhǔn)從客觀到主觀,高學(xué)歷多領(lǐng)域成人才硬指標(biāo)

從數(shù)據(jù)流程上來看,傳統(tǒng)數(shù)據(jù)標(biāo)注是以目標(biāo)任務(wù)為導(dǎo)向,通過拉框、描點(diǎn)、轉(zhuǎn)寫等方式進(jìn)行人工或自動(dòng)化標(biāo)注,評(píng)價(jià)標(biāo)準(zhǔn)主要以準(zhǔn)確率和效率為指標(biāo)。

而大模型數(shù)據(jù)標(biāo)注,則是按照階段來劃分,通常對(duì)自然語(yǔ)言要求很高,需要更專業(yè)的人才參與,標(biāo)注要求偏主觀,難以形成統(tǒng)一的標(biāo)準(zhǔn)。

數(shù)據(jù)標(biāo)注從勞動(dòng)密集朝著知識(shí)密集型轉(zhuǎn)變。

圖片

其中像百度在海口專為大模型建設(shè)的數(shù)據(jù)標(biāo)注基地,本科比例100%,培訓(xùn)專業(yè)人才已達(dá)1000人。未來五年,數(shù)據(jù)標(biāo)注相關(guān)專業(yè)人才缺口將達(dá)百萬(wàn)量級(jí)。

業(yè)務(wù)變化:合成數(shù)據(jù)新衍生賽道,潛在市場(chǎng)空間巨大

合成數(shù)據(jù)作為新衍生賽道,正受到廣泛關(guān)注。所謂合成數(shù)據(jù),即是用AI生成數(shù)據(jù)而非真實(shí)產(chǎn)生,能夠替代真實(shí)數(shù)據(jù)來訓(xùn)練、測(cè)試和驗(yàn)證大模型。OpenAI CEO Sam Altman曾方言:

未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)。

除了能降本增效外,它可以補(bǔ)充更多邊緣、長(zhǎng)尾場(chǎng)景數(shù)據(jù),能有效解決大模型時(shí)代下的“數(shù)據(jù)鴻溝”,并自然規(guī)避掉數(shù)據(jù)隱私安全、合規(guī)等方面問題。

像在數(shù)據(jù)增強(qiáng)、模型驗(yàn)證、可解釋AI等領(lǐng)域,以及自動(dòng)駕駛、機(jī)器人、生物醫(yī)藥等領(lǐng)域都有相關(guān)應(yīng)用。

量子位智庫(kù)預(yù)計(jì),合成數(shù)據(jù)將成為未來增速最快賽道,年增?率可達(dá)45%。

圖片

供應(yīng)鏈變化:產(chǎn)業(yè)鏈重新洗牌,大模型公司/AI企業(yè)涌入

大模型公司/AI企業(yè)自建數(shù)據(jù)處理管線,并對(duì)外輸出大模型數(shù)據(jù)解決方案,產(chǎn)業(yè)鏈重新洗牌。

部分廠商還具備云服務(wù)能力,可與數(shù)據(jù)服務(wù)打包輸出,能有效建立起客戶之間的口碑和信任。

圖片

三大影響因素:以技術(shù)+場(chǎng)景聚合的飛輪效應(yīng)

一看技術(shù)能力

作為AI底層服務(wù),數(shù)據(jù)標(biāo)注最本質(zhì)的就是為下游客戶降本增效。而技術(shù)是降本增效的最優(yōu)解決路徑,持續(xù)迭代技術(shù)能力的企業(yè)將有機(jī)會(huì)脫穎而出。

包括不限于以下幾點(diǎn):數(shù)據(jù)閉環(huán)工具鏈的智能化水平、對(duì)大模型/AI算法的理解、數(shù)據(jù)工程化能力、基礎(chǔ)設(shè)施建設(shè)等。

二看場(chǎng)景資源

場(chǎng)景資源能力主要包括數(shù)據(jù)和人才兩個(gè)層面:高質(zhì)量的場(chǎng)景數(shù)據(jù)以及場(chǎng)景人才(領(lǐng)域?qū)<?、深度用戶等?/p>

這與行業(yè)持續(xù)多年的深耕不無(wú)關(guān)系——企業(yè)懂得行業(yè)know-how,能夠根據(jù)客戶需求,快速找到并利用與場(chǎng)景最為貼合的數(shù)據(jù)和人才資源。

三看飛輪效應(yīng)

數(shù)據(jù)標(biāo)注仍具有飛輪效應(yīng)。以往靠銷售渠道、人力成本等驅(qū)動(dòng)因素,服務(wù)商實(shí)現(xiàn)業(yè)務(wù)量增長(zhǎng),進(jìn)而贏得市場(chǎng)獲得口碑,獲得新客戶也會(huì)越來越容易。

圖片

如今在技術(shù)和場(chǎng)景資源能力雙重驅(qū)動(dòng)下,數(shù)據(jù)處理能力越強(qiáng),大模型標(biāo)注經(jīng)驗(yàn)越豐富,落地案例越來越多,數(shù)據(jù)處理的可擴(kuò)展性和靈活性也越高。

圖片

這樣一來,新創(chuàng)業(yè)公司入局門檻將進(jìn)一步提高,專業(yè)數(shù)據(jù)服務(wù)提供商更多機(jī)會(huì)將在垂直場(chǎng)景,幫助企業(yè)完成私有化部署。

國(guó)內(nèi)基礎(chǔ)數(shù)據(jù)服務(wù)百億市場(chǎng)規(guī)模

數(shù)據(jù)標(biāo)注行業(yè)傳統(tǒng)依靠渠道、人力等形成的低成本優(yōu)勢(shì)將被重塑,數(shù)據(jù)需求方將更看重?cái)?shù)據(jù)質(zhì)量、場(chǎng)景多樣性和可擴(kuò)展性?;谝陨显?,量子位智庫(kù)將從數(shù)據(jù)基礎(chǔ)設(shè)施、場(chǎng)景資源兩個(gè)方面來分析國(guó)內(nèi)市場(chǎng)分布及現(xiàn)狀。

第一象限:有技術(shù)有場(chǎng)景的明星公司

該象限存在兩種情況:

第一種是模型層公司本身有大模型技術(shù)范式以及場(chǎng)景落地經(jīng)驗(yàn)積累,可快速輸出數(shù)據(jù)解決方案,與云服務(wù)打包輸出建立信任;

第二種則是主要以技術(shù)驅(qū)動(dòng)的明星企業(yè),大部分擁有數(shù)據(jù)閉環(huán)工具鏈,再結(jié)合幾年來行業(yè)經(jīng)驗(yàn),在大模型浪潮下易受到企業(yè)用戶?睞。

第二象限:有強(qiáng)技術(shù)支撐的創(chuàng)業(yè)新勢(shì)力。

該象限主要聚焦在近兩年創(chuàng)立的創(chuàng)業(yè)公司,主要以自動(dòng)駕駛場(chǎng)景作為切入點(diǎn),再覆蓋 到AIGC及其他領(lǐng)域。他們飽受資本市場(chǎng)認(rèn)可,以愷望數(shù)據(jù)為例,一年半時(shí)間就是完成了三輪融資。

第三象限:包括中小團(tuán)隊(duì)、企業(yè)自建數(shù)據(jù)管線等

第四象限:場(chǎng)景壁壘更為深厚的行業(yè)玩家

該象限著更為深厚的行業(yè)數(shù)據(jù)壁壘,可為下游用戶提供高質(zhì)量數(shù)據(jù)集或擁有大模型數(shù)據(jù)標(biāo)注團(tuán)隊(duì), 以海天瑞聲為例,不僅是LIama2的唯一中國(guó)伙伴,還發(fā)布超大規(guī)模中文多輪對(duì)話數(shù)據(jù)集DOTS-NLP-216,合作企業(yè)超810家,覆蓋全球近200個(gè)主要語(yǔ)種及方言,有近20年行業(yè)深耕。

圖片

量子位智庫(kù)認(rèn)為,數(shù)據(jù)標(biāo)注處于重新洗牌的時(shí)期,更高質(zhì)量、專業(yè)化的數(shù)據(jù)標(biāo)注成為剛需。

圖片

未來五年,國(guó)內(nèi)AI基礎(chǔ)數(shù)據(jù)服務(wù)將達(dá)到百億規(guī)模,年復(fù)合增長(zhǎng)率在27%左右。

圖片

以下為我國(guó)值得關(guān)注的行業(yè)代表機(jī)構(gòu)TOP20:

圖片

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2016-12-07 09:28:56

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)市場(chǎng)

2021-07-06 06:35:25

人工智能機(jī)器視覺機(jī)器學(xué)習(xí)

2018-10-15 17:06:41

云計(jì)算云服務(wù)智能

2021-04-22 08:25:06

人工智能AI手術(shù)機(jī)器人

2020-09-27 14:58:32

云計(jì)算IT技術(shù)

2021-05-02 22:16:41

區(qū)塊鏈隱私計(jì)算數(shù)據(jù)

2021-02-23 09:40:19

云計(jì)算新基建云原生

2023-02-10 10:35:34

2021-02-23 10:33:49

物聯(lián)網(wǎng)LPWANIoT

2020-08-19 08:04:17

大數(shù)據(jù)IT技術(shù)

2021-03-10 13:34:22

大數(shù)據(jù)市場(chǎng)規(guī)模數(shù)字化

2021-12-15 21:25:45

人工智能AI

2012-03-06 09:19:28

云計(jì)算孫丕恕

2012-04-23 09:58:56

英特爾服務(wù)器市場(chǎng)

2011-03-03 13:28:40

中國(guó)IDC圈賽迪顧問IDC業(yè)務(wù)市場(chǎng)發(fā)展研究

2010-09-08 17:02:53

企業(yè)郵箱263

2021-11-11 11:22:53

工業(yè)物聯(lián)網(wǎng)IIOT物聯(lián)網(wǎng)

2021-03-10 15:26:18

大數(shù)據(jù)市場(chǎng)大數(shù)據(jù)

2021-08-23 19:21:55

大數(shù)據(jù)大數(shù)據(jù)動(dòng)向大數(shù)據(jù)應(yīng)用

2011-06-09 11:31:17

NFC移動(dòng)支付
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)