自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智能標(biāo)注原理揭秘 一文讀懂人工智能如何解決標(biāo)注難題

人工智能
無論是在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域還是現(xiàn)今炙手可熱的深度學(xué)習(xí)領(lǐng)域,基于訓(xùn)練樣本有明確標(biāo)簽或結(jié)果的監(jiān)督學(xué)習(xí)仍然是一種主要的模型訓(xùn)練方式。

無論是在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域還是現(xiàn)今炙手可熱的深度學(xué)習(xí)領(lǐng)域,基于訓(xùn)練樣本有明確標(biāo)簽或結(jié)果的監(jiān)督學(xué)習(xí)仍然是一種主要的模型訓(xùn)練方式。尤其是深度學(xué)習(xí)領(lǐng)域,需要更多數(shù)據(jù)以提升模型效果。目前,已經(jīng)有一些規(guī)模較大的公開數(shù)據(jù)集,如ImageNet,COCO等。對(duì)于深度學(xué)習(xí)入門者,這些公開數(shù)據(jù)集可以提供非常大的幫助;但是對(duì)于大部分企業(yè)開發(fā)者,特別在醫(yī)學(xué)成像、自動(dòng)駕駛、工業(yè)質(zhì)檢等領(lǐng)域中,他們更需要利用專業(yè)領(lǐng)域的實(shí)際業(yè)務(wù)數(shù)據(jù)定制AI模型應(yīng)用,以保證其能夠更好地應(yīng)用在業(yè)務(wù)中。因此,業(yè)務(wù)場(chǎng)景數(shù)據(jù)的采集和標(biāo)注也是在實(shí)際AI模型開發(fā)過程中必不可少的重要環(huán)節(jié)。

數(shù)據(jù)標(biāo)注的質(zhì)量和規(guī)模通常是提升AI模型應(yīng)用效果的重要因素,然而完全通過人力手動(dòng)標(biāo)注數(shù)據(jù)建立一個(gè)高質(zhì)量、大規(guī)模專業(yè)領(lǐng)域數(shù)據(jù)集卻并不容易:標(biāo)注人員的培訓(xùn)與手工標(biāo)注成本高、耗時(shí)長。為解決此問題,我們可以利用主動(dòng)學(xué)習(xí)的方法,采用“Human-in-the-loop”的交互式框架(圖1)進(jìn)行數(shù)據(jù)標(biāo)注,以有效減少人工數(shù)據(jù)標(biāo)注量。

圖1 基于主動(dòng)學(xué)習(xí)的“Human-in-the-loop”交互式數(shù)據(jù)標(biāo)注框架

主動(dòng)學(xué)習(xí)(Active Learning, AL)是一種挑選具有高信息度數(shù)據(jù)的有效方式,它將數(shù)據(jù)標(biāo)注過程呈現(xiàn)為學(xué)習(xí)算法和用戶之間的交互。其中,算法負(fù)責(zé)挑選對(duì)訓(xùn)練AI模型價(jià)值更高的樣本,而用戶則標(biāo)注那些挑選出來的樣本。如“Human-in-the-loop”交互式數(shù)據(jù)標(biāo)注框架,通過用戶已標(biāo)注的一部分?jǐn)?shù)據(jù)來訓(xùn)練AI模型,通過此模型來標(biāo)注剩余數(shù)據(jù),再從中篩選出AI模型標(biāo)注較為困難的數(shù)據(jù)進(jìn)行人工標(biāo)注,再將這些數(shù)據(jù)用于模型的優(yōu)化。幾輪過后,用于數(shù)據(jù)標(biāo)注的AI模型將會(huì)具備較高的精度,更好地進(jìn)行數(shù)據(jù)標(biāo)注。以圖像分類問題舉例,首先,人工挑選并標(biāo)注一部分圖像數(shù)據(jù),訓(xùn)練初始模型,然后利用訓(xùn)練的模型預(yù)測(cè)其余未標(biāo)注的數(shù)據(jù),再通過“主動(dòng)學(xué)習(xí)”中的“查詢方法”挑選出模型比較難分辨類別的數(shù)據(jù),再人為修正這些“難”數(shù)據(jù)的標(biāo)簽并加入訓(xùn)練集中再次微調(diào)(Fine-tuning)訓(xùn)練模型。“查詢方法”是主動(dòng)學(xué)習(xí)的核心之一,最常見的“查詢方法”有基于不確定性的樣本查詢策略和基于多樣性的樣本查詢策略。

基于不確定性的樣本查詢策略可查詢出深度學(xué)習(xí)模型預(yù)測(cè)時(shí),靠近決策邊界的樣本。以二分類問題舉例,當(dāng)一個(gè)未標(biāo)注樣本被預(yù)測(cè)為任一標(biāo)簽的概率都是50%時(shí),則該樣本對(duì)于預(yù)測(cè)模型而言是“不確定”的,極有可能被錯(cuò)誤分類。要注意的是,主動(dòng)學(xué)習(xí)是一個(gè)迭代過程,每次迭代,模型都會(huì)接收認(rèn)為修正后的標(biāo)注數(shù)據(jù)微調(diào)模型,通過這個(gè)過程直接改變模型決策的邊界,提高分類的正確率。

基于多樣性的查詢策略,可實(shí)現(xiàn)對(duì)當(dāng)前深度學(xué)習(xí)模型下狀態(tài)未知樣本的查詢。將通過多樣性查詢挑選出的數(shù)據(jù)加入訓(xùn)練集,可豐富訓(xùn)練集的特征組合,提升模型的泛化能力。模型學(xué)習(xí)過的數(shù)據(jù)特征越豐富,泛化能力越強(qiáng),預(yù)測(cè)模型適用的場(chǎng)景也越廣。

為解決大數(shù)據(jù)量標(biāo)注的痛點(diǎn),基于主動(dòng)學(xué)習(xí)且融合多樣查詢策略的智能標(biāo)注AI解決方案應(yīng)運(yùn)而生。通過EasyDL平臺(tái)使用智能標(biāo)注后,開發(fā)者們只需標(biāo)注數(shù)據(jù)集中30%左右的數(shù)據(jù),即可啟動(dòng)智能標(biāo)注在EasyDL后臺(tái)自動(dòng)標(biāo)注剩余數(shù)據(jù),再返回少量后臺(tái)難以確定的數(shù)據(jù)再次進(jìn)行人工標(biāo)注,同時(shí)提升自動(dòng)標(biāo)注的準(zhǔn)確性,經(jīng)過幾輪之后,在實(shí)際項(xiàng)目測(cè)試中,智能標(biāo)注功能可以幫助用戶節(jié)省70%的數(shù)據(jù)標(biāo)注量,極大地減少數(shù)據(jù)標(biāo)注中的人力成本和時(shí)間成本。

EasyDL零門檻AI開發(fā)平臺(tái),面向企業(yè)開發(fā)者提供智能標(biāo)注、模型訓(xùn)練、服務(wù)部署等全流程功能,針對(duì)AI模型開發(fā)過程中繁雜的工作,提供便捷高效的平臺(tái)化解決方案。EasyDL面向不同人群提供了經(jīng)典版、專業(yè)版、行業(yè)版三種產(chǎn)品形態(tài),其中EasyDL專業(yè)版支持深度開發(fā)高精度業(yè)務(wù)模型,內(nèi)置了豐富的大規(guī)模預(yù)訓(xùn)練模型,僅需少量數(shù)據(jù)即可達(dá)到優(yōu)異的模型效果。目前,EasyDL的智能標(biāo)注功能已支持計(jì)算機(jī)視覺CV方向的物體檢測(cè)模型、自然語言處理NLP方向的文本分類模型兩大方向的數(shù)據(jù)標(biāo)注。選擇EasyDL專業(yè)版模型定制,點(diǎn)擊“智能標(biāo)注“即可進(jìn)入。使用方法也很簡單,共為三步:

  • Step1啟動(dòng)智能標(biāo)注

在“數(shù)據(jù)管理/標(biāo)注”上傳完訓(xùn)練數(shù)據(jù)集后,即可激活“創(chuàng)建智能標(biāo)注任務(wù)”按鈕(圖2),點(diǎn)擊該按鈕后,進(jìn)入數(shù)據(jù)集選擇。需要注意的是,系統(tǒng)將自動(dòng)對(duì)選擇的數(shù)據(jù)集進(jìn)行校驗(yàn)。校驗(yàn)規(guī)則如下:

圖像數(shù)據(jù)集:確保每個(gè)標(biāo)簽的標(biāo)注框數(shù)都超過10個(gè)。

文本數(shù)據(jù)集:數(shù)據(jù)集中已標(biāo)注數(shù)據(jù)量超過600條;每個(gè)標(biāo)注標(biāo)簽的數(shù)據(jù)量超過50條;未標(biāo)注數(shù)據(jù)的數(shù)據(jù)量超過600條。

以上圖像和文本數(shù)據(jù)集之所以采取不同的校驗(yàn)規(guī)則,是因?yàn)樵趯?shí)際場(chǎng)景下,文本與圖像的數(shù)據(jù)集獲取方式及數(shù)據(jù)規(guī)模區(qū)別較大,且智能標(biāo)注后端AI模型訓(xùn)練的啟動(dòng)樣本數(shù)量不一。

點(diǎn)擊“啟動(dòng)智能標(biāo)注”,進(jìn)入數(shù)據(jù)校驗(yàn)階段,若校驗(yàn)不通過,會(huì)出現(xiàn)“智能標(biāo)注啟動(dòng)失敗”的提示;若校驗(yàn)通過,則進(jìn)入篩選數(shù)據(jù)階段,用戶需稍作等待。

圖2 創(chuàng)建智能標(biāo)注任務(wù)

  • Step2標(biāo)注部分?jǐn)?shù)據(jù)

系統(tǒng)會(huì)自動(dòng)從未標(biāo)注數(shù)據(jù)集中篩選出最具有代表性、也是最需要優(yōu)先標(biāo)注的樣本數(shù)據(jù)。用戶需要人工標(biāo)注這些推薦的樣本數(shù)據(jù),為了提高標(biāo)注效率,系統(tǒng)也會(huì)提供預(yù)標(biāo)注供用戶修改確認(rèn)。在圖像智能標(biāo)注中,用戶勾選右上角的“顯示預(yù)標(biāo)注”開啟該輔助功能(圖3),點(diǎn)擊“滿意預(yù)標(biāo)注結(jié)果”即可對(duì)預(yù)標(biāo)注結(jié)果進(jìn)行確認(rèn);在文本智能標(biāo)注中,系統(tǒng)會(huì)自動(dòng)顯示預(yù)標(biāo)注標(biāo)簽,點(diǎn)擊每一條文本右側(cè)的“確認(rèn)”或右上角的“本頁全部確認(rèn)”對(duì)預(yù)標(biāo)注進(jìn)行確認(rèn)(圖4)。

確認(rèn)所有推薦數(shù)據(jù)的預(yù)標(biāo)注后,用戶可以自主選擇是否進(jìn)行下一輪數(shù)據(jù)篩選。圖像智能標(biāo)注中,若用戶不中止智能標(biāo)注,則系統(tǒng)會(huì)自動(dòng)進(jìn)行下一輪;文本智能標(biāo)注中,由于文本數(shù)據(jù)集規(guī)模一般較大,確認(rèn)數(shù)據(jù)預(yù)標(biāo)注的人力成本較高,為了提升用戶體驗(yàn),系統(tǒng)不默認(rèn)進(jìn)入下一輪迭代,用戶可點(diǎn)擊右上角的“優(yōu)化智能標(biāo)注結(jié)果”進(jìn)行下一輪篩選(圖5)。通過多輪篩選,數(shù)據(jù)預(yù)標(biāo)注準(zhǔn)確性也會(huì)不斷提升。為了保證數(shù)據(jù)標(biāo)注智能,建議用戶至少進(jìn)行一輪的數(shù)據(jù)篩選或“優(yōu)化智能標(biāo)注”。

圖3 圖像智能標(biāo)注

 

圖4 文本智能標(biāo)注

 

圖5 文本智能標(biāo)注進(jìn)入數(shù)據(jù)篩選優(yōu)化迭代

  • Step3結(jié)束智能標(biāo)注

當(dāng)用戶覺得當(dāng)前推薦數(shù)據(jù)的預(yù)標(biāo)注已足夠準(zhǔn)確,不再進(jìn)行下一輪數(shù)據(jù)標(biāo)注推薦篩選,或者系統(tǒng)自動(dòng)判斷當(dāng)前標(biāo)注的數(shù)據(jù)已足夠時(shí),則進(jìn)入結(jié)束智能標(biāo)注階段。在圖像智能標(biāo)注中,系統(tǒng)會(huì)彈出提示(圖6),選擇“一鍵標(biāo)注”系統(tǒng)會(huì)自動(dòng)標(biāo)注剩余未標(biāo)注數(shù)據(jù),選擇“立即訓(xùn)練”則停止智能標(biāo)注,之后可以利用已確認(rèn)的標(biāo)注數(shù)據(jù)去訓(xùn)練模型;在文本智能標(biāo)注中,不選擇“優(yōu)化標(biāo)注結(jié)果”則認(rèn)為停止智能標(biāo)注,系統(tǒng)自動(dòng)標(biāo)注所有未標(biāo)注數(shù)據(jù),并歸為“已標(biāo)注·智能”數(shù)據(jù)集,該類數(shù)據(jù)與“已標(biāo)注·人工”均可用于模型訓(xùn)練。

圖6 結(jié)束圖像智能標(biāo)注

圖7 EasyDL智能標(biāo)注使用流程圖

在智能標(biāo)注功能的加持之下,重復(fù)枯燥的標(biāo)注功能都交給AI模型,大大降低了時(shí)間與人力成本。在數(shù)據(jù)方面,EasyDL中的EasyData智能數(shù)據(jù)服務(wù)平臺(tái),提供覆蓋采集、清洗、標(biāo)注、加工等一站式數(shù)據(jù)處理功能,并與模型訓(xùn)練環(huán)節(jié)無縫對(duì)接,通過數(shù)據(jù)閉環(huán)功能支持高效的模型迭代。

百度搜索“EasyDL”或直接訪問:https://ai.baidu.com/easydl/ 體驗(yàn)智能標(biāo)注,開發(fā)你的高精度業(yè)務(wù)模型吧!

 

 

責(zé)任編輯:張燕妮 來源: 51CTO
相關(guān)推薦

2023-06-19 13:57:00

數(shù)據(jù)系統(tǒng)

2022-11-26 00:00:00

人工智能存儲(chǔ)數(shù)據(jù)

2019-01-16 09:56:27

2022-10-27 10:58:49

人工智能AI

2023-03-27 11:33:37

人工智能物聯(lián)網(wǎng)

2021-08-19 10:38:05

人工智能AI

2022-11-04 08:00:00

2021-06-28 10:00:15

人工智能數(shù)據(jù)中心AI

2018-08-28 16:31:38

人工智能AI人類

2018-05-21 10:20:22

人工智能機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2020-06-28 14:32:11

數(shù)據(jù)標(biāo)注人工智能AI

2021-08-09 11:29:59

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-05-24 10:07:15

智能汽車

2018-07-22 15:38:18

人工智能AI商業(yè)化

2024-04-09 14:04:38

人工智能機(jī)器學(xué)習(xí)

2016-09-20 10:26:24

人工智能大數(shù)據(jù)

2021-01-20 13:37:00

數(shù)據(jù)標(biāo)注人工智能智能交通

2024-03-20 13:16:25

2021-02-05 23:29:20

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-02-06 10:30:12

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)