自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)再次統(tǒng)一!Meta發(fā)布自監(jiān)督算法data2vec 2.0:訓(xùn)練效率最高提升16倍!

人工智能 新聞
效率更高的多模態(tài)自監(jiān)督學(xué)習(xí)框架data2vec 2.0來啦!

近幾年人工智能領(lǐng)域的突破大多由自監(jiān)督學(xué)習(xí)推動,比如BERT中提出的MLM (Masked Language Model) ,通過將文本中的部分單詞遮蓋后重新預(yù)測,使得海量無標(biāo)記文本數(shù)據(jù)也能用來訓(xùn)練模型,自此開啟了大規(guī)模預(yù)訓(xùn)練模型的新時代。但自監(jiān)督學(xué)習(xí)算法也有明顯的局限性,通常只適用于單一模態(tài)(如圖像、文本、語音等)的數(shù)據(jù),并且需要大量的算力從海量數(shù)據(jù)中進(jìn)行學(xué)習(xí)。相比之下,人類的學(xué)習(xí)效率要顯著高于當(dāng)前的AI模型,并且可以從不同類型的數(shù)據(jù)中進(jìn)行學(xué)習(xí)。

2022年1月,Meta AI發(fā)布了自監(jiān)督學(xué)習(xí)框架data2vec,將三個模態(tài)的數(shù)據(jù)(語音、視覺和文本)通過一個框架整合起來,大有一統(tǒng)多模態(tài)的趨勢。最近Meta AI發(fā)布了data2cec 2.0版本,主要在性能方面對上一代進(jìn)行了改進(jìn):在精度相同的情況下,訓(xùn)練速度相比其他算法最高提升了16倍!

圖片

論文鏈接:??https://ai.facebook.com/research/publications/efficient-self-supervised-learning-with-contextualized-target-representations-for-vision-speech-and-language

代碼鏈接:??https://github.com/facebookresearch/fairseq/tree/main/examples/data2vec

data2vec 1.0

目前來說,大部分機(jī)器學(xué)習(xí)模型仍然是基于有監(jiān)督學(xué)習(xí)的模式,需要有專門的標(biāo)注人員對目標(biāo)數(shù)據(jù)打標(biāo)簽,但對于某些任務(wù)來說(比如地球上的幾千種人類語言),收集標(biāo)注數(shù)據(jù)是不可行的。

相比之下,自監(jiān)督學(xué)習(xí)不需要告訴模型正確和錯誤,而是讓機(jī)器通過觀察世界來學(xué)習(xí)圖像、語音和文本的結(jié)構(gòu)。相關(guān)的研究成果促進(jìn)了語音(如,wave2vec 2.0)、計算機(jī)視覺(例如,掩碼自編碼器)和自然語言處理(例如,BERT)等領(lǐng)域的發(fā)展。

data2vec的主要思路就是先建立一個教師網(wǎng)絡(luò),首先計算來自圖像、文本或語音的目標(biāo)表征。然后對數(shù)據(jù)進(jìn)行掩碼遮蓋掉部分輸入,并用一個學(xué)生網(wǎng)絡(luò)重復(fù)該過程預(yù)測教師模型得到的表征。

圖片

也就是說,學(xué)生模型只能在接受「不完整輸入信息」的同時預(yù)測「完整輸入數(shù)據(jù)」的表示。為了保證兩個模型的一致性,二者的參數(shù)時共享的,但在訓(xùn)練初期會讓Teacher模型的參數(shù)更新更快。在實驗結(jié)果上,data2vec在語音、視覺、文本等任務(wù)上對比baseline模型性能提升明顯。?

data2vec 2.0

data2vec提出了一個通用的自監(jiān)督學(xué)習(xí)框架統(tǒng)一了語音、視覺和語言三個模態(tài)數(shù)據(jù)的學(xué)習(xí),而data2vec2.0主要解決的痛點就是構(gòu)建自監(jiān)督模型需要大量的GPU做算力支撐才能完成訓(xùn)練。與最初的 data2vec 算法類似,data2vec 2.0預(yù)測數(shù)據(jù)的上下文化的表征(contextualized representations),或是神經(jīng)網(wǎng)絡(luò)的層次,而非預(yù)測圖像的像素、文本段中的詞或語音。

圖片

與常見的其他算法不同,這些所謂的目標(biāo)表征是上下文化的,這意味著算法需要將整個訓(xùn)練示例考慮在內(nèi)。

比如說,模型學(xué)習(xí)單詞 bank 的表征是基于包含bank的整個句子,從而更容易推算出單詞的正確含義,比如區(qū)分具體指代「金融機(jī)構(gòu)」還是「河邊的土地」。研究人員認(rèn)為上下文化的目標(biāo)會促進(jìn)更豐富的學(xué)習(xí)任務(wù),并使 data2vec 2.0比其他算法學(xué)習(xí)得更快。

data2vec 2.0通過以下三種方式提高了原始 data2vec 算法的效率:

1、為特定訓(xùn)練樣例構(gòu)建目標(biāo)表征,并將該表征重用在掩碼版本上。在掩碼版本中,訓(xùn)練樣例中的不同部分會被隨機(jī)隱藏。隨后兩個版本學(xué)到的表征都會輸入到學(xué)生模型中,為不同的掩碼版本預(yù)測相同的上下文化的目標(biāo)表征,從而有效地分?jǐn)偭藙?chuàng)建目標(biāo)表征所需的計算量。

2、類似于掩碼自編碼器(masked autoencoder, MAE),學(xué)生模型中的編碼器網(wǎng)絡(luò)并不運訓(xùn)練樣例中的空白部分(blanked out)。在圖像實驗中,大約80%的部分都是空白,從而顯著節(jié)省了計算周期。

3、使用了一個更有效的解碼器模型,不再依賴于Transformer網(wǎng)絡(luò),而是依賴于一個多層卷積網(wǎng)絡(luò)。

實驗部分

為了更直觀地理解 data2vec 2.0 比 data2vec 和其他同類算法的效率要高多少,研究人員在計算機(jī)視覺、語音和文本任務(wù)相關(guān)的基準(zhǔn)測試中進(jìn)行了廣泛的實驗。實驗中主要考慮最終的精確度以及預(yù)訓(xùn)練模型所需的時間,實驗環(huán)境都是在相同的硬件上(GPU 的型號、數(shù)量等)來測量算法的運行速度。

圖片

在計算機(jī)視覺任務(wù)上,研究人員在標(biāo)準(zhǔn) ImageNet-1K 圖像分類基準(zhǔn)上評估了 data2vec 2.0,模型通過該數(shù)據(jù)集可以學(xué)習(xí)圖像表征。實驗結(jié)果顯示,data2vec 2.0可以等同于掩碼自編碼器(MAE)的準(zhǔn)確性,但是速度要快16倍。

如果繼續(xù)給data2vec 2.0算法更多的運行時間,它可以達(dá)到更高的精度,并且仍然會比MAE的速度快。

圖片

在語音任務(wù)上,研究人員在 LibriLanguage 語音識別基準(zhǔn)上進(jìn)行了測試,它的準(zhǔn)確性是 wave2vec 2.0的11倍以上。

圖片

對于自然語言處理任務(wù),研究人員在通用語言理解評估(GLUE)基準(zhǔn)上評估了 data2vec 2.0,僅需一半的訓(xùn)練時間即可達(dá)到與 BERT 的重新實現(xiàn) RoBERTa 相同的精度。

圖片


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-01-21 15:33:56

架構(gòu)模型AI

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2023-04-13 15:25:14

模型

2025-03-17 09:12:00

訓(xùn)練模型AI

2022-01-06 09:57:02

數(shù)據(jù)計算機(jī)神經(jīng)網(wǎng)絡(luò)

2022-08-30 20:50:48

阿里云飛天人工智能

2024-07-30 09:14:13

模型數(shù)據(jù)

2024-07-01 20:45:55

2024-07-04 10:23:51

2023-08-29 18:55:25

2023-06-27 13:49:00

GPU通信RLHF

2022-03-21 17:56:59

大模型訓(xùn)練訓(xùn)練框架

2022-03-21 15:06:10

模型字節(jié)跳動框架

2023-05-23 14:01:29

模型開源

2022-07-06 13:06:29

Meta神經(jīng)網(wǎng)絡(luò)架構(gòu)自監(jiān)督學(xué)習(xí)

2024-08-26 09:00:00

2024-04-19 09:26:43

人工智能Llama 3 模型Meta

2024-11-02 10:28:03

2025-04-08 09:10:00

模型訓(xùn)練AI
點贊
收藏

51CTO技術(shù)棧公眾號