LeCun看了都說好!Meta AI一次搞定語音、視覺和文本三個(gè)SOTA
人的智識(shí)是「多模態(tài)學(xué)習(xí)」的總和,也就是可以跨越分類界限,理解和移用不同來源或形式的訊息與經(jīng)驗(yàn)。
好比方,一個(gè)人看過自然頻道的虎類紀(jì)錄片,再聽到他人描述「白額大貓呼嘯生風(fēng)」時(shí),能據(jù)此語言描述結(jié)合之前的觀影結(jié)果,知道別人在描述猛虎,不會(huì)貿(mào)然跑去滑鏟。
讓人工智能做到同樣的多模態(tài)學(xué)習(xí)效果,是高挑戰(zhàn)而高回報(bào)的工作。
單獨(dú)處理聲音、圖像、文字?jǐn)?shù)據(jù)的單個(gè)算法再如何亮眼,若不能在不同模態(tài)的數(shù)據(jù)間移用,終究比不上一個(gè)算法,單一基礎(chǔ)框架能通用于圖像識(shí)別、音頻模態(tài)探測、自然語言處理的各種數(shù)據(jù)。
而Meta AI研究組的data2vec算法就做到了。研究組在自己的博客中稱,為了讓機(jī)器學(xué)習(xí)更接近人智,有必要克服現(xiàn)有的自監(jiān)督學(xué)習(xí)算法對(duì)不同模態(tài)數(shù)據(jù)的隔閡。
論文鏈接:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
開源項(xiàng)目:https://github.com/pytorch/fairseq/tree/main/examples/data2vec
為此,LeCun也發(fā)文表示祝賀:「data2vec在ImageNet(視覺)、LibriSpeech(語音識(shí)別)和GLU(NLP)上的結(jié)果均優(yōu)于現(xiàn)有SOTA?!?/span>
data2vec:橫跨CV、NLP和語音
目前主流的人工智能仍然依靠著基于標(biāo)注數(shù)據(jù)進(jìn)行的監(jiān)督學(xué)習(xí)。
這種「監(jiān)督學(xué)習(xí)」在訓(xùn)練專門的模型方面性能極好,在它們訓(xùn)練的任務(wù)上往往性能表現(xiàn)極高。
然而,拄著「拐杖」的AI在標(biāo)注數(shù)據(jù)不足的的領(lǐng)域很容易翻車,而且要悉心地為AI打造一根又一根「拐杖」,有點(diǎn)太費(fèi)科學(xué)家了。
就比如,各國的研究人員在為本國的語音和文本創(chuàng)建大規(guī)模的標(biāo)記數(shù)據(jù)集方面都做了大量工作,但要為地球上的成千上萬種語言做到這一點(diǎn)是不可能的。
這時(shí)候就需要祭出「自監(jiān)督學(xué)習(xí)」了。
自監(jiān)督讓計(jì)算機(jī)能夠通過自己的觀察來找出圖像、語音或文本的結(jié)構(gòu)從而了解世界,而不需要利用標(biāo)注的圖像、文本、音頻和其他數(shù)據(jù)源。但目前自監(jiān)督學(xué)習(xí)算法從圖像、語音、文本和其他模態(tài)中學(xué)習(xí)的方式存在很大差異。
算法會(huì)為每種模態(tài)預(yù)測不同的單位:圖像的像素或視覺標(biāo)注,文字的單詞,以及語音的聲音學(xué)習(xí)目錄。
一組像素與一個(gè)音頻波形或一段文字是非常不同的,正因?yàn)槿绱?,算法設(shè)計(jì)一直與特定的模態(tài)相聯(lián)系,也就意味著算法在每種模態(tài)下的運(yùn)作方式也各不相同。
這種差異一直是自監(jiān)督學(xué)習(xí)想要在更大范圍中應(yīng)用的重要障礙。因?yàn)橐粋€(gè)為理解圖像而設(shè)計(jì)的強(qiáng)大算法不能直接應(yīng)用于另一種模態(tài),例如文本,所以很難以同樣的速度推動(dòng)幾種模態(tài)的發(fā)展。
而data2vec是第一個(gè)適用于多種模態(tài)的高性能自監(jiān)督算法,可分別應(yīng)用于語音、圖像和文本,它的性能超過了以前最好的計(jì)算機(jī)視覺和語音的單一用途算法,而且在NLP任務(wù)上也具有競爭力。
data2vec的提出代表了一種新的整體自監(jiān)督學(xué)習(xí)范式,不僅改進(jìn)了模型在多種模態(tài)下的表現(xiàn),同時(shí)也不依賴于對(duì)比性學(xué)習(xí)或重建輸入實(shí)例。
data2vec通過訓(xùn)練模型來預(yù)測它們自己對(duì)輸入數(shù)據(jù)的表征,而不考慮模態(tài)。
通過這些表征,而不是預(yù)測視覺標(biāo)注、單詞或聲音,單一的算法就可以處理完全不同類型的輸入,從而消除了學(xué)習(xí)任務(wù)中對(duì)特定模態(tài)目標(biāo)的依賴。
然而,想要預(yù)測表征之前,還需要為任務(wù)定義一個(gè)在不同的模態(tài)下都能達(dá)到穩(wěn)健的規(guī)一化特征。
data2vec使用一個(gè)教師模型,首先從圖像、文本或語音語調(diào)中計(jì)算出目標(biāo)表征。接下來,掩碼部分輸入,用學(xué)生模型重復(fù)這一過程,然后預(yù)測教師的潛在表征。
學(xué)生模型必須預(yù)測全部輸入數(shù)據(jù)的表征,盡管它只看到了部分信息。
SOTA三連
計(jì)算機(jī)視覺
作者在ImageNet-1K訓(xùn)練集的圖像上對(duì)data2vec進(jìn)行了預(yù)訓(xùn)練,并使用同一基準(zhǔn)的標(biāo)記數(shù)據(jù)對(duì)得到的圖像分類模型進(jìn)行了微調(diào)。
對(duì)于需要預(yù)測每張圖片單一標(biāo)簽的下游任務(wù),作者通過在均值池表征的基礎(chǔ)上堆疊一個(gè)softmax歸一化的分類器來實(shí)現(xiàn)。
結(jié)果顯示,data2vec超過了之前使用ViT-B和ViT-L的工作。與預(yù)測原始輸入像素、工程圖像特征或視覺標(biāo)注等局部目標(biāo)的方法相比,在掩碼預(yù)測設(shè)置中預(yù)測語境化潛在表征的表現(xiàn)非常好。
此外,data2vec也優(yōu)于目前SOTA的自蒸餾方法。
語音處理
團(tuán)隊(duì)在來自Librispeech(LS-960)的960小時(shí)的語音音頻數(shù)據(jù)上對(duì)data2vec進(jìn)行預(yù)訓(xùn)練。這個(gè)數(shù)據(jù)集包含了來自英語有聲讀物的相對(duì)清晰的音頻。
為了了解不同資源環(huán)境下的性能,作者使用不同數(shù)量的標(biāo)注數(shù)據(jù)對(duì)自動(dòng)語音識(shí)別模型進(jìn)行了微調(diào),范圍從10分鐘到960小時(shí)。
通過和兩種依賴于離散語音單元的語音表征學(xué)習(xí)算法wav2vec 2.0和HuBERT進(jìn)行比較。結(jié)果顯示,data2vec在所有的標(biāo)注數(shù)據(jù)設(shè)置中都有了改進(jìn),其中10分鐘標(biāo)注數(shù)據(jù)的收益最大(相對(duì)誤碼率提高20%)。
此外,當(dāng)使用豐富的語境化目標(biāo)時(shí),在預(yù)訓(xùn)練期間學(xué)習(xí)語境化目標(biāo)就可以提高性能,而不需要學(xué)習(xí)離散的單元。
自然語言處理
data2vec采用了與BERT相同的訓(xùn)練設(shè)置,在書籍語料庫和英語維基百科數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,更新量為100萬,batch大小為256個(gè)序列。
團(tuán)隊(duì)通用語言理解評(píng)估(GLUE)基準(zhǔn)上進(jìn)行測試,其中包括自然語言推理(MNLI、QLNLI、RTE)、句子相似性(MRPC、QQP和STS-B)、語法性(CoLA)和情感分析(SST-2)等任務(wù)。
作者在每個(gè)任務(wù)提供的標(biāo)注數(shù)據(jù)上分別對(duì)data2vec進(jìn)行微調(diào)。結(jié)果顯示,data2vec優(yōu)于RoBERTa的基線。
data2vec是第一個(gè)成功的預(yù)訓(xùn)練NLP模型,它不使用離散單位(詞、子詞、字符或字節(jié))作為訓(xùn)練目標(biāo),而是預(yù)測在整個(gè)未掩碼的文本序列中,從自注意中出現(xiàn)的上下文潛在表征。
這使得學(xué)習(xí)任務(wù)中,模型需要預(yù)測具有當(dāng)前文本序列特定屬性的目標(biāo),而不是對(duì)特定離散單元出現(xiàn)的每個(gè)文本序列通用的表征。
此外,訓(xùn)練目標(biāo)不是一個(gè)封閉的詞匯表。由此,模型可以自己定義它認(rèn)為合適的目標(biāo)類型。
自監(jiān)督:從觀察周圍世界中學(xué)習(xí)
相較于2021年谷歌為達(dá)到類似目標(biāo),7月推出的Perceiver與10月放風(fēng)的Pathways,Meta的data2vec都有優(yōu)勢:Pathways是沒具體細(xì)節(jié)與論文的行業(yè)公關(guān)動(dòng)作,而Perceiver還在基于傳統(tǒng)的標(biāo)記數(shù)據(jù)、有監(jiān)督學(xué)習(xí)的路徑。
Meta AI研究組在總結(jié)研究時(shí)表示,data2vec有眾多落地可能,讓AI通過錄像、錄音、文章的結(jié)合,能學(xué)會(huì)之前對(duì)于機(jī)器而言太過復(fù)雜的技能,比如烤面包的各種方式、踢足球的各種技術(shù)。
這些技能如同語音識(shí)別地球上所有的語言一樣,用標(biāo)注數(shù)據(jù)來教會(huì)AI,成本太高。而AI未來用通行的架構(gòu),學(xué)會(huì)跨越數(shù)據(jù)模態(tài)的通用經(jīng)驗(yàn),來舉一反三完成不同任務(wù),這個(gè)目標(biāo)讓data2vec拉近了。
此外,研究團(tuán)隊(duì)還表示:「實(shí)驗(yàn)處理的潛在表征變量不是三模態(tài)數(shù)據(jù)的混合編碼。我們還是在單一過程中處理單一模態(tài)數(shù)據(jù)的。不過本項(xiàng)目的主創(chuàng)新點(diǎn),是data2vec對(duì)不同模態(tài)數(shù)據(jù)的處理過程基本一致。這是之前沒人做到的,也更近于神經(jīng)生物學(xué)家描述的人類視聽學(xué)習(xí)過程?!?/span>
不過,data2vec的多模態(tài)通用神經(jīng)網(wǎng)絡(luò)并非沒有短板:它得依賴數(shù)據(jù)的模態(tài)標(biāo)記。圖像、語音、文字這些數(shù)據(jù),都得先預(yù)處理得到模態(tài)分類。然后將這些數(shù)據(jù)類型的線索喂給data2vec,用論文中的原話說,這叫「小型模態(tài)相關(guān)的編碼器輸入」。
而真正的人類智識(shí)是不需要先預(yù)處理數(shù)據(jù)、分類「此為文字來源知識(shí)、彼為二大爺口述訊息」的。
作者介紹
Wei-Ning Hsu 徐煒寧,Meta人工智能研究組高級(jí)研究科學(xué)家,博士畢業(yè)于MIT,研究方向?yàn)楸碚鲗W(xué)習(xí)、自監(jiān)督學(xué)習(xí)、語音識(shí)別。
Jiatao Gu 顧佳濤,Meta人工智能研究組研究科學(xué)家,香港大學(xué)電子工程博士,研究方向?yàn)樽匀徽Z言處理與深度學(xué)習(xí)。
Qiantong Xu,Meta人工智能研究組高級(jí)研究工程師,研究方向?yàn)槁暡ńEc對(duì)話模態(tài)識(shí)別的語言建模。