自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LeCun看了都說好!Meta AI一次搞定語音、視覺和文本三個(gè)SOTA

人工智能 新聞
人工智能科學(xué)伊始,讓機(jī)器「像人一樣學(xué)習(xí)」始終是所有從業(yè)者的目標(biāo)。人的智能基于多種感官與語言的通用處理能力,一直有研究者致力讓機(jī)器做到此效果。

人的智識(shí)是「多模態(tài)學(xué)習(xí)」的總和,也就是可以跨越分類界限,理解和移用不同來源或形式的訊息與經(jīng)驗(yàn)。

好比方,一個(gè)人看過自然頻道的虎類紀(jì)錄片,再聽到他人描述「白額大貓呼嘯生風(fēng)」時(shí),能據(jù)此語言描述結(jié)合之前的觀影結(jié)果,知道別人在描述猛虎,不會(huì)貿(mào)然跑去滑鏟。

讓人工智能做到同樣的多模態(tài)學(xué)習(xí)效果,是高挑戰(zhàn)而高回報(bào)的工作。

單獨(dú)處理聲音、圖像、文字?jǐn)?shù)據(jù)的單個(gè)算法再如何亮眼,若不能在不同模態(tài)的數(shù)據(jù)間移用,終究比不上一個(gè)算法,單一基礎(chǔ)框架能通用于圖像識(shí)別、音頻模態(tài)探測、自然語言處理的各種數(shù)據(jù)。

而Meta AI研究組的data2vec算法就做到了。研究組在自己的博客中稱,為了讓機(jī)器學(xué)習(xí)更接近人智,有必要克服現(xiàn)有的自監(jiān)督學(xué)習(xí)算法對(duì)不同模態(tài)數(shù)據(jù)的隔閡。

論文鏈接:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

開源項(xiàng)目:https://github.com/pytorch/fairseq/tree/main/examples/data2vec

為此,LeCun也發(fā)文表示祝賀:「data2vec在ImageNet(視覺)、LibriSpeech(語音識(shí)別)和GLU(NLP)上的結(jié)果均優(yōu)于現(xiàn)有SOTA?!?/span>

data2vec:橫跨CV、NLP和語音

目前主流的人工智能仍然依靠著基于標(biāo)注數(shù)據(jù)進(jìn)行的監(jiān)督學(xué)習(xí)。

這種「監(jiān)督學(xué)習(xí)」在訓(xùn)練專門的模型方面性能極好,在它們訓(xùn)練的任務(wù)上往往性能表現(xiàn)極高。

然而,拄著「拐杖」的AI在標(biāo)注數(shù)據(jù)不足的的領(lǐng)域很容易翻車,而且要悉心地為AI打造一根又一根「拐杖」,有點(diǎn)太費(fèi)科學(xué)家了。

就比如,各國的研究人員在為本國的語音和文本創(chuàng)建大規(guī)模的標(biāo)記數(shù)據(jù)集方面都做了大量工作,但要為地球上的成千上萬種語言做到這一點(diǎn)是不可能的。

這時(shí)候就需要祭出「自監(jiān)督學(xué)習(xí)」了。

自監(jiān)督讓計(jì)算機(jī)能夠通過自己的觀察來找出圖像、語音或文本的結(jié)構(gòu)從而了解世界,而不需要利用標(biāo)注的圖像、文本、音頻和其他數(shù)據(jù)源。但目前自監(jiān)督學(xué)習(xí)算法從圖像、語音、文本和其他模態(tài)中學(xué)習(xí)的方式存在很大差異。

算法會(huì)為每種模態(tài)預(yù)測不同的單位:圖像的像素或視覺標(biāo)注,文字的單詞,以及語音的聲音學(xué)習(xí)目錄。

一組像素與一個(gè)音頻波形或一段文字是非常不同的,正因?yàn)槿绱?,算法設(shè)計(jì)一直與特定的模態(tài)相聯(lián)系,也就意味著算法在每種模態(tài)下的運(yùn)作方式也各不相同。

這種差異一直是自監(jiān)督學(xué)習(xí)想要在更大范圍中應(yīng)用的重要障礙。因?yàn)橐粋€(gè)為理解圖像而設(shè)計(jì)的強(qiáng)大算法不能直接應(yīng)用于另一種模態(tài),例如文本,所以很難以同樣的速度推動(dòng)幾種模態(tài)的發(fā)展。

而data2vec是第一個(gè)適用于多種模態(tài)的高性能自監(jiān)督算法,可分別應(yīng)用于語音、圖像和文本,它的性能超過了以前最好的計(jì)算機(jī)視覺和語音的單一用途算法,而且在NLP任務(wù)上也具有競爭力。

data2vec的提出代表了一種新的整體自監(jiān)督學(xué)習(xí)范式,不僅改進(jìn)了模型在多種模態(tài)下的表現(xiàn),同時(shí)也不依賴于對(duì)比性學(xué)習(xí)或重建輸入實(shí)例。

data2vec通過訓(xùn)練模型來預(yù)測它們自己對(duì)輸入數(shù)據(jù)的表征,而不考慮模態(tài)。

通過這些表征,而不是預(yù)測視覺標(biāo)注、單詞或聲音,單一的算法就可以處理完全不同類型的輸入,從而消除了學(xué)習(xí)任務(wù)中對(duì)特定模態(tài)目標(biāo)的依賴。

然而,想要預(yù)測表征之前,還需要為任務(wù)定義一個(gè)在不同的模態(tài)下都能達(dá)到穩(wěn)健的規(guī)一化特征。

data2vec使用一個(gè)教師模型,首先從圖像、文本或語音語調(diào)中計(jì)算出目標(biāo)表征。接下來,掩碼部分輸入,用學(xué)生模型重復(fù)這一過程,然后預(yù)測教師的潛在表征。

學(xué)生模型必須預(yù)測全部輸入數(shù)據(jù)的表征,盡管它只看到了部分信息。

SOTA三連

計(jì)算機(jī)視覺

作者在ImageNet-1K訓(xùn)練集的圖像上對(duì)data2vec進(jìn)行了預(yù)訓(xùn)練,并使用同一基準(zhǔn)的標(biāo)記數(shù)據(jù)對(duì)得到的圖像分類模型進(jìn)行了微調(diào)。

對(duì)于需要預(yù)測每張圖片單一標(biāo)簽的下游任務(wù),作者通過在均值池表征的基礎(chǔ)上堆疊一個(gè)softmax歸一化的分類器來實(shí)現(xiàn)。

結(jié)果顯示,data2vec超過了之前使用ViT-B和ViT-L的工作。與預(yù)測原始輸入像素、工程圖像特征或視覺標(biāo)注等局部目標(biāo)的方法相比,在掩碼預(yù)測設(shè)置中預(yù)測語境化潛在表征的表現(xiàn)非常好。

此外,data2vec也優(yōu)于目前SOTA的自蒸餾方法。

語音處理

團(tuán)隊(duì)在來自Librispeech(LS-960)的960小時(shí)的語音音頻數(shù)據(jù)上對(duì)data2vec進(jìn)行預(yù)訓(xùn)練。這個(gè)數(shù)據(jù)集包含了來自英語有聲讀物的相對(duì)清晰的音頻。

為了了解不同資源環(huán)境下的性能,作者使用不同數(shù)量的標(biāo)注數(shù)據(jù)對(duì)自動(dòng)語音識(shí)別模型進(jìn)行了微調(diào),范圍從10分鐘到960小時(shí)。

通過和兩種依賴于離散語音單元的語音表征學(xué)習(xí)算法wav2vec 2.0和HuBERT進(jìn)行比較。結(jié)果顯示,data2vec在所有的標(biāo)注數(shù)據(jù)設(shè)置中都有了改進(jìn),其中10分鐘標(biāo)注數(shù)據(jù)的收益最大(相對(duì)誤碼率提高20%)。

此外,當(dāng)使用豐富的語境化目標(biāo)時(shí),在預(yù)訓(xùn)練期間學(xué)習(xí)語境化目標(biāo)就可以提高性能,而不需要學(xué)習(xí)離散的單元。

自然語言處理

data2vec采用了與BERT相同的訓(xùn)練設(shè)置,在書籍語料庫和英語維基百科數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,更新量為100萬,batch大小為256個(gè)序列。

團(tuán)隊(duì)通用語言理解評(píng)估(GLUE)基準(zhǔn)上進(jìn)行測試,其中包括自然語言推理(MNLI、QLNLI、RTE)、句子相似性(MRPC、QQP和STS-B)、語法性(CoLA)和情感分析(SST-2)等任務(wù)。

作者在每個(gè)任務(wù)提供的標(biāo)注數(shù)據(jù)上分別對(duì)data2vec進(jìn)行微調(diào)。結(jié)果顯示,data2vec優(yōu)于RoBERTa的基線。

data2vec是第一個(gè)成功的預(yù)訓(xùn)練NLP模型,它不使用離散單位(詞、子詞、字符或字節(jié))作為訓(xùn)練目標(biāo),而是預(yù)測在整個(gè)未掩碼的文本序列中,從自注意中出現(xiàn)的上下文潛在表征。

這使得學(xué)習(xí)任務(wù)中,模型需要預(yù)測具有當(dāng)前文本序列特定屬性的目標(biāo),而不是對(duì)特定離散單元出現(xiàn)的每個(gè)文本序列通用的表征。

此外,訓(xùn)練目標(biāo)不是一個(gè)封閉的詞匯表。由此,模型可以自己定義它認(rèn)為合適的目標(biāo)類型。

自監(jiān)督:從觀察周圍世界中學(xué)習(xí)

相較于2021年谷歌為達(dá)到類似目標(biāo),7月推出的Perceiver與10月放風(fēng)的Pathways,Meta的data2vec都有優(yōu)勢:Pathways是沒具體細(xì)節(jié)與論文的行業(yè)公關(guān)動(dòng)作,而Perceiver還在基于傳統(tǒng)的標(biāo)記數(shù)據(jù)、有監(jiān)督學(xué)習(xí)的路徑。

Meta AI研究組在總結(jié)研究時(shí)表示,data2vec有眾多落地可能,讓AI通過錄像、錄音、文章的結(jié)合,能學(xué)會(huì)之前對(duì)于機(jī)器而言太過復(fù)雜的技能,比如烤面包的各種方式、踢足球的各種技術(shù)。

這些技能如同語音識(shí)別地球上所有的語言一樣,用標(biāo)注數(shù)據(jù)來教會(huì)AI,成本太高。而AI未來用通行的架構(gòu),學(xué)會(huì)跨越數(shù)據(jù)模態(tài)的通用經(jīng)驗(yàn),來舉一反三完成不同任務(wù),這個(gè)目標(biāo)讓data2vec拉近了。

此外,研究團(tuán)隊(duì)還表示:「實(shí)驗(yàn)處理的潛在表征變量不是三模態(tài)數(shù)據(jù)的混合編碼。我們還是在單一過程中處理單一模態(tài)數(shù)據(jù)的。不過本項(xiàng)目的主創(chuàng)新點(diǎn),是data2vec對(duì)不同模態(tài)數(shù)據(jù)的處理過程基本一致。這是之前沒人做到的,也更近于神經(jīng)生物學(xué)家描述的人類視聽學(xué)習(xí)過程?!?/span>

不過,data2vec的多模態(tài)通用神經(jīng)網(wǎng)絡(luò)并非沒有短板:它得依賴數(shù)據(jù)的模態(tài)標(biāo)記。圖像、語音、文字這些數(shù)據(jù),都得先預(yù)處理得到模態(tài)分類。然后將這些數(shù)據(jù)類型的線索喂給data2vec,用論文中的原話說,這叫「小型模態(tài)相關(guān)的編碼器輸入」。

而真正的人類智識(shí)是不需要先預(yù)處理數(shù)據(jù)、分類「此為文字來源知識(shí)、彼為二大爺口述訊息」的。

作者介紹

Wei-Ning Hsu 徐煒寧,Meta人工智能研究組高級(jí)研究科學(xué)家,博士畢業(yè)于MIT,研究方向?yàn)楸碚鲗W(xué)習(xí)、自監(jiān)督學(xué)習(xí)、語音識(shí)別。

Jiatao Gu 顧佳濤,Meta人工智能研究組研究科學(xué)家,香港大學(xué)電子工程博士,研究方向?yàn)樽匀徽Z言處理與深度學(xué)習(xí)。

Qiantong Xu,Meta人工智能研究組高級(jí)研究工程師,研究方向?yàn)槁暡ńEc對(duì)話模態(tài)識(shí)別的語言建模。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-03-02 19:08:21

JVMJDKJRE

2023-01-08 13:15:56

2023-01-02 13:33:25

2017-06-12 11:09:56

計(jì)數(shù)架構(gòu)數(shù)據(jù)庫

2024-01-18 13:38:00

AI數(shù)據(jù)

2024-07-17 11:27:26

2024-12-12 12:00:00

代碼C++

2011-05-10 16:27:55

網(wǎng)站優(yōu)化SEO

2023-08-05 13:56:03

數(shù)據(jù)音樂

2022-07-06 13:06:29

Meta神經(jīng)網(wǎng)絡(luò)架構(gòu)自監(jiān)督學(xué)習(xí)

2022-01-20 16:50:50

手機(jī)智能手機(jī)屏幕

2024-04-26 10:12:38

混合訓(xùn)練AI集群

2018-08-23 08:18:38

AI偵探AI破案

2022-04-08 14:58:22

AI語音智能

2024-05-27 08:00:00

2024-12-27 13:31:18

.NETdump調(diào)試

2018-03-12 11:52:44

2020-10-18 12:53:29

黑科技網(wǎng)站軟件

2022-05-07 13:04:34

Meta語言模型開源

2021-12-09 22:45:19

電腦開機(jī)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)