自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="hrlft"></sub>}

<sub id="hrlft"><p id="hrlft"></p></sub>

<style id="hrlft"></style>

<style id="hrlft"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

LeCun看了都說好！Meta AI一次搞定語音、視覺和文本三個(gè)SOTA

作者：新智元 2022-02-15 15:38:02

人工智能新聞

人工智能科學(xué)伊始，讓機(jī)器「像人一樣學(xué)習(xí)」始終是所有從業(yè)者的目標(biāo)。人的智能基于多種感官與語言的通用處理能力，一直有研究者致力讓機(jī)器做到此效果。

人的智識(shí)是「多模態(tài)學(xué)習(xí)」的總和，也就是可以跨越分類界限，理解和移用不同來源或形式的訊息與經(jīng)驗(yàn)。

好比方，一個(gè)人看過自然頻道的虎類紀(jì)錄片，再聽到他人描述「白額大貓呼嘯生風(fēng)」時(shí)，能據(jù)此語言描述結(jié)合之前的觀影結(jié)果，知道別人在描述猛虎，不會(huì)貿(mào)然跑去滑鏟。

讓人工智能做到同樣的多模態(tài)學(xué)習(xí)效果，是高挑戰(zhàn)而高回報(bào)的工作。

單獨(dú)處理聲音、圖像、文字?jǐn)?shù)據(jù)的單個(gè)算法再如何亮眼，若不能在不同模態(tài)的數(shù)據(jù)間移用，終究比不上一個(gè)算法，單一基礎(chǔ)框架能通用于圖像識(shí)別、音頻模態(tài)探測、自然語言處理的各種數(shù)據(jù)。

而Meta AI研究組的data2vec算法就做到了。研究組在自己的博客中稱，為了讓機(jī)器學(xué)習(xí)更接近人智，有必要克服現(xiàn)有的自監(jiān)督學(xué)習(xí)算法對(duì)不同模態(tài)數(shù)據(jù)的隔閡。

論文鏈接：https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

開源項(xiàng)目：https://github.com/pytorch/fairseq/tree/main/examples/data2vec

為此，LeCun也發(fā)文表示祝賀：「data2vec在ImageNet（視覺）、LibriSpeech（語音識(shí)別）和GLU（NLP）上的結(jié)果均優(yōu)于現(xiàn)有SOTA?！?/span>

data2vec：橫跨CV、NLP和語音

目前主流的人工智能仍然依靠著基于標(biāo)注數(shù)據(jù)進(jìn)行的監(jiān)督學(xué)習(xí)。

這種「監(jiān)督學(xué)習(xí)」在訓(xùn)練專門的模型方面性能極好，在它們訓(xùn)練的任務(wù)上往往性能表現(xiàn)極高。

然而，拄著「拐杖」的AI在標(biāo)注數(shù)據(jù)不足的的領(lǐng)域很容易翻車，而且要悉心地為AI打造一根又一根「拐杖」，有點(diǎn)太費(fèi)科學(xué)家了。

就比如，各國的研究人員在為本國的語音和文本創(chuàng)建大規(guī)模的標(biāo)記數(shù)據(jù)集方面都做了大量工作，但要為地球上的成千上萬種語言做到這一點(diǎn)是不可能的。

這時(shí)候就需要祭出「自監(jiān)督學(xué)習(xí)」了。

自監(jiān)督讓計(jì)算機(jī)能夠通過自己的觀察來找出圖像、語音或文本的結(jié)構(gòu)從而了解世界，而不需要利用標(biāo)注的圖像、文本、音頻和其他數(shù)據(jù)源。但目前自監(jiān)督學(xué)習(xí)算法從圖像、語音、文本和其他模態(tài)中學(xué)習(xí)的方式存在很大差異。

算法會(huì)為每種模態(tài)預(yù)測不同的單位：圖像的像素或視覺標(biāo)注，文字的單詞，以及語音的聲音學(xué)習(xí)目錄。

一組像素與一個(gè)音頻波形或一段文字是非常不同的，正因?yàn)槿绱?，算法設(shè)計(jì)一直與特定的模態(tài)相聯(lián)系，也就意味著算法在每種模態(tài)下的運(yùn)作方式也各不相同。

這種差異一直是自監(jiān)督學(xué)習(xí)想要在更大范圍中應(yīng)用的重要障礙。因?yàn)橐粋€(gè)為理解圖像而設(shè)計(jì)的強(qiáng)大算法不能直接應(yīng)用于另一種模態(tài)，例如文本，所以很難以同樣的速度推動(dòng)幾種模態(tài)的發(fā)展。

而data2vec是第一個(gè)適用于多種模態(tài)的高性能自監(jiān)督算法，可分別應(yīng)用于語音、圖像和文本，它的性能超過了以前最好的計(jì)算機(jī)視覺和語音的單一用途算法，而且在NLP任務(wù)上也具有競爭力。

data2vec的提出代表了一種新的整體自監(jiān)督學(xué)習(xí)范式，不僅改進(jìn)了模型在多種模態(tài)下的表現(xiàn)，同時(shí)也不依賴于對(duì)比性學(xué)習(xí)或重建輸入實(shí)例。

data2vec通過訓(xùn)練模型來預(yù)測它們自己對(duì)輸入數(shù)據(jù)的表征，而不考慮模態(tài)。

通過這些表征，而不是預(yù)測視覺標(biāo)注、單詞或聲音，單一的算法就可以處理完全不同類型的輸入，從而消除了學(xué)習(xí)任務(wù)中對(duì)特定模態(tài)目標(biāo)的依賴。

然而，想要預(yù)測表征之前，還需要為任務(wù)定義一個(gè)在不同的模態(tài)下都能達(dá)到穩(wěn)健的規(guī)一化特征。

data2vec使用一個(gè)教師模型，首先從圖像、文本或語音語調(diào)中計(jì)算出目標(biāo)表征。接下來，掩碼部分輸入，用學(xué)生模型重復(fù)這一過程，然后預(yù)測教師的潛在表征。

學(xué)生模型必須預(yù)測全部輸入數(shù)據(jù)的表征，盡管它只看到了部分信息。

SOTA三連

計(jì)算機(jī)視覺

作者在ImageNet-1K訓(xùn)練集的圖像上對(duì)data2vec進(jìn)行了預(yù)訓(xùn)練，并使用同一基準(zhǔn)的標(biāo)記數(shù)據(jù)對(duì)得到的圖像分類模型進(jìn)行了微調(diào)。

對(duì)于需要預(yù)測每張圖片單一標(biāo)簽的下游任務(wù)，作者通過在均值池表征的基礎(chǔ)上堆疊一個(gè)softmax歸一化的分類器來實(shí)現(xiàn)。

結(jié)果顯示，data2vec超過了之前使用ViT-B和ViT-L的工作。與預(yù)測原始輸入像素、工程圖像特征或視覺標(biāo)注等局部目標(biāo)的方法相比，在掩碼預(yù)測設(shè)置中預(yù)測語境化潛在表征的表現(xiàn)非常好。

此外，data2vec也優(yōu)于目前SOTA的自蒸餾方法。

語音處理

團(tuán)隊(duì)在來自Librispeech（LS-960）的960小時(shí)的語音音頻數(shù)據(jù)上對(duì)data2vec進(jìn)行預(yù)訓(xùn)練。這個(gè)數(shù)據(jù)集包含了來自英語有聲讀物的相對(duì)清晰的音頻。

為了了解不同資源環(huán)境下的性能，作者使用不同數(shù)量的標(biāo)注數(shù)據(jù)對(duì)自動(dòng)語音識(shí)別模型進(jìn)行了微調(diào)，范圍從10分鐘到960小時(shí)。

通過和兩種依賴于離散語音單元的語音表征學(xué)習(xí)算法wav2vec 2.0和HuBERT進(jìn)行比較。結(jié)果顯示，data2vec在所有的標(biāo)注數(shù)據(jù)設(shè)置中都有了改進(jìn)，其中10分鐘標(biāo)注數(shù)據(jù)的收益最大（相對(duì)誤碼率提高20%）。

此外，當(dāng)使用豐富的語境化目標(biāo)時(shí)，在預(yù)訓(xùn)練期間學(xué)習(xí)語境化目標(biāo)就可以提高性能，而不需要學(xué)習(xí)離散的單元。

自然語言處理

data2vec采用了與BERT相同的訓(xùn)練設(shè)置，在書籍語料庫和英語維基百科數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，更新量為100萬，batch大小為256個(gè)序列。

團(tuán)隊(duì)通用語言理解評(píng)估（GLUE）基準(zhǔn)上進(jìn)行測試，其中包括自然語言推理（MNLI、QLNLI、RTE）、句子相似性（MRPC、QQP和STS-B）、語法性（CoLA）和情感分析（SST-2）等任務(wù)。

作者在每個(gè)任務(wù)提供的標(biāo)注數(shù)據(jù)上分別對(duì)data2vec進(jìn)行微調(diào)。結(jié)果顯示，data2vec優(yōu)于RoBERTa的基線。

data2vec是第一個(gè)成功的預(yù)訓(xùn)練NLP模型，它不使用離散單位（詞、子詞、字符或字節(jié)）作為訓(xùn)練目標(biāo)，而是預(yù)測在整個(gè)未掩碼的文本序列中，從自注意中出現(xiàn)的上下文潛在表征。

這使得學(xué)習(xí)任務(wù)中，模型需要預(yù)測具有當(dāng)前文本序列特定屬性的目標(biāo)，而不是對(duì)特定離散單元出現(xiàn)的每個(gè)文本序列通用的表征。

此外，訓(xùn)練目標(biāo)不是一個(gè)封閉的詞匯表。由此，模型可以自己定義它認(rèn)為合適的目標(biāo)類型。

自監(jiān)督：從觀察周圍世界中學(xué)習(xí)

相較于2021年谷歌為達(dá)到類似目標(biāo)，7月推出的Perceiver與10月放風(fēng)的Pathways，Meta的data2vec都有優(yōu)勢：Pathways是沒具體細(xì)節(jié)與論文的行業(yè)公關(guān)動(dòng)作，而Perceiver還在基于傳統(tǒng)的標(biāo)記數(shù)據(jù)、有監(jiān)督學(xué)習(xí)的路徑。

Meta AI研究組在總結(jié)研究時(shí)表示，data2vec有眾多落地可能，讓AI通過錄像、錄音、文章的結(jié)合，能學(xué)會(huì)之前對(duì)于機(jī)器而言太過復(fù)雜的技能，比如烤面包的各種方式、踢足球的各種技術(shù)。

這些技能如同語音識(shí)別地球上所有的語言一樣，用標(biāo)注數(shù)據(jù)來教會(huì)AI，成本太高。而AI未來用通行的架構(gòu)，學(xué)會(huì)跨越數(shù)據(jù)模態(tài)的通用經(jīng)驗(yàn)，來舉一反三完成不同任務(wù)，這個(gè)目標(biāo)讓data2vec拉近了。

此外，研究團(tuán)隊(duì)還表示：「實(shí)驗(yàn)處理的潛在表征變量不是三模態(tài)數(shù)據(jù)的混合編碼。我們還是在單一過程中處理單一模態(tài)數(shù)據(jù)的。不過本項(xiàng)目的主創(chuàng)新點(diǎn)，是data2vec對(duì)不同模態(tài)數(shù)據(jù)的處理過程基本一致。這是之前沒人做到的，也更近于神經(jīng)生物學(xué)家描述的人類視聽學(xué)習(xí)過程?！?/span>

不過，data2vec的多模態(tài)通用神經(jīng)網(wǎng)絡(luò)并非沒有短板：它得依賴數(shù)據(jù)的模態(tài)標(biāo)記。圖像、語音、文字這些數(shù)據(jù)，都得先預(yù)處理得到模態(tài)分類。然后將這些數(shù)據(jù)類型的線索喂給data2vec，用論文中的原話說，這叫「小型模態(tài)相關(guān)的編碼器輸入」。

而真正的人類智識(shí)是不需要先預(yù)處理數(shù)據(jù)、分類「此為文字來源知識(shí)、彼為二大爺口述訊息」的。

作者介紹

Wei-Ning Hsu 徐煒寧，Meta人工智能研究組高級(jí)研究科學(xué)家，博士畢業(yè)于MIT，研究方向?yàn)楸碚鲗W(xué)習(xí)、自監(jiān)督學(xué)習(xí)、語音識(shí)別。

Jiatao Gu 顧佳濤，Meta人工智能研究組研究科學(xué)家，香港大學(xué)電子工程博士，研究方向?yàn)樽匀徽Z言處理與深度學(xué)習(xí)。

Qiantong Xu，Meta人工智能研究組高級(jí)研究工程師，研究方向?yàn)槁暡ńＥc對(duì)話模態(tài)識(shí)別的語言建模。

責(zé)任編輯：張燕妮來源：新智元

人工智能機(jī)器學(xué)習(xí)Meta

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="y1vsx"></style>