LeCun預(yù)言的自監(jiān)督模型來了:首個(gè)多模態(tài)高性能自監(jiān)督算法
自監(jiān)督學(xué)習(xí)能在各種任務(wù)中學(xué)習(xí)到分層特征,并以現(xiàn)實(shí)生活中可使用的海量數(shù)據(jù)作為資源,因此是走向更通用人工智能的一種途徑,也是深度學(xué)習(xí)三巨頭之一、圖靈獎(jiǎng)得主 Yann LeCun 一直推崇的研究方向。
LeCun 認(rèn)為:相比于強(qiáng)化學(xué)習(xí),自監(jiān)督學(xué)習(xí)(SSL)可以產(chǎn)生大量反饋,能夠預(yù)測(cè)其輸入的任何一部分(如預(yù)測(cè)視頻的未來畫面),從而具有廣泛的應(yīng)用前景。
自監(jiān)督學(xué)習(xí)通過直接觀察環(huán)境來進(jìn)行學(xué)習(xí),而非通過有標(biāo)簽的圖像、文本、音頻和其他數(shù)據(jù)源進(jìn)行學(xué)習(xí)。然而從不同模態(tài)(例如圖像、文本、音頻)中學(xué)習(xí)的方式存在很大差異。這種差異限制了自監(jiān)督學(xué)習(xí)的廣泛應(yīng)用,例如為理解圖像而設(shè)計(jì)的強(qiáng)大算法不能直接應(yīng)用于文本,因此很難以相同的速度推動(dòng)多種模態(tài)的進(jìn)展。
現(xiàn)在,MetaAI(原 Facebook AI)提出了一種名為 data2vec 的自監(jiān)督學(xué)習(xí)新架構(gòu),在多種模態(tài)的基準(zhǔn)測(cè)試中超越了現(xiàn)有 SOTA 方法。
data2vec 是首個(gè)適用于多模態(tài)的高性能自監(jiān)督算法。Meta AI 將 data2vec 分別應(yīng)用于語音、圖像和文本,在計(jì)算機(jī)視覺、語音任務(wù)上優(yōu)于最佳單一用途算法,并且在 NLP 任務(wù)也能取得具有競(jìng)爭(zhēng)力的結(jié)果。此外,data2vec 還代表了一種新的、全面的自監(jiān)督學(xué)習(xí)范式,其提高了多種模態(tài)的進(jìn)步,而不僅僅是一種模態(tài)。data2vec 不依賴對(duì)比學(xué)習(xí)或重建輸入示例,除了幫助加速 AI 的進(jìn)步,data2vec 讓我們更接近于制造能夠無縫地了解周圍世界不同方面的機(jī)器。data2vec 使研究者能夠開發(fā)出適應(yīng)性更強(qiáng)的 AI,Meta AI 相信其能夠在多種任務(wù)上超越已有系統(tǒng)。
- 論文地址:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
- 項(xiàng)目地址:https://github.com/pytorch/fairseq/tree/main/examples/data2vec
論文一作 Meta AI 研究員 Alexei Baevski 表示:我們發(fā)布了最新 SSL 方法 data2vec,與單獨(dú)訓(xùn)練相比,我們?cè)诰哂邢嗤A(yù)訓(xùn)練任務(wù)的視覺、語音和 NLP 上獲得了 SOTA。語音和文本的代碼和模型已經(jīng)發(fā)布,視覺模型代碼即將到來!
即將成為 Meta CTO 的 Boz(領(lǐng)導(dǎo) Reality Labs 團(tuán)隊(duì)的 AR、VR、AI、Portal 等)也發(fā)推表示:很高興 data2vec 能夠幫助為跨多種模態(tài)的、更通用的自監(jiān)督學(xué)習(xí)鋪平道路——這項(xiàng)工作還將對(duì)我們正在構(gòu)建的 AR 眼鏡開發(fā)情境化 AI 產(chǎn)生重大影響。
data2vec 是如何工作的?
大部分 AI 仍然基于監(jiān)督學(xué)習(xí),它只適用于具有標(biāo)注數(shù)據(jù)的任務(wù)。但是,假如我們希望機(jī)器可以完更多的任務(wù),那么收集所有的標(biāo)注數(shù)據(jù)將變得不現(xiàn)實(shí)。例如,雖然研究人員在為英語語音和文本創(chuàng)建大規(guī)模標(biāo)注數(shù)據(jù)集方面做了大量工作,但對(duì)于地球上成千上萬的語言來說,這樣做是不可行的。
自監(jiān)督使計(jì)算機(jī)能夠通過觀察世界,然后弄清楚圖像、語音或文本的結(jié)構(gòu)來了解世界。不需要專門訓(xùn)練就能對(duì)圖像進(jìn)行分類或理解語音的機(jī)器,其擴(kuò)展性也會(huì)大大提高。
data2vec 訓(xùn)練方式是通過在給定輸入的部分視圖的情況下預(yù)測(cè)完整輸入模型表示(如下動(dòng)圖所示):首先 data2vec 對(duì)訓(xùn)練樣本的掩碼版本(學(xué)生模型)進(jìn)行編碼,然后通過使用相同模型參數(shù)化為模型權(quán)重的指數(shù)移動(dòng)平均值(教師模型)對(duì)輸入樣本的未掩碼版本進(jìn)行編碼來構(gòu)建訓(xùn)練目標(biāo)表示。目標(biāo)表示對(duì)訓(xùn)練樣本中的所有信息進(jìn)行編碼,學(xué)習(xí)任務(wù)是讓學(xué)生在給定輸入部分視圖的情況下預(yù)測(cè)這些表示。
data2vec 以相同的方式學(xué)習(xí)圖像、語音和文本。
模型架構(gòu)
Meta AI 使用標(biāo)準(zhǔn)的 Transformer 架構(gòu)(Vaswani 等人,2017):對(duì)于計(jì)算機(jī)視覺,Meta AI 使用 ViT 策略將圖像編碼為一系列 patch,每個(gè) patch 跨越 16x16 像素,然后輸入到線性變換(Dosovitskiy 等人, 2020;Bao 等人,2021)。語音數(shù)據(jù)使用多層 1-D 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行編碼,該網(wǎng)絡(luò)將 16 kHz 波形映射到 50 Hz 表示(Baevski 等人,2020b)。對(duì)文本進(jìn)行預(yù)處理以獲得子詞(sub-word)單元(Sennrich 等人,2016;Devlin 等人,2019),然后通過學(xué)習(xí)的嵌入向量將其嵌入到分布空間中。
data2vec 還可以為不同模態(tài)預(yù)測(cè)不同的單元:圖像的像素或視覺 token、文本的單詞以及語音的學(xué)習(xí)清單。像素的集合與音頻波形或文本段落非常不同,因此,算法設(shè)計(jì)與特定的模態(tài)緊密聯(lián)系在一起。這意味著算法在每種模式下的功能仍然不同。
掩碼:在輸入樣本作為 token 序列嵌入后,Meta AI 用學(xué)習(xí)的掩碼嵌入 token 替換掩碼單元的一部分,并將序列饋送到 Transformer 網(wǎng)絡(luò)。對(duì)于計(jì)算機(jī)視覺,Meta AI 遵循 Bao 等人的分塊掩碼(block-wise)策略;對(duì)于語音,Meta AI 掩碼潛在語音表示的跨度 ;對(duì)于語言,Meta AI 使用掩碼 token 。
訓(xùn)練目標(biāo):Meta AI 預(yù)測(cè)的表示是上下文表示,不僅對(duì)特定的時(shí)間步長(zhǎng)進(jìn)行編碼,還對(duì)來自樣本的其他信息進(jìn)行編碼,這是由于在 Transformer 網(wǎng)絡(luò)中使用了自注意力,這是與 BERT、wav2vec 2.0 或 BEiT、MAE、SimMIM 和 MaskFeat 重要區(qū)別,這些預(yù)測(cè)目標(biāo)缺乏上下文信息。
面向多種模態(tài):data2vec 通過訓(xùn)練模型來簡(jiǎn)化其方法,以預(yù)測(cè)輸入數(shù)據(jù)的表征。沒有預(yù)測(cè)視覺 token、詞、聲音等的方法,而是專注于預(yù)測(cè)輸入數(shù)據(jù)的表征,單個(gè)算法就可以處理完全不同類型的輸入。這消除了學(xué)習(xí)任務(wù)中對(duì)特定模態(tài)目標(biāo)的依賴。
直接預(yù)測(cè)表征并不簡(jiǎn)單,它需要為任務(wù)定義一個(gè)穩(wěn)健的特征歸一化,以對(duì)不同的模態(tài)都是可靠的。該研究使用教師網(wǎng)絡(luò)首先從圖像、文本或語音中計(jì)算目標(biāo)表征。然后掩碼部分輸入并使用學(xué)生網(wǎng)絡(luò)重復(fù)該過程,然后預(yù)測(cè)教師網(wǎng)絡(luò)的潛在表征。即使只能查看部分信息,學(xué)生模型也必須預(yù)測(cè)完整輸入數(shù)據(jù)的表征。教師網(wǎng)絡(luò)與學(xué)生模型相同,但權(quán)重略有不同。
實(shí)驗(yàn)及結(jié)果
該研究在 ImageNet 計(jì)算機(jī)視覺基準(zhǔn)上測(cè)試了該方法,結(jié)果如下。
用于計(jì)算機(jī)視覺的 data2vec:在 ImageNet 基準(zhǔn)上,ViT-B 模型與其他方法的性能比較結(jié)果。
應(yīng)用于語音的 data2vec:在 LibriSpeech 基準(zhǔn)測(cè)試中使用 10h 標(biāo)記數(shù)據(jù)的 Base 模型與其他方法的性能比較結(jié)果,錯(cuò)誤率越低,性能越好。
應(yīng)用于文本的 data2vec:在使用原始 BERT 設(shè)置重新訓(xùn)練時(shí),與 RoBERTa 相比,Base 模型在 GLUE 自然語言理解基準(zhǔn)上的性能。分?jǐn)?shù)越高,性能越好。
通過觀察進(jìn)行學(xué)習(xí)
自監(jiān)督學(xué)習(xí)在計(jì)算機(jī)視覺、視頻等多種模態(tài)方面取得了很大進(jìn)展。這種方法的核心思想是為了更廣泛地學(xué)習(xí),以使人工智能可以學(xué)習(xí)完成各種任務(wù),包括完全未見過的任務(wù)。研究者希望機(jī)器不僅能夠識(shí)別訓(xùn)練數(shù)據(jù)中顯示的動(dòng)物,而且還能通過給定描述識(shí)別新生物。
data2vec 證明其自監(jiān)督算法可以在多種模態(tài)下良好執(zhí)行,甚至比現(xiàn)有最佳算法更好。這為更一般的自監(jiān)督學(xué)習(xí)鋪平了道路,并讓人工智能更接近使用視頻、文本、音頻來學(xué)習(xí)復(fù)雜世界的目標(biāo)。
由于收集高質(zhì)量數(shù)據(jù)成本很高,因此該研究還希望 data2vec 能讓計(jì)算機(jī)僅用很少的標(biāo)記數(shù)據(jù)來完成任務(wù)。data2vec 是邁向更通用人工智能的重要一步,未來有望消除對(duì)特定模態(tài)特征提取器的需求。