年齡兩歲,教齡一年半:嬰兒AI訓(xùn)練師登上Science
在公開采訪中,圖靈獎(jiǎng)得主 Yann LeCun 多次提到,現(xiàn)在的 AI 模型和人類嬰兒相比,學(xué)習(xí)效率實(shí)在是太低了。那么,如果讓一個(gè) AI 模型去學(xué)習(xí)嬰兒頭戴攝像頭拍到的東西,它能學(xué)到什么?
最近,Science 雜志上的一篇論文進(jìn)行了初步嘗試。研究發(fā)現(xiàn),即使數(shù)據(jù)有限,AI 模型也能從 10 到 100 個(gè)例子中學(xué)到單詞 - 視覺所指對(duì)象之間的映射,而且能夠零樣本地泛化到新的視覺數(shù)據(jù)集,并實(shí)現(xiàn)多模態(tài)對(duì)齊。這說明,利用當(dāng)今的人工智能工具,從嬰兒的視角進(jìn)行真正的語言學(xué)習(xí)是可能的。
年齡兩歲,教齡 1 年半
Sam 是怎么教 AI 學(xué)習(xí)的?
這一次,人工智能通過嬰兒的視角看世界來學(xué)習(xí)語言。
神經(jīng)網(wǎng)絡(luò)通過人類嬰兒的視覺經(jīng)驗(yàn),自行學(xué)會(huì)了識(shí)別物體,這為人類學(xué)習(xí)提供了新的見解。
AI 通過 Sam 佩戴的頭盔式攝像機(jī)所拍攝的音視頻學(xué)習(xí)。
當(dāng)嬰兒聽到「球」這個(gè)詞時(shí),他們是如何將這個(gè)詞的語義與圓形、有彈性的物體(即正確的視覺所指對(duì)象)聯(lián)系起來的呢?哲學(xué)家和認(rèn)知科學(xué)家都認(rèn)為,嬰兒在學(xué)習(xí)新詞時(shí),需要從眾多候選意項(xiàng)中挑出正確的那一個(gè)。
嬰兒非常擅長學(xué)習(xí)詞匯。在 6 到 9 個(gè)月大的時(shí)候,他們開始將單詞與眼前的物體建立起音形義的聯(lián)系。到 18 到 24 個(gè)月大的時(shí)候,他們已經(jīng)能理解約 300 個(gè)單詞。
那么,孩子們是如何快速學(xué)會(huì)眼前物體的名稱的呢?他們又是如何建立起物體的意義和其視覺之間的聯(lián)系呢?這些問題都需要進(jìn)一步的探索和研究。
此前,已有一些相關(guān)理論在實(shí)驗(yàn)中得到了驗(yàn)證。有學(xué)者認(rèn)為單詞學(xué)習(xí)是由簡單的、能串聯(lián)起各領(lǐng)域的聯(lián)想學(xué)習(xí)機(jī)制驅(qū)動(dòng)的。但是這些理論通常是在嬰兒不同的成長時(shí)間段測量的,不能揭示某種促進(jìn)單詞學(xué)習(xí)因素的相對(duì)重要性,也不能從中構(gòu)建計(jì)算模型、為計(jì)算機(jī)模型能獲得像人一樣的學(xué)習(xí)能力提供指導(dǎo)。
如果一個(gè)模型能夠通過孩子的眼睛和耳朵感知世界,那么它是否像解釋人類詞匯學(xué)習(xí)能力的聯(lián)想學(xué)習(xí)理論一樣,能夠僅通過基于物體表征的聯(lián)想學(xué)習(xí),理解并整合物體的形體和語義呢?或者,它是否需要借助其他的認(rèn)知能力,比如歸納偏置(inductive biases),來啟動(dòng)這種能力呢?
為了得到這些問題的答案,來自紐約大學(xué)的研究者們對(duì)最簡單的詞匯學(xué)習(xí)理論進(jìn)行了前所未有的測試:他們給一個(gè)嬰兒戴上了頭戴式攝像機(jī),并檢查模型是否能夠從這部攝像機(jī)的視頻記錄中學(xué)習(xí)到單詞與其視覺所指對(duì)象之間的映射關(guān)系。
戴上攝像機(jī)的是來自澳大利亞的 Sam,從 6 個(gè)月大到大約 2 歲,他每周頭戴攝像機(jī)兩小時(shí)(約占清醒時(shí)間的 1%)。
研究團(tuán)隊(duì)根據(jù) Sam 的視頻建立了 SAYCam-S 數(shù)據(jù)集。他們從中選取了 61 個(gè)小時(shí)的錄像,其中包含 60 萬張視頻幀與 3.75 萬段經(jīng)過轉(zhuǎn)寫的錄音,記錄了大約 25 萬個(gè)單詞實(shí)例以及對(duì)應(yīng)的圖像。這些圖像是 Sam 在玩耍、閱讀和進(jìn)食等活動(dòng)期間拍攝的。
研究團(tuán)隊(duì)根據(jù)這些數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),并得到了兒童視角對(duì)比學(xué)習(xí)模型 CVCL。CVCL 采用了對(duì)比學(xué)習(xí)的技術(shù),以學(xué)習(xí)哪些圖像和文本經(jīng)常一起出現(xiàn),哪些不會(huì),從而獲得預(yù)測某些詞匯(如 “球” 和 “碗”)所指代圖像的能力。
研究發(fā)現(xiàn),CVCL 可以從一個(gè)孩子有限的經(jīng)驗(yàn)片段中充分學(xué)習(xí)多模態(tài)表示。CVCL 能夠?qū)⒁幌盗腥粘T~匯與分類任務(wù)中相應(yīng)的視覺所指對(duì)象匹配起來,大規(guī)模對(duì)齊視覺和語言概念,并將此能力泛化到訓(xùn)練中未見過的新例子中。該研究表明,多模態(tài)表征學(xué)習(xí)與領(lǐng)域通用的聯(lián)想學(xué)習(xí)機(jī)制相結(jié)合,能夠?yàn)橛?jì)算機(jī)學(xué)習(xí)單詞帶來突破。
具體來說,研究者根據(jù)多模態(tài)模型研究的最新進(jìn)展設(shè)計(jì)了 CVCL。CVCL 整合了表示學(xué)習(xí)和聯(lián)想學(xué)習(xí),用一個(gè)對(duì)比目標(biāo)來協(xié)調(diào)視覺編碼器和語言編碼器兩個(gè)神經(jīng)網(wǎng)絡(luò)。
如圖 1 所示,對(duì)比目標(biāo)以自我監(jiān)督的方式進(jìn)行訓(xùn)練(即只使用兒童視角的記錄,不使用外部標(biāo)注),模型將目標(biāo)在視頻幀和語言片段共同出現(xiàn)的情況轉(zhuǎn)化為向量提取出來,將其視為正面例子,同時(shí)將不共同出現(xiàn)的轉(zhuǎn)化成向量分離出來,視為隱含的負(fù)面例子。
提取到正面例子后,CVCL 將這些時(shí)間向量轉(zhuǎn)換為學(xué)習(xí)和調(diào)整多模態(tài)表征的學(xué)習(xí)信號(hào)。這種方法既不需要對(duì)詞義進(jìn)行限制,也不需要預(yù)先列出可能的視覺所指對(duì)象,能從嬰兒記錄的視頻中恢復(fù)許多基本的單詞與其視覺所指對(duì)象的組合。
評(píng)估 CVCL 獲得的詞匯
對(duì)應(yīng)視覺所指對(duì)象的結(jié)果
訓(xùn)練完成后,研究團(tuán)隊(duì)評(píng)估了 CVCL 以及各種類似的模型學(xué)習(xí)到的單詞 - 視覺所指對(duì)象組合的質(zhì)量。根據(jù)一種針對(duì)兒童的常見測試,研究團(tuán)隊(duì)向模型提示了一個(gè)目標(biāo)類別標(biāo)簽,讓模型根據(jù)四個(gè)候選圖像與標(biāo)簽的余弦相似度中選擇相應(yīng)的視覺所指對(duì)象。
圖 2A 顯示了標(biāo)簽 S 的測試結(jié)果,總體而言,CVCL 的分類準(zhǔn)確率為 61.6%。圖 2D 顯示了模型在不同標(biāo)簽中的具體結(jié)果,在 22 個(gè)概念中,CVCL 對(duì) 11 個(gè)概念的判斷與 CLIP 相差不到 5%。但 CLIP 訓(xùn)練所用的數(shù)據(jù)量(互聯(lián)網(wǎng)的 4 億個(gè)圖像文本對(duì))遠(yuǎn)超于 CVCL。為了解決分類重疊等潛在問題,研究團(tuán)隊(duì)還手動(dòng)篩選出了子集進(jìn)行了后續(xù)評(píng)估。
為了確定 CVCL 捕捉單詞含義能力的上限和下限,研究團(tuán)隊(duì)還將其與類似模型進(jìn)行了實(shí)驗(yàn)。為了測試模型將語言和視覺信息對(duì)應(yīng)起來的能力,研究團(tuán)隊(duì)將原數(shù)據(jù)集中共同出現(xiàn)目標(biāo)物體的視頻幀和錄音打亂,重新訓(xùn)練了一個(gè)模型的變體 CVCL-Shuffled。被打亂后的模型表現(xiàn)不佳,這顯示了視覺和語言信息共現(xiàn)對(duì)模型學(xué)習(xí)的關(guān)鍵作用。
為了測試視覺嵌入的有效性,研究者在訓(xùn)練過程中隨機(jī)凍結(jié)了 CVCL 的視覺編碼器。盡管模型掌握了如 「沙子 」和 「汽車 」等少數(shù)概念,但如圖 2D 處所示,模型的成績?cè)俅未蠓陆担∕ = 38.0%)。
研究者比較了 CVCL 與基于其他數(shù)據(jù)或 Oracle 訓(xùn)練數(shù)據(jù)的 AI 模型,其他模型的訓(xùn)練數(shù)據(jù)超出了兒童詞匯的范圍。CLIP 的準(zhǔn)確率達(dá) 66.7%,比 CVCL 高出 5.1%,這得益于 CLIP 更理解少數(shù)單詞的含義如「廚房」、「玩具」和「籃子」。
通過以上測試,可見當(dāng)在一定范圍內(nèi)測試時(shí),CVCL 的性能可以與基于互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練的模型相當(dāng)。
此外,研究者測試了模型是否能獨(dú)立對(duì)單詞進(jìn)行分類,而不是根據(jù)某些引導(dǎo)兒童的句子得出了判斷。他們?cè)诔跏蓟念A(yù)訓(xùn)練編碼器上對(duì)線性分類器進(jìn)行擬合得到了一個(gè) Linear Probe 模型,新模型準(zhǔn)確率達(dá) 81.6% ,說明 CVCL 具有獨(dú)立判斷能力。
研究團(tuán)隊(duì)量化了在對(duì)話中自然出現(xiàn)的單詞相對(duì)直接標(biāo)記示例對(duì)模型訓(xùn)練的價(jià)值。如圖 2B 所示,他們使用更少的人工標(biāo)注數(shù)據(jù)(使用打過標(biāo)簽數(shù)據(jù)的 10% 和 1%)訓(xùn)練了兩個(gè) Linear Probe 模型,測試結(jié)果如下表所示。
減少了人工標(biāo)注數(shù)據(jù)的 Linear Probe 模型,分類準(zhǔn)確度分別下降到了 77.2% 和 65.9%。使用了 1% 的標(biāo)注示例的模型性能略好于 CVCL。通過比較,可以保守估計(jì)一個(gè)人工標(biāo)注的至少相當(dāng)于來自自然語言的七個(gè)示例。不過,來自自然語言的數(shù)據(jù)能更加靈活、更準(zhǔn)確地表示兒童學(xué)習(xí)的內(nèi)容,并且它可以容納無限數(shù)量的視覺概念。
為了研究是否有其他因素影響了單詞 - 視覺所指對(duì)象組合的可學(xué)習(xí)性,研究團(tuán)隊(duì)還訓(xùn)練了 CVCL 模型的其他變體以作評(píng)估。他們改變了模型結(jié)構(gòu)或訓(xùn)練過程的各個(gè)方面,但沒有一個(gè)變體的表現(xiàn)優(yōu)于 CVCL 本身。
綜上所述,研究結(jié)果表明,人類最初習(xí)得的的單詞-視覺所指對(duì)象組合可以從 10 到 100 個(gè)自然出現(xiàn)的單詞-視覺所指對(duì)象組合中獲得。
泛化至全新的視覺實(shí)例
為了測試 CVCL 的泛化能力,研究團(tuán)隊(duì)在 Konkle Objects 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
從研究嬰兒語言學(xué)習(xí)的實(shí)驗(yàn)中獲得了靈感,研究團(tuán)隊(duì)為 CVCL 提供了 64 個(gè)額外的在白色背景上的單個(gè)物體圖像,其對(duì)應(yīng)的單詞都在 CVCL 的詞匯表中。這個(gè)實(shí)驗(yàn)使得研究團(tuán)隊(duì)能夠檢查 CVCL 學(xué)習(xí)的單詞是否能成功泛化到未見過的物體中。
如圖 3A 所示,CVCL 具有一定的泛化能力,在 64 個(gè)物體中有 16 個(gè)得分高于 50%(正確),另外 42 個(gè)概念得分高于 25%(偶然),整體準(zhǔn)確率為 34.7%。
此外,兩個(gè) CVCL 的模型變體都接近偶然準(zhǔn)確率(CVCL-Shuffled 和 CVCL-Random Features 模型的準(zhǔn)確率分別為 25.6% 和 23.4%),而其最佳表現(xiàn)都接近目前 SOTA 方法(CLIP 和 Linear Probe 模型的準(zhǔn)確率分別為 99.4% 和 90.7%)。
這些結(jié)果表明了 CVCL 的多模態(tài)表征如何允許分布之外的泛化 —— 與該能力其他更大規(guī)模的演示一致。為了說明這次評(píng)估所需的視覺泛化的程度,圖 3B 展示了嵌入在話語中的單詞的一些自然訓(xùn)練實(shí)例(從孩子的視角),與用于評(píng)估的新穎測試圖像相匹配(以及它們的分類準(zhǔn)確度)。此外,這次評(píng)估與經(jīng)典嬰兒詞匯學(xué)習(xí)實(shí)驗(yàn)中呈現(xiàn)的刺激類型非常相似,這表明在實(shí)驗(yàn)室外獲得的表現(xiàn)足以解釋嬰兒如何將實(shí)驗(yàn)室內(nèi)的視覺刺激泛化到新的視覺刺激。
多模態(tài)表征的組織結(jié)構(gòu)
最后,研究者介紹了 CVCL 中學(xué)習(xí)到的多模態(tài)表征結(jié)構(gòu)的三個(gè)分析家族。
首先探索的問題是,CVCL 的視覺和語言概念系統(tǒng)在多大程度上是一致的。例如,如果「汽車」的視覺和詞嵌入都獨(dú)立地更類似于「道路」而不是「球」,將表明良好的多模態(tài)對(duì)齊。
使用 Labeled-S 中的 22 個(gè)概念,研究者通過隨機(jī)抽取 100 個(gè)注釋幀,提取其圖像嵌入并跨幀平均計(jì)算每個(gè)概念的視覺原型。他們還檢索了每個(gè)概念相應(yīng)的詞嵌入。接下來,計(jì)算這些嵌入之間的所有余弦相似度(包括模態(tài)內(nèi)和模態(tài)間)并使用 t - 分布隨機(jī)鄰居嵌入(t-SNE)可視化它們之間的關(guān)系,如圖 4A 和 B 所示。在圖 4A 中,虛線表示每個(gè)概念相應(yīng)的視覺質(zhì)心和詞嵌入之間的距離。
由于這些跨模態(tài)距離中的許多都很小,研究者檢查了概念之間的模態(tài)內(nèi)相似性(通過余弦)是否與視覺和語言相關(guān),發(fā)現(xiàn)了概念對(duì)齊的顯著程度(相關(guān)系數(shù) r = 0.37,p < 0.001)。
這些關(guān)系不適用于 CVCL 的兩個(gè)下界中的任何一個(gè)(圖 S4)。此外,對(duì)齊距離也與分類性能呈強(qiáng)烈負(fù)相關(guān)(r = -0.65,p = 0.001),一些最不準(zhǔn)確的類別表現(xiàn)出各自視覺原型和詞嵌入之間的最大距離。圖 4B 展示了每個(gè)概念的帶標(biāo)簽圖像嵌入的子集,強(qiáng)調(diào)不同的視覺概念在示例的緊密聚類程度方面存在差異。通過將視覺變化視為概念視覺嵌入與其視覺原型之間的平均歐幾里得距離,研究者還發(fā)現(xiàn)與分類性能的強(qiáng)烈負(fù)相關(guān)(r = -0.48,p = 0.025),這表明 CVCL 在處理「手」和「玩具」等單詞參照映射時(shí)的難度與它們的視覺變化有關(guān),與緊密聚類的概念如「汽車」和「嬰兒床」相比。
接下來,研究者可視化了在 CVCL 中不同的詞嵌入如何與圖像嵌入相互作用(圖 4C)。檢查三個(gè)不同的概念,他們觀察到模型預(yù)測與特定詞嵌入最相似的圖像(以綠色顯示)與每個(gè)類別的真實(shí)標(biāo)注圖像集(以藍(lán)色顯示)非常接近,完整概念集顯示在圖 S6 中。研究者發(fā)現(xiàn) CVCL 學(xué)習(xí)將不同視覺相似的項(xiàng)目集合表示為一個(gè)概念的不同子簇,盡管每個(gè)詞只使用一個(gè)向量。例如,「樓梯」的詞嵌入最強(qiáng)烈地激活兩個(gè)獨(dú)立的集群,分別代表室內(nèi)和室外樓梯,而「拼圖」產(chǎn)生另外兩個(gè)集群,代表字母和動(dòng)物拼圖。以前的概念學(xué)習(xí)心理理論通常需要明確、內(nèi)置的機(jī)制來捕捉概念內(nèi)部的子結(jié)構(gòu),但在 CVCL 中,我們發(fā)現(xiàn)多簇表示通過對(duì)比學(xué)習(xí)隱式地出現(xiàn)。
研究者還定性檢查了 CVCL 定位指代的能力。對(duì)于給定的圖像,通過應(yīng)用 Grad-CAM 獲得一個(gè)注意力圖,通過計(jì)算最終卷積層特征圖的加權(quán)和(使用基于圖像文本余弦相似度梯度相對(duì)于特征圖的空域平均值的權(quán)重),突出顯示與目標(biāo)類別最相關(guān)的圖像區(qū)域。研究者可以將此注意力圖疊加在圖像上,并檢查指代的位置與注意力圖之間的任何對(duì)應(yīng)關(guān)系。
圖 5 展示了四個(gè)概念中多個(gè)注意力圖的示例。對(duì)于某些類別,CVCL 的注意力圖提供了物體定位的證據(jù):注意力圖中最高激活的區(qū)域緊密跟蹤指代的定位。
更多研究細(xì)節(jié),可參考原論文。