谷歌創(chuàng)新框架:從非結構化數(shù)據(jù),實現(xiàn)多模態(tài)學習 精華
看、聽、說的多模態(tài)已成為主流大模型的重要功能之一。但在數(shù)據(jù)爆炸時代,大模型學習文本類的結構化數(shù)據(jù)相對還好一些,但要去學習視頻、音頻、圖片等非結構化數(shù)據(jù)非常困難。
目前,從結構化和非結構化數(shù)據(jù)實現(xiàn)多模態(tài)學習,會隨著模態(tài)數(shù)量、輸入大小和數(shù)據(jù)異構性的增加,深度神經(jīng)網(wǎng)絡會變過擬合和泛化效果不佳。
尤其是當在規(guī)模有限的數(shù)據(jù)集上訓練時,這一狀況就越發(fā)明顯,例如,經(jīng)常表現(xiàn)出非平穩(wěn)行為的時間序列數(shù)據(jù)。因此,谷歌提出了創(chuàng)新框架LANISTR來解決這些難題。
論文地址:https://arxiv.org/pdf/2305.16556
LANISTR是一個基于注意力機制的框架,其核心思想是在單模態(tài)和多模態(tài)層面上應用基于掩碼的訓練。
還特別引入了一種新的基于相似度的多模態(tài)掩碼損失,使其能夠從存在缺失模態(tài)的大型多模態(tài)數(shù)據(jù)中學習跨模態(tài)之間的關系。
多模態(tài)融合編碼器
?
現(xiàn)實數(shù)據(jù)經(jīng)常以復合形式存在,單一模態(tài)的數(shù)據(jù)往往不足以捕捉事件的全貌。例如,在醫(yī)療診斷中,臨床報告和MRI掃描圖像才能展現(xiàn)患者狀況的全面視圖;而在電子商務中,商品描述與銷售歷史(時間序列)相結合才能更好地預測市場需求。
因此,一個好用的多模態(tài)大模型,必須具備將這些分散信息源綜合的能力。為了實現(xiàn)這一目標,LANISTR采用了基于Transformer架構的交叉注意力機制。
多模態(tài)融合編碼器可將來自各模態(tài)的嵌入向量首先被串聯(lián)起來,然后通過一系列的Transformer層進行處理。
在這些層中,交叉注意力機制發(fā)揮了重要作用,允許模型在不同的模態(tài)表示之間自由“詢問”和“回答”,使每個模態(tài)的特征都能關注其他模態(tài)的特征,并根據(jù)它們的相關性和重要性進行加權整合。
這一流程與人腦思考有些類似,可根據(jù)上下文和情境在不同感官信號間切換注意力,從而實現(xiàn)信息的高效整合。
4種編碼器介紹
?
LANISTR中的多模態(tài)融合編碼器一共由文本、圖像、表格和時間序列4種編碼器組成,每種模態(tài)都有其獨特的表達方式和信息結構。這種機制不僅增強了對單個模態(tài)特征的理解,還促進了模態(tài)間的交互學習,從而對整個場景有了更加全面的認識。
文本編碼器:基于Transformer架構主要處理文本數(shù)據(jù)。通過掩碼語言方法進行預訓練,隨機掩蓋文本中的部分詞匯,讓模型學習預測這些被掩蓋詞的能力。這種機制促使模型理解詞語間的依賴關系和語境含義,從而提取出豐富的語言特征。
圖像編碼器:采用Vision Transformer架構用于處理視覺數(shù)據(jù)??蓪D像分割成多個小塊,并將這些塊視為序列輸入到Transformer中,通過自注意力機制學習圖像的高層次特征,還會使用掩碼圖像建模方法,通過重建被掩碼的像素或特征來訓練,以提取圖像的視覺特征。
表格編碼器:使用了定制的神經(jīng)網(wǎng)絡結構,針對分類特征的嵌入層來編碼每一列數(shù)據(jù)的特征??紤]到表格數(shù)據(jù)的稀疏性和多樣性,了集成特征選擇或降維技術,以聚焦于最有信息量的特征。
時間序列編碼器:由于大模型需要捕捉隨時間變化的動態(tài)模式,時間序列編碼器使用了循環(huán)神經(jīng)網(wǎng)絡方法,長短時記憶網(wǎng)絡和門控循環(huán)單元。通過對序列進行建模提取出時間序列的模式和趨勢,為后續(xù)的多模態(tài)融合準備數(shù)據(jù)。
研究人員在兩個數(shù)據(jù)集上測試了LANISTR的性能,在MIMIC-IV數(shù)據(jù)集上,當僅使用0.1%的有標簽數(shù)據(jù)進行微調時,模型的AUROC相比最先進的方法提高了6.6%。
在亞馬遜產(chǎn)品評論數(shù)據(jù)集中,僅使用0.01%的有標簽數(shù)據(jù),模型的準確率提升了14%。值得一提的是,這些改進是在高達35.7%和99.8%的樣本存在模態(tài)缺失的情況下完成的,這更加證明了LANISTR的多模態(tài)學習能力。
本文轉自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
