多模態(tài)大模型的實現(xiàn)原理,以及技術(shù)難點 原創(chuàng)
“ 多模態(tài)大模型的終點就是“人”,人就是最完美的多模態(tài)模型”
在上一篇文章中介紹了什么是多模態(tài)大模型,以及為什么需要多模態(tài)大模型;今天這里就來詳細了解一下多模態(tài)大模型的實現(xiàn)原理以及技術(shù)難點。
多模態(tài)大模型是支持多種模態(tài)數(shù)據(jù)的深度學習模型,與之對應的是單模態(tài)模型;但因為單模態(tài)模型存在很多缺陷,因此多模態(tài)大模型應運而生。
人就是最完美的多模態(tài)模型,而大模型的發(fā)展方向也是讓它越來越像“人”。
多模態(tài)大模型的思想與原理
多模態(tài)的思想是結(jié)合不同模態(tài)(文字,圖片,聲音等)的數(shù)據(jù)進行聯(lián)合學習,從而提高模型的認知能力。
其主要表現(xiàn)在以下三個方面:
信息互補性:不同模態(tài)的數(shù)據(jù)攜帶不同的信息,聯(lián)合學習能夠補足單一模態(tài)的缺陷
關(guān)聯(lián)性:多模態(tài)數(shù)據(jù)之間存在內(nèi)在聯(lián)系,學習這些聯(lián)系有助于提升模型的表現(xiàn)
通用性:通過學習多模態(tài)數(shù)據(jù)的通用表示,可以提升模型在多個任務(wù)上的泛化能力
多模態(tài)模型的核心原理
表示學習
通過專門的編碼器,將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的特征表示
單模態(tài)的表示學習負責將信息表示為計算機可以處理的數(shù)值向量或者進一步抽象為更高層的特征向量,而多模態(tài)表示學習是指通過利用多種模態(tài)之間的互補性,剔除模態(tài)間的冗余性,從而學習到更好的特征表示。
多模態(tài)表示學習有兩大方向:聯(lián)合表示和協(xié)同表示
聯(lián)合表示是將多個模態(tài)的信息一起映射到一個統(tǒng)一的多模態(tài)向量空間
協(xié)同表示負責將多模態(tài)中的每個模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束(如線性相關(guān))
跨模態(tài)映射
跨模態(tài)映射是需要實現(xiàn)模態(tài)之間的映射,如圖像到文本的生成或者文本到圖像的生成;當然還有其它很多種情況,如語音合成,機器翻譯等。
模態(tài)間的轉(zhuǎn)換主要有兩個難點,一個是open-ended,即未知結(jié)束位;例如在實時翻譯中,話還未說完的情況下, 必須實時的對句子進行翻譯;另一個是subjective,即主觀評判性,是指很多模態(tài)轉(zhuǎn)換問題的效果沒有一個客觀的評判標準。
對齊與融合
將不同模態(tài)的數(shù)據(jù)對齊,確保它們的語義一致性,并通過各種融合方法將數(shù)據(jù)整合在一起。
多模態(tài)的對齊負責對來自同一個實例的不同模態(tài)信息的子分支/元素尋找對應關(guān)系;對齊可以是時間維度的也可以是空間維度的,比如圖片的語義分割。
多模態(tài)的融合是將各模態(tài)的特征表示進行融合,常見的方法包括拼接,加權(quán)求和,注意力機制以及通過共享Transformer層進行聯(lián)合編碼
融合
多模態(tài)融合有四種不同的情況,分別是特征級融合,決策級融合,混合級融合和模型級融合。
特征級融合:也稱為早起融合,是多模態(tài)識別系統(tǒng)最常用的策略。它表示在特征提取后把提取特征連接成單個高緯特征向量的方法,其主要用來剔除冗余信息。
決策級融合:也稱為后期融合,是在獲得基于每個模態(tài)的決策后,通過應用多個預測標簽的代數(shù)組合規(guī)則,對這些決策執(zhí)行集成步驟。
混合級融合:它是早起融合和后期融合兩種方式的結(jié)合,通過早期融合和單個模態(tài)預測的輸出相結(jié)合?;旌霞壢诤想m然解決了特征級與決策級融合的局限性,但本質(zhì)上并沒有解決問題。
模型級融合:該方法旨在獲得三種模態(tài)的聯(lián)合特征表示,它的實現(xiàn)主要取決于使用的融合模型。模型級融合是更深層次的融合方法,為分類和回歸任務(wù)產(chǎn)生更優(yōu)化的聯(lián)合判別特征表示。
技術(shù)實現(xiàn)
多模態(tài)大模型的技術(shù)實現(xiàn)主要有以下步驟:
數(shù)據(jù)預處理:將不同模態(tài)(文本,圖片,視頻)的數(shù)據(jù)進行預處理,例如圖像的像素歸一化,文本的分詞處理。
狀態(tài)編碼器:使用專門的神經(jīng)網(wǎng)絡(luò)模型處理不同模態(tài)的數(shù)據(jù),例如使用CNN或Vision Transformer處理圖像,用Transformer處理文本。類似于大模型知識庫的文本解析模塊,把文檔解析成向量保存到向量數(shù)據(jù)中,也需要使用文檔處理模型。
融合機制:將各模態(tài)的特征表示進行融合,原理就是上面的模型融,有多種方式。
訓練過程:使用多模態(tài)數(shù)據(jù)進行聯(lián)合訓練,常見的損失函數(shù)包括分類損失,回歸損失和對比學習損失等。
模型架構(gòu):比如openAI的CLIP模型通過同時處理圖像和文本,學習它們之間的語義關(guān)系。
總結(jié)
多模態(tài)大模型是目前大模型廠商主要的研究方向,其實現(xiàn)過程困難且復雜;雖然具有很多優(yōu)勢,但同樣也具有很多的問題。比如對計算資源的需求要遠大于單模型的需求,其次多模態(tài)數(shù)據(jù)的對齊與標注同樣是一個難題,最后就是跨模態(tài)的理解與生成,仍然是一個研究熱點。
本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/i-paWY0Db6-sSDqaA0EWiA??
