自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么是多模態(tài)AI 如何融合和對齊? 原創(chuàng)

發(fā)布于 2024-11-11 11:03
瀏覽
0收藏

近年來,大型語言模型Large Language Models(LLM)的研究取得了顯著的進(jìn)展(例如GPT-3,LLaMa,ChatGPT,GPT-4),這些模型在各項自然語言處理(NLP)任務(wù)上展現(xiàn)了出色的性能。

通過在海量數(shù)據(jù)上預(yù)訓(xùn)練,LLM獲得了豐富的知識以及強大的推理能力。只需要輸入一些用戶指令,這些模型就可以解析指令、進(jìn)行推理并給出符合用戶預(yù)期的回答。這些能力背后蘊含著眾多關(guān)鍵思想和技術(shù),包括指令微調(diào)(Instruction Tuning),上下文學(xué)習(xí)(In-Context Learning)和思維鏈(Chain of Thought)等,以及多模態(tài)。

什么是多模態(tài)

多模態(tài)人工智能利用來自多個不同模態(tài)(如文本、圖像、聲音、視頻等)的數(shù)據(jù)進(jìn)行學(xué)習(xí)和推理。多模態(tài)人工智能強調(diào)不同模態(tài)數(shù)據(jù)之間的互補性和融合性,通過整合多種模態(tài)的數(shù)據(jù),利用表征學(xué)習(xí)、模態(tài)融合與對齊等技術(shù),實現(xiàn)跨模態(tài)的感知、理解和生成,推動智能應(yīng)用的全面發(fā)展。

接下來分三部分:_數(shù)據(jù)采集與表示、數(shù)據(jù)處理與融合、學(xué)習(xí)與推理,一起來科普下多模型的基本術(shù)語。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

多模態(tài)學(xué)習(xí)(Multimodal Learning)是一種利用來自不同感官或交互方式的數(shù)據(jù)進(jìn)行學(xué)習(xí)的方法,這些數(shù)據(jù)模態(tài)可能包括文本、圖像、音頻、視頻等。多模態(tài)學(xué)習(xí)通過融合多種數(shù)據(jù)模態(tài)來訓(xùn)練模型,從而提高模型的感知與理解能力,實現(xiàn)跨模態(tài)的信息交互與融合。接下來分三部分:模態(tài)表示、多模態(tài)融合、跨模態(tài)對齊,一起來總結(jié)下多模型的核心。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

什么是多模態(tài)協(xié)同表示(Coordinated Representation)?多模態(tài)協(xié)同表示是一種將多個模態(tài)的信息分別映射到各自的表示空間,但映射后的向量或表示之間需要滿足一定的相關(guān)性或約束條件的方法。這種方法的核心在于確保不同模態(tài)之間的信息在協(xié)同空間內(nèi)能夠相互協(xié)作,共同優(yōu)化模型的性能。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

什么是多模態(tài)融合

什么是多模態(tài)融合(MultiModal Fusion)?多模態(tài)融合能夠充分利用不同模態(tài)之間的互補性,它將抽取自不同模態(tài)的信息整合成一個穩(wěn)定的多模態(tài)表征。從數(shù)據(jù)處理的層次角度將多模態(tài)融合分為數(shù)據(jù)級融合、特征級融合和目標(biāo)級融合。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

多模態(tài)融合

  1. 數(shù)據(jù)級融合(Data-Level Fusion):
  • 數(shù)據(jù)級融合,也稱為像素級融合或原始數(shù)據(jù)融合,是在最底層的數(shù)據(jù)級別上進(jìn)行融合。這種融合方式通常發(fā)生在數(shù)據(jù)預(yù)處理階段,即將來自不同模態(tài)的原始數(shù)據(jù)直接合并或疊加在一起,形成一個新的數(shù)據(jù)集。
  • 應(yīng)用場景:適用于那些原始數(shù)據(jù)之間具有高度相關(guān)性和互補性的情況,如圖像和深度圖的融合。
  1. 特征級融合(Feature-Level Fusion)
  • 特征級融合是在特征提取之后、決策之前進(jìn)行的融合。不同模態(tài)的數(shù)據(jù)首先被分別處理,提取出各自的特征表示,然后將這些特征表示在某一特征層上進(jìn)行融合。
  • 應(yīng)用場景:廣泛應(yīng)用于圖像分類、語音識別、情感分析等多模態(tài)任務(wù)中。
  1. 目標(biāo)級融合(Decision-Level Fusion)
  • 目標(biāo)級融合,也稱為決策級融合或后期融合,是在各個單模態(tài)模型分別做出決策之后進(jìn)行的融合。每個模態(tài)的模型首先獨立地處理數(shù)據(jù)并給出自己的預(yù)測結(jié)果(如分類標(biāo)簽、回歸值等),然后將這些預(yù)測結(jié)果進(jìn)行整合以得到最終的決策結(jié)果。
  • 應(yīng)用場景:適用于那些需要綜合考慮多個獨立模型預(yù)測結(jié)果的場景,如多傳感器數(shù)據(jù)融合、多專家意見綜合等。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

什么是多模態(tài)對齊

什么是跨模態(tài)對齊(MultiModal Alignment)?跨模態(tài)對齊是通過各種技術(shù)手段,實現(xiàn)不同模態(tài)數(shù)據(jù)(如圖像、文本、音頻等)在特征、語義或表示層面上的匹配與對應(yīng)??缒B(tài)對齊主要分為兩大類:顯式對齊和隱式對齊。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

什么是顯示對齊(Explicit Alignment)?直接建立不同模態(tài)之間的對應(yīng)關(guān)系,包括無監(jiān)督對齊和監(jiān)督對齊。

  1. 無監(jiān)督對齊:利用數(shù)據(jù)本身的統(tǒng)計特性或結(jié)構(gòu)信息,無需額外標(biāo)簽,自動發(fā)現(xiàn)不同模態(tài)間的對應(yīng)關(guān)系。
  • CCA(典型相關(guān)分析):通過最大化兩組變量之間的相關(guān)性來發(fā)現(xiàn)它們之間的線性關(guān)系,常用于圖像和文本的無監(jiān)督對齊。
  • 自編碼器:通過編碼-解碼結(jié)構(gòu)學(xué)習(xí)數(shù)據(jù)的低維表示,有時結(jié)合循環(huán)一致性損失(Cycle Consistency Loss)來實現(xiàn)無監(jiān)督的圖像-文本對齊。
  1. 監(jiān)督對齊:利用額外的標(biāo)簽或監(jiān)督信息指導(dǎo)對齊過程,確保對齊的準(zhǔn)確性。
  • 多模態(tài)嵌入模型:如DeViSE(Deep Visual-Semantic Embeddings),通過最大化圖像和對應(yīng)文本標(biāo)簽在嵌入空間中的相似度來實現(xiàn)監(jiān)督對齊。
  • 多任務(wù)學(xué)習(xí)模型:同時學(xué)習(xí)圖像分類和文本生成任務(wù),利用共享層或聯(lián)合損失函數(shù)來促進(jìn)圖像和文本之間的監(jiān)督對齊。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

什么是隱式對齊(Implicit Alignment)?不直接建立對應(yīng)關(guān)系,而是通過模型內(nèi)部機制隱式地實現(xiàn)跨模態(tài)的對齊。這包括注意力對齊和語義對齊。

注意力對齊:通過注意力機制動態(tài)地生成不同模態(tài)之間的權(quán)重向量,實現(xiàn)跨模態(tài)信息的加權(quán)融合和對齊。Transformer模型:在跨模態(tài)任務(wù)中(如圖像描述生成),利用自注意力機制和編碼器-解碼器結(jié)構(gòu),自動學(xué)習(xí)圖像和文本之間的注意力分布,實現(xiàn)隱式對齊。BERT-based模型:在問答系統(tǒng)或文本-圖像檢索中,結(jié)合BERT的預(yù)訓(xùn)練表示和注意力機制,隱式地對齊文本查詢和圖像內(nèi)容。

語義對齊:在語義層面上實現(xiàn)不同模態(tài)之間的對齊,需要深入理解數(shù)據(jù)的潛在語義聯(lián)系。圖神經(jīng)網(wǎng)絡(luò)(GNN):在構(gòu)建圖像和文本之間的語義圖時,利用GNN學(xué)習(xí)節(jié)點(模態(tài)數(shù)據(jù))之間的語義關(guān)系,實現(xiàn)隱式的語義對齊。預(yù)訓(xùn)練語言模型與視覺模型結(jié)合:如CLIP(Contrastive Language-Image Pre-training),通過對比學(xué)習(xí)在大量圖像-文本對上訓(xùn)練,使模型學(xué)習(xí)到圖像和文本在語義層面上的對應(yīng)關(guān)系,實現(xiàn)高效的隱式語義對齊。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

多模特LLM示例

Flamingo是2022年推出的多模態(tài)大語言模型。視覺和語言組件的工作原理如下:

視覺編碼器將圖像或視頻轉(zhuǎn)換為嵌入(數(shù)字列表)。這些嵌入的大小取決于輸入圖像的尺寸或輸入視頻的長度,因此另一個稱為感知器重采樣器的組件將這些嵌入轉(zhuǎn)換為通用的固定長度。

語言模型接收文本和來自 Percever Resampler 的固定長度視覺嵌入。視覺嵌入用于多個“交叉注意力”塊,這些塊學(xué)習(xí)根據(jù)當(dāng)前文本權(quán)衡視覺嵌入不同部分的重要性。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

圖 1 來自 Flamingo 論文,展示了模型架構(gòu)。

訓(xùn)練分為三個步驟:

  • 視覺編碼器使用 CLIP 進(jìn)行預(yù)訓(xùn)練。CLIP 實際上同時訓(xùn)練視覺編碼器和文本編碼器,因此此步驟中的文本編碼器將被丟棄。
  • 該語言模型是一個預(yù)先訓(xùn)練了下一個標(biāo)記預(yù)測的Chinchilla模型,即根據(jù)一系列先前的字符預(yù)測下一組字符。大多數(shù) LLM(如 GPT-4)都是這樣訓(xùn)練的。您可能會聽到這種類型的模型被稱為“自回歸”,這意味著該模型根據(jù)過去的值預(yù)測未來的值。
  • 在第三階段,將未經(jīng)訓(xùn)練的交叉注意力模塊插入語言模型中,并在視覺編碼器和語言模型之間插入未經(jīng)訓(xùn)練的感知器重采樣器。這是完整的 Flamingo 模型,但交叉注意力模塊和感知器重采樣器仍需要訓(xùn)練。為此,整個 Flamingo 模型用于計算下一個標(biāo)記預(yù)測任務(wù)中的標(biāo)記,但輸入現(xiàn)在包含與文本交錯的圖像。此外,視覺編碼器和語言模型的權(quán)重被凍結(jié)。換句話說,只有感知器重采樣器和交叉注意力模塊實際上得到更新和訓(xùn)練。

經(jīng)過訓(xùn)練,F(xiàn)lamingo 能夠執(zhí)行各種視覺語言任務(wù),包括以對話形式回答有關(guān)圖像的問題。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

圖 2 取自 Flamingo 論文,展示了視覺對話的示例。

Flamingo 論文:

??https://arxiv.org/pdf/2204.14198??

BLIP-2是一款多模態(tài) LLM,于 2023 年初發(fā)布。與 Flamingo 一樣,它包含預(yù)訓(xùn)練的圖像編碼器和 LLM。但與 Flamingo 不同的是,圖像編碼器和LLM 均未受影響(預(yù)訓(xùn)練后)。

為了將圖像編碼器連接到 LLM,BLIP-2 使用“Q-Former”,它由兩個組件組成:

  • 視覺組件接收一組可學(xué)習(xí)的嵌入和凍結(jié)圖像編碼器的輸出。與 Flamingo 中所做的一樣,圖像嵌入被輸入到交叉注意層中。
  • 文本組件接收文本。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

圖摘自 BLIP-2 論文,展示了 Q-Former 的內(nèi)部結(jié)構(gòu)及其訓(xùn)練目標(biāo)。

BLIP-2 訓(xùn)練分為兩個階段:

  • 在第 1 階段,Q-Former 的兩個組件針對三個目標(biāo)進(jìn)行訓(xùn)練,這些目標(biāo)實際上源自BLIP-1論文:
  • 圖像-文本對比學(xué)習(xí)(類似于 CLIP,但有一些細(xì)微的差別)。
  • 基于圖像的文本生成(生成圖像的標(biāo)題)。
  • 圖像-文本匹配(二元分類任務(wù),其中對于每個圖像-文本對,模型必須回答 1 來表示匹配,否則回答 0)。
  • 在第 2 階段,通過在 Q-Former 和 LLM 之間插入投影層來構(gòu)建完整模型。此投影層將 Q-Former 的嵌入轉(zhuǎn)換為具有與 LLM 兼容的長度。然后,完整模型負(fù)責(zé)描述輸入圖像。在此階段,圖像編碼器和 LLM 保持凍結(jié)狀態(tài),并且僅訓(xùn)練 Q-Former 和投影層。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

圖 3 摘自 BLIP-2 論文,展示了完整的模型架構(gòu)。投影層標(biāo)記為“完全連接”。

在論文的實驗中,他們使用 CLIP 預(yù)訓(xùn)練圖像編碼器和OPT或Flan-T5作為 LLM。實驗表明,BLIP-2 在各種視覺問答任務(wù)上的表現(xiàn)都優(yōu)于 Flamingo,但可訓(xùn)練參數(shù)卻少得多。這使得訓(xùn)練過程更加輕松,且更具成本效益。

BLIP-2 論文

??https://arxiv.org/pdf/2301.12597??

LLaVA是一種多模態(tài) LLM,于 2023 年發(fā)布。其架構(gòu)非常簡單:

  • 視覺編碼器使用 CLIP 進(jìn)行預(yù)訓(xùn)練。
  • LLM 是經(jīng)過預(yù)先訓(xùn)練的Vicuna模型。
  • 視覺編碼器通過單個投影層連接到 LLM。

請注意視覺編碼器和 LLM 之間的組件的簡單性,與 BLIP-2 中的 Q-Former 以及 Flamingo 中的感知器重采樣器和交叉注意層相比。

訓(xùn)練分為兩個階段:

  • 在第 1 階段,訓(xùn)練目標(biāo)是圖像字幕。視覺編碼器和 LLM 被凍結(jié),因此只訓(xùn)練投影層。
  • 在第 2 階段,LLM 和投影層在部分合成的指令跟蹤數(shù)據(jù)集上進(jìn)行微調(diào)。它是部分合成的,因為它是在 GPT-4 的幫助下生成的。

什么是多模態(tài)AI 如何融合和對齊?-AI.x社區(qū)

圖 1 來自 LLaVA 論文,展示了完整的模型架構(gòu)。

作者對 LLaVA 的評價如下:

  • 他們使用 GPT-4 來評估 LLaVA 在部分合成數(shù)據(jù)集上的響應(yīng)質(zhì)量。在這里,LLaVA 相對于 GPT-4 的得分為 85%。
  • 他們在名為 ScienceQA

LLaVA 說明,簡單架構(gòu)在使用部分合成數(shù)據(jù)進(jìn)行訓(xùn)練可取得優(yōu)異結(jié)果。LLaVA論文:https://arxiv.org/pdf/2304.08485


本文轉(zhuǎn)載自公眾號數(shù)字化助推器  作者:天涯咫尺TGH

原文鏈接:??https://mp.weixin.qq.com/s/ca3J3xMN8Z5V8jQv2jUoOA??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2024-11-11 11:03:45修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦