自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

淺析多模態(tài)機器學(xué)習(xí)

原創(chuàng) 精選

作者：曹洪偉 2023-05-28 23:26:16

人工智能機器學(xué)習(xí)

人類有五種基本感官:觸覺、視覺、聽覺、嗅覺和味覺。與每一種感覺相關(guān)的感覺器官向大腦發(fā)送信息，幫助我們理解和感知我們周圍的世界。

GPT-4的發(fā)布給ChatGPT帶來了又一次飛躍，ChatGPT不僅支持文字輸入，還能看得懂圖片、甚至是漫畫、梗圖，以GPT-4為代表的多模態(tài)大模型非常強大。多模態(tài)大模型就是指模型可以處理多種結(jié)構(gòu)/類型的數(shù)據(jù)，例如GPT-4，它既可以處理你輸入的文本，也可以處理你上傳的圖片。

那么，多模態(tài)到底意味著什么呢？

1. 什么是多模態(tài)？

人類有五種基本感官:觸覺、視覺、聽覺、嗅覺和味覺。與每一種感覺相關(guān)的感覺器官向大腦發(fā)送信息，幫助我們理解和感知我們周圍的世界。然而，事實上，除了這五種基本的感官之外，還有其他的人類感官是你生活中必不可少的。這些鮮為人知的感覺包括空間意識和平衡等。通過這些感官的交互，也就是多模態(tài)，以下是最常見的幾種模態(tài)：

GPT-4專注于語言和視覺作為一些基本的模態(tài)。所謂融合，是指將來自兩個或多個模態(tài)的信息合并以執(zhí)行預(yù)測任務(wù)。有兩種類型的融合：- 早期融合：模態(tài)將在訓(xùn)練早期就連接起來。- 晚期融合：我需要在每個模態(tài)早期進行一些處理，然后再將它們組合起來。

看一些現(xiàn)實世界的例子，了解什么是MMML應(yīng)用：

2. 單模態(tài)分類模型及一些基本概念

從單模態(tài)的分類模型開始，分析視覺、文本和聲音模態(tài)的基本處理方法，還試圖澄清了數(shù)據(jù)集、最近鄰居、神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、推理和模型參數(shù)等相關(guān)術(shù)語和概念。

2.1 單模態(tài)的分類模型

從一種模態(tài)的分類模型開始，例如視覺分類，給定一張圖片，它是不是一只狗呢？

這是三個二維矩陣疊加在一起形成的彩色圖像，如何解決這個圖像分類問題呢？因為大多數(shù)神經(jīng)網(wǎng)絡(luò)或分類器只接受二維矩陣，為了制作這個輸入向量，需要將這個三維向量分解并將它們疊加在一起，就像下面的圖像所示的那樣。然后，才能能夠通過多分類輸出來獲取目標(biāo)的對象分類。

對于單模態(tài)模型，首先有一個輸入，可以是如上所述的3D矩陣，然后將其傳遞到已經(jīng)訓(xùn)練好的模型中，得到一個分類（單類或多類）或回歸輸出。

對于單詞、句子或段落這樣的模態(tài)而言，有兩種類型：書面（文本）和聲音（轉(zhuǎn)錄）。舉個例子，假設(shè)從一段文本中提取了一個單詞，想要了解這是正面還是負面的情緒。該怎么做呢？

為了簡單起見，可以使用one-hot向量，這是一個非常長的向量，其長度是字典的長度。這個字典是我們的模型從訓(xùn)練集中創(chuàng)建的，計算出它所發(fā)現(xiàn)的所有去重后的單詞。對于每一個單詞，在向量中有一個索引條目。需要注意的是，某些非常低頻的詞語，可能不在字典中。

用這個one-hot向量將作為最大熵模型的輸入向量，進而進行情緒分類，命名實體分類（名字 vs 地方 vs 實體），或者詞性標(biāo)注（動詞，名詞，形容詞）等。如果想要更細粒度地按單詞運行模型，就可以這樣做。

但是，如果想要處理更大量的文本，比如一句話或一段話，該怎么辦呢？

可以將輸入向量變成一個詞袋向量，但它仍然是一種one-shot編碼，現(xiàn)在對目標(biāo)文檔中的每個單詞進行編碼，如果一個維度上有這個單詞就是1，否則就是0。然后可以運行同樣的任務(wù)，就像上面做的情緒分類一樣。

最后，在看看聲音模態(tài)。假設(shè)正在聆聽一個音頻，基本上，音頻是一個非常長的一維向量，可以使用此向量并運行分類問題以轉(zhuǎn)錄語音。在實踐中，人們用時間窗口在音頻信號中切片，并開始處理該數(shù)據(jù)集以創(chuàng)建Spectogram。在這個音頻中，檢查獲取了多少低頻與高頻成分，以千赫為記錄在Spectogram中。然后，我們將這個Spectogram轉(zhuǎn)換為模型的輸入向量。

除了僅僅進行轉(zhuǎn)錄外，還可以使用這些模型來獲取情感分類或語音質(zhì)量。

2.2 相關(guān)術(shù)語

數(shù)據(jù)集是帶有標(biāo)簽的樣本集合，包括：

訓(xùn)練集：在這個訓(xùn)練集上學(xué)習(xí)分類器
驗證集：通過查看L1或L2函數(shù)在此處選擇最佳的超參數(shù)，基本上希望看到哪些超參數(shù)會帶來最佳的結(jié)果。
測試集：在這個保留的測試集上評估分類器。

最近鄰居：最簡單但仍然是最有效的分類器之一。 - 在訓(xùn)練時間，時間復(fù)雜度為O（1），測試時間為O（N） - 它使用距離度量來找到最近的鄰居。 - 它將使用L1（曼哈頓）或L2（歐幾里得）距離。

2.3 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

根據(jù)激活函數(shù)的不同，一個神經(jīng)元可以被稱為一個線性分類器。神經(jīng)網(wǎng)絡(luò)中每個部分的組成和功能如下：

1）定義一個神經(jīng)元的得分函數(shù)，目標(biāo)是預(yù)測該類別標(biāo)簽的得分。例如，對于圖像分類問題“這是一只狗、貓、鳥還是豬？”，可以將為鴨子、貓、鳥和豬各設(shè)置一個神經(jīng)元。具有線性激活函數(shù)的神經(jīng)元如下圖所示：

接下來，在這里學(xué)習(xí)權(quán)重和偏置值。

定義損失函數(shù)（可能是非線性的）
優(yōu)化參數(shù)的權(quán)重（考慮梯度下降）

然后，考慮多層前饋神經(jīng)網(wǎng)絡(luò)。

這個多層網(wǎng)絡(luò)由一個輸入層，幾個隱藏層，以及一個可能包含激活函數(shù)的輸出層組成。每個前面的隱藏層的輸出作為后面層的輸入。

最后，我還有兩個概念需要澄清：

推理：用于測試。推理可以被看作是通過輸入獲得評分/輸出的過程。它既是獲得這個分數(shù)的行為，也涉及到它的使用。
模型參數(shù)：在訓(xùn)練時使用，將使用基于梯度的方法進行優(yōu)化?；旧?，需要有固定訓(xùn)練的數(shù)據(jù)，通過學(xué)習(xí)得到最小損失的權(quán)重和偏差。

3. 多模態(tài)機器學(xué)習(xí)的核心問題

多模態(tài)是一種新的人工智能范式，其中各種模態(tài)（文本、語音、視頻、圖像）與多種智能處理算法結(jié)合，以實現(xiàn)更高的性能。

業(yè)界有多種實現(xiàn)多模態(tài)的方式，通過多模態(tài)機器學(xué)習(xí)，希望確保該空間中的相似性對應(yīng)著相應(yīng)概念的相似性，通過存在的其他模態(tài)，給出缺失的模態(tài)內(nèi)容。多模態(tài)應(yīng)用目前包括各種任務(wù)，如信息檢索、映射和融合。

在多模態(tài)機器學(xué)習(xí)中，大約有五個核心問題——表示、翻譯、對齊、融合和協(xié)同學(xué)習(xí)。

3.1 多模態(tài)的數(shù)據(jù)表達

多模態(tài)數(shù)據(jù)的最大挑戰(zhàn)是以一種方式總結(jié)來自多個模態(tài)（或視圖）的信息，以便綜合使用互補信息，同時過濾掉冗余的模態(tài)部分。由于數(shù)據(jù)的異質(zhì)性，一些挑戰(zhàn)自然而然地出現(xiàn)，包括不同類型的噪聲、模態(tài)（或視圖）的對齊以及處理缺失數(shù)據(jù)的技術(shù)。目前，主要有兩種的方法來完成多模態(tài)表達：聯(lián)合表達和協(xié)調(diào)表達。

協(xié)調(diào)表達

多模態(tài)數(shù)據(jù)必須在非常弱的（它們的空間不重疊）或非常強的（最終成為聯(lián)合表示）之間協(xié)調(diào)，通過結(jié)構(gòu)化的協(xié)調(diào)來完成嵌入。

協(xié)調(diào)表達涉及將所有形式投射到它們的空間中，但這些空間使用約束進行協(xié)調(diào)。這種方法對根本上非常不同并且可能不適用于聯(lián)合空間的形式更有用。由于自然界中形式的多樣性，協(xié)調(diào)表達在多模態(tài)表示領(lǐng)域中比聯(lián)合表達具有巨大優(yōu)勢，使用約束進行協(xié)調(diào)是一種強大的方法。

聯(lián)合表達

聯(lián)合表達涉及將所有模態(tài)投影到一個共同的空間，同時保留來自給定模態(tài)的信息。訓(xùn)練和推理時需要所有模態(tài)的數(shù)據(jù)，這可能會使處理缺失數(shù)據(jù)變得困難。另外，通過遞歸模型，可以在每個時間步融合模態(tài)的不同視圖，最終使用聯(lián)合表示完成手頭的任務(wù)（如分類，回歸等）。

對于所有模態(tài)在推斷時都存在的任務(wù)，聯(lián)合表達更適合。另一方面，如果缺少其中一種模態(tài)，則協(xié)調(diào)表達更適合。

3.2 多模態(tài)機器翻譯

多模態(tài)機器翻譯涉及從多個模態(tài)中提取信息，基于這樣的假設(shè)，附加的模態(tài)將包含有用的輸入數(shù)據(jù)的替代視圖。在這個領(lǐng)域中最重要的任務(wù)是口語翻譯、圖像引導(dǎo)翻譯和視頻引導(dǎo)翻譯，它們分別利用音頻和視覺模態(tài)。這些任務(wù)與它們的單語對應(yīng)任務(wù)——語音識別、圖像字幕和視頻字幕——不同之處在于需要模型生成不同語言的輸出。(來源) 下面我們可以看到一個圖像字幕的例子出了大錯:

上述模型無法將視覺場景與語法句子進行同步理解，這對于強大的多模態(tài)模型至關(guān)重要。多模態(tài)翻譯模型有兩種類型：基于示例的和生成式的。

基于示例的模型將存儲一個翻譯詞典，如上所示，然后將其從一種語言模態(tài)映射到另一種。在推理過程中，模型將從字典中提取最接近的匹配項，或通過推斷字典提供的信息創(chuàng)建翻譯。這些模型需要存儲更多的信息，運行速度非常緩慢。

生成模型在推理時不需要參考訓(xùn)練數(shù)據(jù)即可產(chǎn)生翻譯。生成模型有3個類別，分別是基于語法的、變壓器模型和連續(xù)生成模型。

3.3 多模態(tài)的對齊

多模態(tài)對齊是找到兩種或更多模態(tài)之間的關(guān)系和對應(yīng)。

為了對齊不同的模態(tài)，模型必須測量它們之間的相似度并處理長距離依賴關(guān)系。多模態(tài)對齊涉及的其他困難包括缺乏注釋數(shù)據(jù)集、設(shè)計好的模態(tài)相似性度量以及存在多個正確的對齊方式。主要有兩種類型的多模態(tài)對齊：- 顯式對齊：其目標(biāo)是找到模態(tài)之間的對應(yīng)關(guān)系，并對同一事件的不同模態(tài)數(shù)據(jù)進行對齊。例如：將語音信號與轉(zhuǎn)錄對齊。- 隱式對齊：對齊有助于解決不同任務(wù)時的模型（例如“注意力”模型）。它是多個下游任務(wù)（如分類）的先驅(qū)。例如：機器翻譯

3.4 多模態(tài)的融合

多模態(tài)融合可能是更重要的問題和挑戰(zhàn)之一。融合是將來自兩個或兩個以上模態(tài)的信息結(jié)合起來解決分類或回歸問題的實踐。使用多個模態(tài)提供更強大的預(yù)測能力，使我們能夠捕獲互補信息。即使其中一個模態(tài)缺失，多模態(tài)融合模型仍可使用。

3.5 協(xié)同學(xué)習(xí)

協(xié)同學(xué)習(xí)是將學(xué)習(xí)或知識從一種模態(tài)轉(zhuǎn)移到另一種模態(tài)的挑戰(zhàn)。對于在資源有限的模態(tài)下建立模型——如缺乏注釋數(shù)據(jù)、嘈雜的輸入和不可靠的標(biāo)簽，從資源豐富的模態(tài)中轉(zhuǎn)移知識是相當(dāng)有用的。

小結(jié)

多模態(tài)機器學(xué)習(xí)是一種新的人工智能范式，結(jié)合各種模態(tài)和智能處理算法以實現(xiàn)更高的性能。多模態(tài)機器學(xué)習(xí)中的核心問題包括表示、翻譯、對齊、融合和協(xié)同學(xué)習(xí)。其中，多模態(tài)數(shù)據(jù)的表達是最大的挑戰(zhàn)之一，需要使用聯(lián)合表達和協(xié)調(diào)表達等方法。多模態(tài)機器翻譯涉及從多個模態(tài)中提取信息，基于這樣的假設(shè)，附加的模態(tài)將包含有用的輸入數(shù)據(jù)的替代視圖。多模態(tài)對齊是找到兩種或更多模態(tài)之間的關(guān)系和對應(yīng)，多模態(tài)融合可能是更重要的問題和挑戰(zhàn)之一，協(xié)同學(xué)習(xí)是將學(xué)習(xí)或知識從一種模態(tài)轉(zhuǎn)移到另一種模態(tài)的挑戰(zhàn)。

【參考資料】

http://multicomp.cs.cmu.edu/research/multimodal-representation
https://scholar.harvard.edu/files/diane/files/NAS.pdf

責(zé)任編輯：武曉燕來源：喔家ArchiSelf

多模態(tài)機器學(xué)習(xí)大腦

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營