自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

淺析多模態(tài)機器學(xué)習(xí)

原創(chuàng) 精選
人工智能 機器學(xué)習(xí)
人類有五種基本感官:觸覺、視覺、聽覺、嗅覺和味覺。與每一種感覺相關(guān)的感覺器官向大腦發(fā)送信息,幫助我們理解和感知我們周圍的世界。

GPT-4的發(fā)布給ChatGPT帶來了又一次飛躍,ChatGPT不僅支持文字輸入,還能看得懂圖片、甚至是漫畫、梗圖,以GPT-4為代表的多模態(tài)大模型非常強大。多模態(tài)大模型就是指模型可以處理多種結(jié)構(gòu)/類型的數(shù)據(jù),例如GPT-4,它既可以處理你輸入的文本,也可以處理你上傳的圖片。

那么,多模態(tài)到底意味著什么呢?

1. 什么是多模態(tài)?

人類有五種基本感官:觸覺、視覺、聽覺、嗅覺和味覺。與每一種感覺相關(guān)的感覺器官向大腦發(fā)送信息,幫助我們理解和感知我們周圍的世界。然而,事實上,除了這五種基本的感官之外,還有其他的人類感官是你生活中必不可少的。這些鮮為人知的感覺包括空間意識和平衡等。通過這些感官的交互,也就是多模態(tài),以下是最常見的幾種模態(tài):

圖片

GPT-4專注于語言和視覺作為一些基本的模態(tài)。所謂融合,是指將來自兩個或多個模態(tài)的信息合并以執(zhí)行預(yù)測任務(wù)。有兩種類型的融合:- 早期融合:模態(tài)將在訓(xùn)練早期就連接起來。- 晚期融合:我需要在每個模態(tài)早期進行一些處理,然后再將它們組合起來。

看一些現(xiàn)實世界的例子,了解什么是MMML應(yīng)用:

圖片

2. 單模態(tài)分類模型及一些基本概念

從單模態(tài)的分類模型開始,分析視覺、文本和聲音模態(tài)的基本處理方法,還試圖澄清了數(shù)據(jù)集、最近鄰居、神經(jīng)網(wǎng)絡(luò)基礎(chǔ)、推理和模型參數(shù)等相關(guān)術(shù)語和概念。

2.1 單模態(tài)的分類模型

從一種模態(tài)的分類模型開始,例如視覺分類,給定一張圖片,它是不是一只狗呢?

圖片

這是三個二維矩陣疊加在一起形成的彩色圖像,如何解決這個圖像分類問題呢?因為大多數(shù)神經(jīng)網(wǎng)絡(luò)或分類器只接受二維矩陣,為了制作這個輸入向量,需要將這個三維向量分解并將它們疊加在一起,就像下面的圖像所示的那樣。然后,才能能夠通過多分類輸出來獲取目標(biāo)的對象分類。

圖片

對于單模態(tài)模型,首先有一個輸入,可以是如上所述的3D矩陣,然后將其傳遞到已經(jīng)訓(xùn)練好的模型中,得到一個分類(單類或多類)或回歸輸出。

對于單詞、句子或段落這樣的模態(tài)而言,有兩種類型:書面(文本)和聲音(轉(zhuǎn)錄)。舉個例子,假設(shè)從一段文本中提取了一個單詞,想要了解這是正面還是負面的情緒。該怎么做呢?

圖片

為了簡單起見,可以使用one-hot向量,這是一個非常長的向量,其長度是字典的長度。這個字典是我們的模型從訓(xùn)練集中創(chuàng)建的,計算出它所發(fā)現(xiàn)的所有去重后的單詞。對于每一個單詞,在向量中有一個索引條目。需要注意的是,某些非常低頻的詞語,可能不在字典中。

用這個one-hot向量將作為最大熵模型的輸入向量,進而進行情緒分類,命名實體分類(名字 vs 地方 vs 實體),或者詞性標(biāo)注(動詞,名詞,形容詞)等。如果想要更細粒度地按單詞運行模型,就可以這樣做。

但是,如果想要處理更大量的文本,比如一句話或一段話,該怎么辦呢?

可以將輸入向量變成一個詞袋向量,但它仍然是一種one-shot編碼,現(xiàn)在對目標(biāo)文檔中的每個單詞進行編碼,如果一個維度上有這個單詞就是1,否則就是0。然后可以運行同樣的任務(wù),就像上面做的情緒分類一樣。

圖片

最后,在看看聲音模態(tài)。假設(shè)正在聆聽一個音頻,基本上,音頻是一個非常長的一維向量,可以使用此向量并運行分類問題以轉(zhuǎn)錄語音。在實踐中,人們用時間窗口在音頻信號中切片,并開始處理該數(shù)據(jù)集以創(chuàng)建Spectogram。在這個音頻中,檢查獲取了多少低頻與高頻成分,以千赫為記錄在Spectogram中。然后,我們將這個Spectogram轉(zhuǎn)換為模型的輸入向量。

圖片

除了僅僅進行轉(zhuǎn)錄外,還可以使用這些模型來獲取情感分類或語音質(zhì)量。

2.2 相關(guān)術(shù)語

數(shù)據(jù)集是帶有標(biāo)簽的樣本集合,包括:

  • 訓(xùn)練集:在這個訓(xùn)練集上學(xué)習(xí)分類器
  • 驗證集:通過查看L1或L2函數(shù)在此處選擇最佳的超參數(shù),基本上希望看到哪些超參數(shù)會帶來最佳的結(jié)果。
  • 測試集:在這個保留的測試集上評估分類器。

最近鄰居:最簡單但仍然是最有效的分類器之一。    - 在訓(xùn)練時間,時間復(fù)雜度為O(1),測試時間為O(N)     - 它使用距離度量來找到最近的鄰居。    - 它將使用L1(曼哈頓)或L2(歐幾里得)距離。

2.3 神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

根據(jù)激活函數(shù)的不同,一個神經(jīng)元可以被稱為一個線性分類器。神經(jīng)網(wǎng)絡(luò)中每個部分的組成和功能如下:

1)定義一個神經(jīng)元的得分函數(shù),目標(biāo)是預(yù)測該類別標(biāo)簽的得分。例如,對于圖像分類問題“這是一只狗、貓、鳥還是豬?”,可以將為鴨子、貓、鳥和豬各設(shè)置一個神經(jīng)元。具有線性激活函數(shù)的神經(jīng)元如下圖所示:

圖片

接下來,在這里學(xué)習(xí)權(quán)重和偏置值。

  • 定義損失函數(shù)(可能是非線性的)
  • 優(yōu)化參數(shù)的權(quán)重(考慮梯度下降)

然后,考慮多層前饋神經(jīng)網(wǎng)絡(luò)。

圖片

這個多層網(wǎng)絡(luò)由一個輸入層,幾個隱藏層,以及一個可能包含激活函數(shù)的輸出層組成。每個前面的隱藏層的輸出作為后面層的輸入。

最后,我還有兩個概念需要澄清:

  • 推理:用于測試。推理可以被看作是通過輸入獲得評分/輸出的過程。它既是獲得這個分數(shù)的行為,也涉及到它的使用。
  • 模型參數(shù):在訓(xùn)練時使用,將使用基于梯度的方法進行優(yōu)化?;旧?,需要有固定訓(xùn)練的數(shù)據(jù),通過學(xué)習(xí)得到最小損失的權(quán)重和偏差。

圖片

3. 多模態(tài)機器學(xué)習(xí)的核心問題

多模態(tài)是一種新的人工智能范式,其中各種模態(tài)(文本、語音、視頻、圖像)與多種智能處理算法結(jié)合,以實現(xiàn)更高的性能。

業(yè)界有多種實現(xiàn)多模態(tài)的方式,通過多模態(tài)機器學(xué)習(xí),希望確保該空間中的相似性對應(yīng)著相應(yīng)概念的相似性,通過存在的其他模態(tài), 給出缺失的模態(tài)內(nèi)容。多模態(tài)應(yīng)用目前包括各種任務(wù),如信息檢索、映射和融合。

在多模態(tài)機器學(xué)習(xí)中,大約有五個核心問題——表示、翻譯、對齊、融合和協(xié)同學(xué)習(xí)。

3.1 多模態(tài)的數(shù)據(jù)表達

多模態(tài)數(shù)據(jù)的最大挑戰(zhàn)是以一種方式總結(jié)來自多個模態(tài)(或視圖)的信息,以便綜合使用互補信息,同時過濾掉冗余的模態(tài)部分。由于數(shù)據(jù)的異質(zhì)性,一些挑戰(zhàn)自然而然地出現(xiàn),包括不同類型的噪聲、模態(tài)(或視圖)的對齊以及處理缺失數(shù)據(jù)的技術(shù)。目前,主要有兩種的方法來完成多模態(tài)表達:聯(lián)合表達和協(xié)調(diào)表達。

圖片

圖片

協(xié)調(diào)表達

多模態(tài)數(shù)據(jù)必須在非常弱的(它們的空間不重疊)或非常強的(最終成為聯(lián)合表示)之間協(xié)調(diào),通過結(jié)構(gòu)化的協(xié)調(diào)來完成嵌入。

圖片

協(xié)調(diào)表達涉及將所有形式投射到它們的空間中,但這些空間使用約束進行協(xié)調(diào)。這種方法對根本上非常不同并且可能不適用于聯(lián)合空間的形式更有用。由于自然界中形式的多樣性,協(xié)調(diào)表達在多模態(tài)表示領(lǐng)域中比聯(lián)合表達具有巨大優(yōu)勢,使用約束進行協(xié)調(diào)是一種強大的方法。

聯(lián)合表達

聯(lián)合表達涉及將所有模態(tài)投影到一個共同的空間,同時保留來自給定模態(tài)的信息。訓(xùn)練和推理時需要所有模態(tài)的數(shù)據(jù),這可能會使處理缺失數(shù)據(jù)變得困難。另外,通過遞歸模型,可以在每個時間步融合模態(tài)的不同視圖,最終使用聯(lián)合表示完成手頭的任務(wù)(如分類,回歸等)。

對于所有模態(tài)在推斷時都存在的任務(wù),聯(lián)合表達更適合。另一方面,如果缺少其中一種模態(tài),則協(xié)調(diào)表達更適合。

3.2 多模態(tài)機器翻譯

多模態(tài)機器翻譯涉及從多個模態(tài)中提取信息,基于這樣的假設(shè),附加的模態(tài)將包含有用的輸入數(shù)據(jù)的替代視圖。在這個領(lǐng)域中最重要的任務(wù)是口語翻譯、圖像引導(dǎo)翻譯和視頻引導(dǎo)翻譯,它們分別利用音頻和視覺模態(tài)。這些任務(wù)與它們的單語對應(yīng)任務(wù)——語音識別、圖像字幕和視頻字幕——不同之處在于需要模型生成不同語言的輸出。(來源) 下面我們可以看到一個圖像字幕的例子出了大錯:

圖片

上述模型無法將視覺場景與語法句子進行同步理解,這對于強大的多模態(tài)模型至關(guān)重要。多模態(tài)翻譯模型有兩種類型:基于示例的和生成式的。

圖片

基于示例的模型將存儲一個翻譯詞典,如上所示,然后將其從一種語言模態(tài)映射到另一種。在推理過程中,模型將從字典中提取最接近的匹配項,或通過推斷字典提供的信息創(chuàng)建翻譯。這些模型需要存儲更多的信息,運行速度非常緩慢。

生成模型在推理時不需要參考訓(xùn)練數(shù)據(jù)即可產(chǎn)生翻譯。生成模型有3個類別,分別是基于語法的、變壓器模型和連續(xù)生成模型。

3.3 多模態(tài)的對齊

多模態(tài)對齊是找到兩種或更多模態(tài)之間的關(guān)系和對應(yīng)。

圖片

為了對齊不同的模態(tài),模型必須測量它們之間的相似度并處理長距離依賴關(guān)系。多模態(tài)對齊涉及的其他困難包括缺乏注釋數(shù)據(jù)集、設(shè)計好的模態(tài)相似性度量以及存在多個正確的對齊方式。主要有兩種類型的多模態(tài)對齊:- 顯式對齊 :其目標(biāo)是找到模態(tài)之間的對應(yīng)關(guān)系,并對同一事件的不同模態(tài)數(shù)據(jù)進行對齊。例如:將語音信號與轉(zhuǎn)錄對齊。- 隱式對齊 :對齊有助于解決不同任務(wù)時的模型(例如“注意力”模型)。它是多個下游任務(wù)(如分類)的先驅(qū)。例如:機器翻譯

3.4 多模態(tài)的融合

多模態(tài)融合可能是更重要的問題和挑戰(zhàn)之一。融合是將來自兩個或兩個以上模態(tài)的信息結(jié)合起來解決分類或回歸問題的實踐。使用多個模態(tài)提供更強大的預(yù)測能力,使我們能夠捕獲互補信息。即使其中一個模態(tài)缺失,多模態(tài)融合模型仍可使用。

圖片

3.5 協(xié)同學(xué)習(xí)

協(xié)同學(xué)習(xí)是將學(xué)習(xí)或知識從一種模態(tài)轉(zhuǎn)移到另一種模態(tài)的挑戰(zhàn)。對于在資源有限的模態(tài)下建立模型——如缺乏注釋數(shù)據(jù)、嘈雜的輸入和不可靠的標(biāo)簽,從資源豐富的模態(tài)中轉(zhuǎn)移知識是相當(dāng)有用的。

圖片

小結(jié)

多模態(tài)機器學(xué)習(xí)是一種新的人工智能范式,結(jié)合各種模態(tài)和智能處理算法以實現(xiàn)更高的性能。多模態(tài)機器學(xué)習(xí)中的核心問題包括表示、翻譯、對齊、融合和協(xié)同學(xué)習(xí)。其中,多模態(tài)數(shù)據(jù)的表達是最大的挑戰(zhàn)之一,需要使用聯(lián)合表達和協(xié)調(diào)表達等方法。多模態(tài)機器翻譯涉及從多個模態(tài)中提取信息,基于這樣的假設(shè),附加的模態(tài)將包含有用的輸入數(shù)據(jù)的替代視圖。多模態(tài)對齊是找到兩種或更多模態(tài)之間的關(guān)系和對應(yīng),多模態(tài)融合可能是更重要的問題和挑戰(zhàn)之一,協(xié)同學(xué)習(xí)是將學(xué)習(xí)或知識從一種模態(tài)轉(zhuǎn)移到另一種模態(tài)的挑戰(zhàn)。

【參考資料】

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2022-11-03 14:48:29

機器學(xué)習(xí)元宇宙

2022-04-25 15:13:03

自動駕駛傳感器

2023-06-27 13:54:57

機器學(xué)習(xí)模型

2024-04-08 00:12:19

2025-01-08 08:21:16

2023-03-26 20:43:45

2019-12-16 09:30:44

機器學(xué)習(xí)人工智能計算機

2022-02-07 16:11:39

自動駕駛汽車安全

2020-09-29 17:00:33

人工智能

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2021-04-13 10:50:16

機器學(xué)習(xí)人工智能計算機

2025-02-27 01:00:00

大模型OLMOCRrag

2023-04-13 15:25:14

模型

2024-12-26 01:20:53

多模態(tài)大模型圖片

2025-03-19 09:30:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2023-08-21 12:22:54

機器學(xué)習(xí)總結(jié)
點贊
收藏

51CTO技術(shù)棧公眾號