自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CMU大牛全面總結(jié)「多模態(tài)機(jī)器學(xué)習(xí)」六大挑戰(zhàn):36頁長文+120頁P(yáng)PT,全干貨!

人工智能 新聞
最近,來自卡內(nèi)基梅隆大學(xué)的研究人員發(fā)表了一篇關(guān)于多模態(tài)機(jī)器學(xué)習(xí)的全面總結(jié),并在ICML 2023會議上舉辦了Tutorial,通過對應(yīng)用領(lǐng)域和理論框架進(jìn)行綜述,對多模態(tài)機(jī)器學(xué)習(xí)的計算和理論基礎(chǔ)進(jìn)行概述。

隨著各種語言、視覺、視頻、音頻等大模型的性能不斷提升,多模態(tài)機(jī)器學(xué)習(xí)也開始興起,通過整合多種模態(tài)的數(shù)據(jù),研究人員們開始設(shè)計更復(fù)雜的計算機(jī)智能體,能夠更好地理解、推理和學(xué)習(xí)現(xiàn)實世界。

在發(fā)展過程中,多模態(tài)機(jī)器學(xué)習(xí)的研究也帶來了計算、理論上的挑戰(zhàn),在融合多模態(tài)、智能體自主性,以及多傳感器融合等應(yīng)用場景下,還存在異構(gòu)數(shù)據(jù)源等新興的數(shù)據(jù)模式發(fā)現(xiàn)方法。

最近,來自卡內(nèi)基梅隆大學(xué)的研究人員發(fā)表了一篇關(guān)于多模態(tài)機(jī)器學(xué)習(xí)的全面總結(jié),并在ICML 2023會議上舉辦了Tutorial,通過對應(yīng)用領(lǐng)域和理論框架進(jìn)行綜述,對多模態(tài)機(jī)器學(xué)習(xí)的計算和理論基礎(chǔ)進(jìn)行概述。

論文鏈接:https://arxiv.org/pdf/2209.03430.pdf

演示文稿:https://drive.google.com/file/d/1qIYBuYrSW2-e95DL7LndfLFqGkIWFG21

研究人員首先定義了驅(qū)動后續(xù)創(chuàng)新的模態(tài)異質(zhì)性、連接和交互的三個關(guān)鍵原則,并提出了六個核心技術(shù)挑戰(zhàn)的分類:表征、對齊、推理、生成、遷移和量化,文中涵蓋多模態(tài)機(jī)器學(xué)習(xí)的研究歷史以及近期趨勢。


圖片

論文作者Paul Pu Liang是卡耐基梅隆大學(xué)機(jī)器學(xué)習(xí)系的博士生,導(dǎo)師為Louis-Philippe Morency和Ruslan Salakhutdinov,主要研究方向為多模態(tài)機(jī)器學(xué)習(xí)的基礎(chǔ),及其在社交智能AI、自然語言處理、醫(yī)療保健和教育上的應(yīng)用。

挑戰(zhàn)1:表征 Representation

如何學(xué)習(xí)能反映不同模態(tài)中單個元素之間跨模態(tài)交互的表征是一個問題,可以把這個挑戰(zhàn)視為學(xué)習(xí)元素之間的局部表征,或使用整體特征的表征。

論文中主要介紹了三個子問題:

1. 表征融合(Representation Fusion)

表征融合的目的是學(xué)習(xí)到一種聯(lián)合表征,可以模擬不同模態(tài)中各個元素之間的跨模態(tài)交互,從而有效減少獨(dú)立表征的數(shù)量。

研究人員將這些方法分為兩類:

(1)抽象模態(tài)融合,先應(yīng)用合適的單模態(tài)編碼器來捕捉每個元素(或全部模態(tài))的整體表征,然后使用表征融合的幾個構(gòu)件來學(xué)習(xí)聯(lián)合表征,即融合發(fā)生在抽象表征層面。

(2)原始模態(tài)融合,在早期階段進(jìn)行表征融合,只需要進(jìn)行簡單的預(yù)處理,甚至可以直接輸入原始模態(tài)數(shù)據(jù)本身。

2. 表征協(xié)調(diào)(Representation Coordination)

其目的是學(xué)習(xí)多模態(tài)語境化表征,這些表征通過相互關(guān)聯(lián)而相互協(xié)調(diào);與表征融合不同的是,協(xié)調(diào)保持了表征的數(shù)量不變,但改進(jìn)了多模態(tài)語境化。

文中首先討論了強(qiáng)制模態(tài)元素之間強(qiáng)等價性的強(qiáng)協(xié)調(diào),然后再討論部分協(xié)調(diào),部分協(xié)調(diào)可以捕捉到更普遍的聯(lián)系,如相關(guān)性、順序、層次或超越相似性的關(guān)系。

3. 表征裂變(Representation Fission)

其目的是創(chuàng)建一套新的解耦表征(通常比輸入表征集的數(shù)量要多),以反映內(nèi)部多模態(tài)結(jié)構(gòu)的知識,如數(shù)據(jù)聚類、獨(dú)立的變化因素或特定模態(tài)信息。

與聯(lián)合表征和協(xié)調(diào)表征相比,表征裂變可實現(xiàn)細(xì)致的解釋和細(xì)粒度的可控性,根據(jù)解耦因素的粒度,可將方法分為模態(tài)級裂變和細(xì)粒度裂變。

挑戰(zhàn)2:對齊(Alignment)

對齊的作用是識別多種模態(tài)元素之間的跨模態(tài)連接和互動,例如在分析人類主體的語音和手勢時,應(yīng)該如何才能將特定手勢與口語單詞或語句對齊?

模態(tài)之間的對齊可能存在長距離的依賴關(guān)系,或是涉及模糊的分割(如單詞或語句),而且可能是一對一、多對多或根本不存在對齊關(guān)系,所以非常具有挑戰(zhàn)性。

1. 離散對齊(Discrete Alignment)

其目標(biāo)為識別多種模態(tài)離散元素之間的聯(lián)系,最近的工作主要包括兩種方法:局部對齊發(fā)現(xiàn)給定匹配的一對模態(tài)元素之間的連接;全局對齊,必須在全局范圍內(nèi)進(jìn)行對齊,以學(xué)習(xí)連接和匹配。

2. 連續(xù)對齊(Continuous Alignment)

之前的方法基于一個重要假設(shè),即模態(tài)元素已經(jīng)被分割和離散化。

雖然某些模態(tài)存在清晰的分割(如句子中的單詞/短語或圖像中的對象區(qū)域),但在許多情況下,分割邊界并不容易找到,如連續(xù)信號(如金融或醫(yī)療時間序列)、時空數(shù)據(jù)或沒有清晰語義邊界的數(shù)據(jù)(如核磁共振圖像)。

在最近的一些工作中提出了基于連續(xù)扭曲(Continuous warping)和以適當(dāng)?shù)牧6葘⑦B續(xù)信號分割為離散元素的模態(tài)分割(Modality segmentation)的方法。

3. 上下文表征(Contextualized Representations)

其目的是為所有模態(tài)連接和交互建模,以學(xué)習(xí)更好的表征,可以當(dāng)作是中間步驟(潛在步驟),能夠在語音識別、機(jī)器翻譯、媒體描述和視覺問題解答等一系列下游任務(wù)中取得更好的性能。

文中將上下文表征方面的工作分為:

(1)聯(lián)合無向?qū)R(Joint undirected alignment),可以捕捉跨模態(tài)對的無向連接,這些連接在任一方向上都是對稱的;

(2)跨模態(tài)有向?qū)R(Cross-modal directed alignment),以有向方式將源模態(tài)中的元素與目標(biāo)模態(tài)聯(lián)系起來,可建立非對稱連接模型;

(3)圖網(wǎng)絡(luò)對齊(Graphical alignment),將無向或有向?qū)R中的順序模式推廣到元素之間的任意圖結(jié)構(gòu)中。

挑戰(zhàn)3:推理

推理的定義為結(jié)合知識,通常通過多個推理步驟,利用多模態(tài)排列和問題結(jié)構(gòu)。

1. 結(jié)構(gòu)建模(Structure Modeling)

這一步的目的在于捕捉組合的層次關(guān)系,通常是通過參數(shù)化原子、關(guān)系和推理過程的數(shù)據(jù)結(jié)構(gòu)來實現(xiàn)。

常用的數(shù)據(jù)結(jié)構(gòu)包括樹、圖或神經(jīng)模塊,文中介紹了最近在潛在層次結(jié)構(gòu)、時間結(jié)構(gòu)和交互結(jié)構(gòu)建模方面的工作,以及在潛在結(jié)構(gòu)未知的情況下發(fā)現(xiàn)結(jié)構(gòu)的工作。

2. 中間概念(Intermediate Concepts)

這個問題研究了如何在推理過程中對單個多模態(tài)概念進(jìn)行參數(shù)化。

雖然在標(biāo)準(zhǔn)神經(jīng)架構(gòu)中,中間概念通常是密集的向量表征,但在可解釋的注意力圖(attention map)、離散符號和語言作為推理的中間媒介方面,也有大量相關(guān)工作。

3. 推理范式( Inference Paradigms)

這一部分主要解決如何從單個多模態(tài)證據(jù)中推斷出越來越抽象的概念。

雖然局部表征融合(如加法、乘法、基于張量、基于注意力和順序融合)方面的進(jìn)展在此也普遍適用,但推理的目標(biāo)是通過有關(guān)多模態(tài)問題的領(lǐng)域知識,在推理過程中提高可解釋性,文中主要舉例說明通過邏輯和因果運(yùn)算符對推理過程進(jìn)行顯式建模的最新方向。

4. 外部知識

從定義組成和結(jié)構(gòu)的研究中推導(dǎo)知識,其中知識通常來自特定任務(wù)數(shù)據(jù)集上的領(lǐng)域知識。

作為使用領(lǐng)域知識預(yù)先定義組成結(jié)構(gòu)的替代方法,近期的研究工作還探索了使用數(shù)據(jù)驅(qū)動方法自動推理的方法,例如在直接任務(wù)領(lǐng)域之外廣泛獲取但監(jiān)督較弱的數(shù)據(jù)。

挑戰(zhàn)4:生成

模型需要學(xué)習(xí)生成過程,通過摘要、翻譯和創(chuàng)造,生成反映跨模態(tài)交互、結(jié)構(gòu)和連貫性的原始模態(tài),這三個類別沿用了文本生成的分類方法,根據(jù)從輸入模態(tài)到輸出模態(tài)的信息變化來進(jìn)行區(qū)分。

1. 摘要(Summarization)

摘要的目的是壓縮數(shù)據(jù),創(chuàng)建一個能代表原始內(nèi)容中最重要或最相關(guān)信息的摘要,除了文本格式外,還包括圖像、視頻、音頻等模態(tài)的摘要。

雖然大多數(shù)方法只關(guān)注從多模態(tài)數(shù)據(jù)中生成文本摘要,但也有幾個方向探索了生成摘要圖像以補(bǔ)充生成的文本摘要。

2. 翻譯(Translation)

翻譯的目的是將一種模態(tài)映射到另一種模態(tài),同時尊重語義聯(lián)系和信息內(nèi)容,例如為圖像生成描述性標(biāo)題有助于提高視覺內(nèi)容對盲人的可及性。

多模態(tài)翻譯也帶來了新的難題,例如高維結(jié)構(gòu)化數(shù)據(jù)的生成及其評估,主流方法可分為基于范例的方法和生成模型的方法,前者僅限于從訓(xùn)練實例中檢索以在不同模態(tài)之間進(jìn)行翻譯,但能保證翻譯的保真度;后者可翻譯成數(shù)據(jù)之外的任意插值實例,但在質(zhì)量、多樣性和評估方面面臨挑戰(zhàn)。

盡管存在這些挑戰(zhàn),最近在大規(guī)模翻譯模型方面取得的進(jìn)展已經(jīng)在文本到圖像、文本到視頻、音頻到圖像、文本到語音、語音到姿態(tài)、說話者到聽眾、語言到姿態(tài)以及語音和音樂生成等方面產(chǎn)生了令人印象深刻的高質(zhì)量生成內(nèi)容。

3. 創(chuàng)造(Creation)

創(chuàng)造的目的是從小規(guī)模的初始示例或潛在的條件變量生成新穎的高維數(shù)據(jù)(可涵蓋文本、圖像、音頻、視頻和其他模態(tài)),該條件解碼過程極具挑戰(zhàn)性,需要模型具有:

(1)有條件:保留從初始種子到一系列遠(yuǎn)距離并行模態(tài)的語義映射;

(2)同步:跨模態(tài)的語義一致性;

(3)隨機(jī):在特定狀態(tài)下捕捉許多可能的后代;

(4)在可能的遠(yuǎn)距離范圍內(nèi)自動回歸。

挑戰(zhàn)5:遷移(Transference)

其目的是在模態(tài)及其表征之間遷移知識,主要它探索從第二種模態(tài)中學(xué)到的知識(如預(yù)測標(biāo)簽或表征)如何幫助在第一模態(tài)上訓(xùn)練的模型?

當(dāng)主模態(tài)的資源有限(如缺乏標(biāo)注數(shù)據(jù)、輸入噪聲大或標(biāo)簽不可靠)時,解決這一問題尤為重要,因為次模態(tài)信息的遷移會產(chǎn)生主模態(tài)從未見過的新行為。

1. 跨模態(tài)遷移(Cross-modal Transfer)

在大多數(shù)情況下,收集第二模態(tài)的標(biāo)注或非標(biāo)注數(shù)據(jù)并訓(xùn)練強(qiáng)大的監(jiān)督或預(yù)訓(xùn)練模型可能更容易,然后可以針對涉及主模態(tài)的下游任務(wù)對這些模型進(jìn)行調(diào)節(jié)或微調(diào),從而將單模態(tài)遷移和微調(diào)擴(kuò)展到了跨模態(tài)環(huán)境中。

2. 多模態(tài)協(xié)同學(xué)習(xí)(Multimodal Co-learning)

多模態(tài)協(xié)同學(xué)習(xí)旨在通過共享兩種模態(tài)之間的中間表征空間,將通過次模態(tài)學(xué)習(xí)到的信息遷移到包含主模態(tài)的目標(biāo)任務(wù)中,這些方法的本質(zhì)是在所有模態(tài)中建立一個單一的聯(lián)合模型。

3. 模型歸納(Model Induction)

與協(xié)同學(xué)習(xí)不同,模型歸納方法將主模態(tài)和次模態(tài)的單模態(tài)模型分開,但目的是歸納兩個模型的行為。

聯(lián)合訓(xùn)練就是模型歸納的一個例子:在聯(lián)合訓(xùn)練中,兩種學(xué)習(xí)算法分別在數(shù)據(jù)的每個視圖上進(jìn)行訓(xùn)練,然后使用每種算法的預(yù)測對未標(biāo)記的新示例進(jìn)行偽標(biāo)記,以擴(kuò)大另一個視圖的訓(xùn)練集,也就是說,信息是通過模型預(yù)測而不是共享表示空間在多個視圖之間傳遞的。

挑戰(zhàn)6:量化

量化的目的是對多模態(tài)模型進(jìn)行更深入的實證和理論研究,以獲得洞察力并提高其在實際應(yīng)用中的穩(wěn)健性、可解釋性和可靠性。

1. 異質(zhì)性的維度(Dimensions of Heterogeneity)

這部分主要了解多模態(tài)研究中常見的異質(zhì)性維度,以及后續(xù)如何影響建模和學(xué)習(xí)。

2. 模態(tài)互聯(lián)(Modality Interconnections)

模態(tài)之間的連接和交互是多模態(tài)模型的重要組成部分,激發(fā)了可視化和理解數(shù)據(jù)集和訓(xùn)練模型中模態(tài)互連性質(zhì)的相關(guān)工作。

研究人員將近期的工作分為以下兩個方面的量化:

(1)連接:模態(tài)之間如何關(guān)聯(lián)并共享共性;

(2)交互:推理過程中模態(tài)元素如何交互。

3. 多模態(tài)學(xué)習(xí)過程(Multimodal Learning Process)

最后一個問題主要解決模型從異構(gòu)數(shù)據(jù)中學(xué)習(xí)時所面臨的學(xué)習(xí)和優(yōu)化挑戰(zhàn),文中主要從三方面介紹了相關(guān)工作:

(1) 跨模態(tài)和跨任務(wù)的泛化;

(2) 更好地優(yōu)化以實現(xiàn)均衡高效的訓(xùn)練;

(3) 在實際部署中性能、魯棒性和復(fù)雜性之間的權(quán)衡。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2016-11-08 18:00:44

機(jī)器學(xué)習(xí)

2020-06-04 07:00:00

機(jī)器學(xué)習(xí)人工智能Python

2022-10-19 14:23:17

2023-05-28 23:26:16

多模態(tài)機(jī)器學(xué)習(xí)大腦

2018-12-13 09:45:10

設(shè)計微服務(wù)架構(gòu)

2017-03-06 17:56:20

webpack管理多頁應(yīng)用

2017-07-27 14:18:41

大數(shù)據(jù)挑戰(zhàn)動向

2022-07-25 15:10:31

數(shù)據(jù)治理管理IT

2020-07-19 07:32:49

運(yùn)營物聯(lián)網(wǎng)IOT

2022-04-15 11:36:03

SaaS安全數(shù)據(jù)安全網(wǎng)絡(luò)安全

2010-05-06 09:45:18

Linux虛擬化

2024-12-20 09:39:05

2019-01-02 08:30:41

2015-10-14 14:58:13

2022-02-25 20:44:28

框架深度學(xué)習(xí)架構(gòu)

2025-03-27 00:25:55

微服務(wù)架構(gòu)技術(shù)

2025-01-08 08:21:16

2023-01-16 07:53:28

工業(yè)機(jī)器人趨勢

2012-11-03 08:52:32

2025-03-23 22:05:22

點贊
收藏

51CTO技術(shù)棧公眾號