自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

太全了!多模態(tài)深度學(xué)習(xí)的綜述!

人工智能 深度學(xué)習(xí)
我們對世界的體驗是多模態(tài)的 —— 我們看到物體,聽到聲音,感覺到質(zhì)地,聞到氣味,嘗到味道。模態(tài)是指某件事發(fā)生或經(jīng)歷的方式,當一個研究問題包含多個模態(tài)時,它就具有多模態(tài)的特征。

1.介紹

我們對世界的體驗是多模態(tài)的 —— 我們看到物體,聽到聲音,感覺到質(zhì)地,聞到氣味,嘗到味道。模態(tài)是指某件事發(fā)生或經(jīng)歷的方式,當一個研究問題包含多個模態(tài)時,它就具有多模態(tài)的特征。為了讓人工智能在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態(tài)的信號。

例如,圖像通常與標簽和文本解釋相關(guān)聯(lián),文本包含圖像,以更清楚地表達文章的中心思想。不同的模態(tài)具有非常不同的統(tǒng)計特性。這些數(shù)據(jù)被稱為多模態(tài)大數(shù)據(jù),包含豐富的多模態(tài)和跨模態(tài)信息,對傳統(tǒng)的數(shù)據(jù)融合方法提出了巨大的挑戰(zhàn)。

這篇綜述中,我們會介紹一些開創(chuàng)性的深度學(xué)習(xí)模型來融合這些多模態(tài)大數(shù)據(jù)。隨著對多模態(tài)大數(shù)據(jù)的探索越來越多,仍有一些挑戰(zhàn)需要解決。因此,本文對多模態(tài)數(shù)據(jù)融合的深度學(xué)習(xí)進行了綜述,旨在為讀者(無論其原始社區(qū)如何)提供多模態(tài)深度學(xué)習(xí)融合方法的基本原理,并激發(fā)深度學(xué)習(xí)的新型多模態(tài)數(shù)據(jù)融合技術(shù)。

通過多模態(tài)深度學(xué)習(xí),結(jié)合不同的模態(tài)或信息類型來提高效果,從直觀上看是一項很有吸引力的任務(wù),但在實踐中,如何結(jié)合不同的噪聲水平和模態(tài)之間的沖突是一個挑戰(zhàn)。此外,模型對預(yù)測結(jié)果有不同的定量影響。在實踐中最常見的方法是將不同輸入的高級嵌入連接起來,然后應(yīng)用softmax。

種方法的問題是,它將給予所有子網(wǎng)絡(luò)/模式同等的重要性,這在現(xiàn)實情況中是非常不可能的。這里需要采用子網(wǎng)絡(luò)的加權(quán)組合,以便每個輸入模態(tài)可以對輸出預(yù)測有一個學(xué)習(xí)貢獻(Theta)。

2.具有代表性的深度學(xué)習(xí)架構(gòu)   

在本節(jié)中,我們將介紹多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型的代表性深度學(xué)習(xí)架構(gòu)。具體而言,給出了深度架構(gòu)的定義、前饋計算和反向傳播計算,以及典型的變體。表1總結(jié)了代表性模型。

 表1:代表性深度學(xué)習(xí)模型摘要。

2.1 深度信念網(wǎng)絡(luò)(DBN)  

受限玻爾茲曼機(RBM)是深度信念網(wǎng)的基本塊(Zhang, Ding, Zhang, & Xue, 2018;Bengio,2009 年)。RBM是玻爾茲曼機的特殊變體(見圖1)。它由可見層和隱藏層組成;可見層的單元與隱藏層的單元之間存在全連接連接,但同一層中的單元之間沒有連接。RBM 也是一個生成圖形模型,它使用能量函數(shù)以捕獲可見單元和隱藏單元之間的概率分布.

最近,有人提出了一些先進的RBM來提高性能。例如,為了避免網(wǎng)絡(luò)過度擬合,Chen, Zhang, Yeung, and Chen (2017) 設(shè)計了稀疏玻爾茲曼機,該機基于分層潛在樹學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。Ning, Pittman, and Shen (2018) 將快速對比發(fā)散算法引入 RBM,其中基于邊界的濾波和 delta 積用于減少計算中的冗余點積計算。為了保護多維數(shù)據(jù)的內(nèi)部結(jié)構(gòu),Ju et al. ( 2019) 提出了張量 RBM,學(xué)習(xí)隱藏在多維數(shù)據(jù)中的高級分布,其中使用張量分解來避免維災(zāi)難。

DBM是一種典型的深度架構(gòu),由多個RBM堆疊而成(Hinton&Salakhutdinov,2006)。它是一種基于預(yù)訓(xùn)練和微調(diào)訓(xùn)練策略,可以利用能量來捕捉可見物體與相應(yīng)標簽之間的關(guān)節(jié)分布的生成模型。在預(yù)訓(xùn)練中,每個隱藏層都被貪婪地建模為在無監(jiān)督策略中訓(xùn)練的 RBM。之后,通過監(jiān)督策略中訓(xùn)練標簽的判別信息進一步訓(xùn)練每個隱藏層。DBN 已被用于解決許多領(lǐng)域的問題,例如數(shù)據(jù)降維、表示學(xué)習(xí)和語義哈希。具有代表性的 DBM 如圖 1 所示。

 圖 1:

2.2 堆疊式自動編碼器(SAE)  

堆疊式自動編碼器(SAE)是編碼器-解碼器架構(gòu)的典型深度學(xué)習(xí)模型(Michael,Olivier和Mario,2018;翁,盧,譚,和周,2016)。它可以通過以無監(jiān)督-監(jiān)督方式將原始輸入轉(zhuǎn)換為中間表示來捕獲輸入的簡潔特征。SAE已廣泛應(yīng)用于許多領(lǐng)域,包括降維(Wang,Yao,&Zhao,2016),圖像識別(Jia,Shao,Li,Zhao,&Fu,2018)和文本分類(Chen&Zaki,2017)。圖 2 展示了具有代表性的 SAE。    

 圖2:

2.3 卷積神經(jīng)網(wǎng)絡(luò)(CNN)  

DBN 和 SAE 是完全連接的神經(jīng)網(wǎng)絡(luò)。在這兩個網(wǎng)絡(luò)中,隱藏層中的每個神經(jīng)元都連接到前一層的每個神經(jīng)元,這種拓撲結(jié)構(gòu)會產(chǎn)生大量連接。為了訓(xùn)練這些連接的權(quán)重,全連接的神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練對象來避免過度擬合和欠擬合,這是計算密集型的。此外,全連接拓撲不考慮神經(jīng)元之間所包含的特征的位置信息。因此,完全連接的深度神經(jīng)網(wǎng)絡(luò)(DBN、SAE及其變體)無法處理高維數(shù)據(jù),尤其是大圖像和大音頻數(shù)據(jù)。

卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的深度網(wǎng)絡(luò),它考慮了數(shù)據(jù)的局部拓撲結(jié)構(gòu)(Li, Xia, Du, Lin, & Samat, 2017;Sze,Chen,Yang和Emer,2017)。卷積神經(jīng)網(wǎng)絡(luò)包括全連接網(wǎng)絡(luò)和包含卷積層和池化層的約束網(wǎng)絡(luò)。約束網(wǎng)絡(luò)使用卷積和池化運算來實現(xiàn)局部感受野和參數(shù)約簡。與 DBN 和 SAE 一樣,卷積神經(jīng)網(wǎng)絡(luò)也通過隨機梯度下降算法進行訓(xùn)練。它在醫(yī)學(xué)圖像識別(Maggiori,Tarabalka,Charpiat和Alliez,2017)和語義分析(胡,Lu,Li,&Chen,2014)方面取得了很大進展。具有代表性的 CNN 如圖 3 所示。

 圖 3:    

2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)  

遞歸神經(jīng)網(wǎng)絡(luò)是一種處理串行數(shù)據(jù)的神經(jīng)計算架構(gòu)(Martens & Sutskever, 2011;Sutskever,Martens和Hinton,2011)。與深度前向架構(gòu)(即DBN,SAE和CNN)不同,它不僅將輸入模式映射到輸出結(jié)果,而且還通過利用隱藏單元之間的連接將隱藏狀態(tài)傳輸?shù)捷敵觯℅raves&Schmidhuber,2008)。通過使用這些隱藏的連接,RNN 對時間依賴性進行建模,從而在時間維度上共享對象之間的參數(shù)。它已被應(yīng)用于各個領(lǐng)域,如語音分析(Mulder,Bethard和Moens,2015),圖像標題(Xu等人,2015)和語言翻譯(Graves&Jaitly,2014),取得了出色的性能。與深度前向架構(gòu)類似,其計算也包括前向傳遞和反向傳播階段。在前向傳遞計算中,RNN 同時獲取輸入和隱藏狀態(tài)。在反向傳播計算中,它使用時間反向傳播算法來反向傳播時間步長的損耗。圖 4 顯示了具有代表性的 RNN。   

 圖 4:

3.面向多模態(tài)數(shù)據(jù)融合的深度學(xué)習(xí)   

在本節(jié)中,我們從模型任務(wù)、模型框架和評估數(shù)據(jù)集的角度回顧了最具代表性的多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型。根據(jù)所使用的深度學(xué)習(xí)架構(gòu),它們分為四類。表2總結(jié)了具有代表性的多模態(tài)深度學(xué)習(xí)模型。

 表2:

代表性多模態(tài)深度學(xué)習(xí)模型摘要.

3.1 基于網(wǎng)絡(luò)的深度信念多模態(tài)數(shù)據(jù)融合  

3.1.1 示例1  

Srivastava 和 Salakhutdinov (2012) 提出了一種基于深度玻爾茲曼學(xué)習(xí)模型的多模態(tài)生成模型,通過擬合多模態(tài)數(shù)據(jù)在各種模態(tài)(如圖像、文本和音頻)上的聯(lián)合分布來學(xué)習(xí)多模態(tài)表示。

所提出的多模態(tài)DBN的每個模塊均采用無監(jiān)督逐層方式進行初始化,并采用基于MCMC的近似方法進行模型訓(xùn)練。    

為了評估學(xué)習(xí)到的多模態(tài)表示,執(zhí)行了大量的任務(wù),例如生成缺失模態(tài)任務(wù)、推斷聯(lián)合表示任務(wù)和判別任務(wù)。實驗驗證了學(xué)習(xí)到的多模態(tài)表示是否滿足所需的屬性。

3.1.2 示例2  

為了在早期有效診斷阿爾茨海默病,Suk、Lee、Shen和阿爾茨海默病神經(jīng)影像學(xué)計劃(2014)提出了一種多模態(tài)玻爾茲曼模型,該模型可以融合多模態(tài)數(shù)據(jù)中的互補知識。具體來說,為了解決淺層特征學(xué)習(xí)方法造成的局限性,DBN用于通過將特定領(lǐng)域的表示轉(zhuǎn)移到分層抽象表示來學(xué)習(xí)每個模態(tài)的深度表示。然后,在串聯(lián)向量上構(gòu)建單層 RBM,該向量是來自每個模態(tài)的分層抽象表示的線性組合。它用于通過構(gòu)建不同多模態(tài)特征的聯(lián)合分布來學(xué)習(xí)多模態(tài)表示。最后,根據(jù)三種典型診斷對ADNI數(shù)據(jù)集對所提出的模型進行了廣泛的評估,實現(xiàn)了最先進的診斷準確性。

3.1.3 示例3  

為了準確估計人類姿勢,Ouyang, Chu, and Wang (2014)設(shè)計了一個多源深度學(xué)習(xí)模型,該模型通過提取高階空間中身體模式的聯(lián)合分布,從混合類型、外觀得分和變形模態(tài)中學(xué)習(xí)多模態(tài)表示。在人-姿態(tài)多源深度模型中,從圖像結(jié)構(gòu)模型中提取了三種廣泛使用的模態(tài),這些模型基于條件隨機場理論組合了身體的各個部位。為了獲得多模態(tài)數(shù)據(jù),通過線性支持向量機對圖形結(jié)構(gòu)模型進行訓(xùn)練。之后,這三個特征中的每一個都被輸入到一個兩層受限玻爾茲曼模型中,以從特定于特征的表示中捕獲高階姿態(tài)空間的抽象表示。通過無監(jiān)督初始化,每個特定模態(tài)的受限玻爾茲曼模型都會捕獲全局空間的固有表示。然后,使用RBM進一步學(xué)習(xí)基于高級混合類型、外觀得分和變形表示的串聯(lián)向量的人體姿態(tài)表示。為了訓(xùn)練所提出的多源深度學(xué)習(xí)模型,設(shè)計了一個同時考慮身體位置和人體檢測的任務(wù)特定目標函數(shù)。所提出的模型在LSP、PARSE和UIUC上進行了驗證,并產(chǎn)生了高達8.6%的改進。    

最近,人們提出了一些新的基于DBN的多模態(tài)特征學(xué)習(xí)模型。例如,Amer、Shields、Siddiquie 和 Tamrakar ( 2018) 提出了一種用于序列事件檢測的混合方法,其中采用條件 RBM 來提取具有附加判別標簽信息的模態(tài)和跨模態(tài)特征。Al-Waisy、Qahwaji、Ipson 和 Al-Fahdawi ( 2018) 引入了一種識別人臉的多模態(tài)方法。在這種方法中,使用基于DBN的模型對Curvelet變換捕獲的局部手工特征的多模態(tài)分布進行建模,可以合并局部特征和深度特征的優(yōu)勢(Al-Waisy等人,2018)。

3.1.4 小結(jié)  

這些基于DBN的多模態(tài)模型使用概率圖形網(wǎng)絡(luò)將特定于模態(tài)的表示轉(zhuǎn)換為共享空間中的語義特征。然后,根據(jù)共享空間的特征對模態(tài)上的聯(lián)合分布進行建模。這些基于DBN的多模態(tài)模型在無監(jiān)督、半監(jiān)督和監(jiān)督學(xué)習(xí)策略中更加靈活和穩(wěn)健。它們非常適合捕獲輸入數(shù)據(jù)的信息特征。然而,他們忽略了多模態(tài)數(shù)據(jù)的空間和時間拓撲結(jié)構(gòu)。

3.2 基于堆疊自編碼器的多模態(tài)數(shù)據(jù)融合  

3.2.1 示例4    

Ngiam et al. (2011) 提出的多模態(tài)深度學(xué)習(xí)是基于堆疊自編碼器 (SAE) 的多模態(tài)數(shù)據(jù)融合最具代表性的深度學(xué)習(xí)模型。這種深度學(xué)習(xí)模型旨在解決兩個數(shù)據(jù)融合問題:跨模態(tài)和共享模態(tài)表征學(xué)習(xí)。前者旨在利用來自其他模態(tài)的知識來捕捉更好的單模態(tài)表示,而后者則在中級學(xué)習(xí)模態(tài)之間的復(fù)雜相關(guān)性。為了實現(xiàn)這些目標,設(shè)計了三種學(xué)習(xí)場景——多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí),如表 3 和圖 6 所示。

 圖 6:

多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí)的架構(gòu)。多模態(tài)、跨模態(tài)和共享模態(tài)學(xué)習(xí)的架構(gòu)。

表3:   多模態(tài)學(xué)習(xí)的設(shè)置。

在多模態(tài)學(xué)習(xí)場景中,音頻頻譜圖和視頻幀以線性方式連接成向量。將串聯(lián)向量饋入稀疏受限玻爾茲曼機 (SRBM),以學(xué)習(xí)音頻和視頻之間的相關(guān)性。該模型只能學(xué)習(xí)多個模態(tài)的陰影聯(lián)合表示,因為相關(guān)性隱含在原始級別的高維表示中,而單層 SRBM 無法對它們進行建模。受此啟發(fā),中級表示的串聯(lián)向量被輸入到 SRBM 中,以模擬多個模態(tài)的相關(guān)性,從而顯示出更好的性能。

在跨模態(tài)學(xué)習(xí)場景中,提出了一種深度堆疊多模態(tài)自編碼器來顯式學(xué)習(xí)模態(tài)之間的相關(guān)性。具體來說,音頻和視頻都作為特征學(xué)習(xí)中的輸入呈現(xiàn),在監(jiān)督訓(xùn)練和測試中,只有其中一個被輸入到模型中。該模型以多模態(tài)學(xué)習(xí)的方式進行初始化,能夠很好地模擬跨模態(tài)關(guān)系。

在共享模態(tài)表示中,在去噪自編碼器的激勵下,引入了特定于模態(tài)的深度堆疊多模態(tài)自編碼器,以探索模態(tài)之間的聯(lián)合表示,尤其是在缺少一個模態(tài)時。通過將其中一個模態(tài)替換為零而擴大的訓(xùn)練數(shù)據(jù)集被輸入到特征學(xué)習(xí)的模型中。    

最后,在CUAVE和AVLetters數(shù)據(jù)集上進行了詳細的實驗,以評估多模態(tài)深度學(xué)習(xí)在特定任務(wù)特征學(xué)習(xí)中的性能。

3.2.2 示例5  

為了從一系列圖像(尤其是視頻)中生成視覺和語義上有效的人體骨骼,Hong,Yu,Wan,Tao和Wang(2015)提出了一種多模態(tài)深度自動編碼器來捕獲圖像和姿勢之間的融合關(guān)系。特別是,所提出的多模態(tài)深度自編碼器通過三階段策略進行訓(xùn)練,以構(gòu)建二維圖像和三維姿態(tài)之間的非線性映射。在特征融合階段,利用多視圖超圖低秩表示,基于流形學(xué)習(xí),從一系列圖像特征(如定向梯度直方圖和形狀上下文)構(gòu)建內(nèi)部二維表示。在第二階段,訓(xùn)練單層自動編碼器來學(xué)習(xí)抽象表示,該抽象表示用于通過重建二維圖像間特征來恢復(fù)三維姿態(tài)。同時,以類似的方式訓(xùn)練單層自動編碼器,以學(xué)習(xí)三維姿勢的抽象表示。在獲得每個單一模態(tài)的抽象表示后,使用神經(jīng)網(wǎng)絡(luò)通過最小化兩個模態(tài)互表示之間的平方歐幾里得距離來學(xué)習(xí)二維圖像和三維姿態(tài)之間的多模態(tài)相關(guān)性。所提出的多模態(tài)深度自編碼器的學(xué)習(xí)由初始化和微調(diào)階段組成。在初始化中,從相應(yīng)的自編碼器和神經(jīng)網(wǎng)絡(luò)復(fù)制多模態(tài)深度自編碼器每個子部分的參數(shù)。然后,通過隨機梯度下降算法對整個模型的參數(shù)進行進一步微調(diào),從相應(yīng)的二維圖像中構(gòu)造出三維姿態(tài)。

3.2.3 小結(jié)  

基于SAE的多模態(tài)模型采用編碼器-解碼器架構(gòu),通過無監(jiān)督方式通過重構(gòu)方法提取內(nèi)在的模態(tài)特征和跨模態(tài)特征。由于它們基于SAE,這是一個完全連接的模型,因此需要訓(xùn)練許多參數(shù)。此外,他們忽略了多模態(tài)數(shù)據(jù)中的空間和時間拓撲結(jié)構(gòu)。

3.3 基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合  

3.3.1 示例 6  

為了模擬圖像和句子之間的語義映射分布,馬,Lu,Shang和Li(2015)提出了一個多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)。為了充分捕捉語義相關(guān)性,在端到端架構(gòu)中設(shè)計了三級融合策略——詞級、階段級和句子級。該架構(gòu)由影像子網(wǎng)、匹配子網(wǎng)和多模態(tài)子網(wǎng)組成。圖像子網(wǎng)是一個具有代表性的深度卷積神經(jīng)網(wǎng)絡(luò),例如Alexnet和Inception,它有效地將圖像輸入編碼為簡潔的表示。匹配子網(wǎng)對將圖像內(nèi)容與語義空間中句子的單詞片段相關(guān)聯(lián)的聯(lián)合表示進行建模。    

3.3.2 示例 7  

為了將視覺識別系統(tǒng)擴展到無限數(shù)量的離散類別,F(xiàn)rome等人(2013)通過利用文本數(shù)據(jù)中的語義信息提出了一種多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)由語言子模型和視覺子模型組成。語言子模型基于skip-gram模型,該模型可以將文本信息傳輸?shù)秸Z義空間的密集表示中。視覺子模型是一個具有代表性的卷積神經(jīng)網(wǎng)絡(luò),例如 Alexnet,它在 1000 類 ImageNet 數(shù)據(jù)集上進行預(yù)訓(xùn)練以捕獲視覺特征。為了對圖像和文本之間的語義關(guān)系進行建模,語言和視覺子模型通過線性投影層進行組合。每個子模型都由每個模態(tài)的參數(shù)初始化。之后,為了訓(xùn)練這種視覺語義多模態(tài)模型,提出了一種新的損失函數(shù),通過結(jié)合點積相似度和鉸鏈秩損失,可以為正確的圖像和標簽對提供高相似性分數(shù)。該模型可以在 ImageNet 數(shù)據(jù)集上產(chǎn)生最先進的性能,避免語義上不合理的結(jié)果。    

3.3.3 小結(jié)  

基于CNN的多模態(tài)模型可以通過局部字段和池化操作來學(xué)習(xí)模態(tài)之間的局部多模態(tài)特征。它們顯式地對多模態(tài)數(shù)據(jù)的空間拓撲進行建模。而且它們不是參數(shù)數(shù)量大大減少的完全連接模型。

3.4 基于遞歸神經(jīng)網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)融合   

3.4.1 示例 8  

為了生成圖像的標題,毛等人(2014)提出了一種多模態(tài)遞歸神經(jīng)架構(gòu)。這種多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)可以彌合圖像和句子之間的概率相關(guān)性。它解決了以前工作無法生成新圖像標題的局限性,因為以前的工作根據(jù)學(xué)習(xí)的圖像-文本映射在句子數(shù)據(jù)庫中檢索相應(yīng)的標題。與以前的工作不同,多模態(tài)遞歸神經(jīng)模型(MRNN)根據(jù)給定的單詞和圖像學(xué)習(xí)語義空間上的聯(lián)合分布。當圖像出現(xiàn)時,它會根據(jù)捕獲的聯(lián)合分布逐字生成句子。具體來說,多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)由語言子網(wǎng)、視覺子網(wǎng)和多模態(tài)子網(wǎng)組成,如圖 7 所示。語言子網(wǎng)由兩層詞嵌入部分和單層循環(huán)神經(jīng)部分組成,前者捕獲有效的特定任務(wù)表示,后者對句子的時間依賴性進行建模。視覺子網(wǎng)本質(zhì)上是一個深度卷積神經(jīng)網(wǎng)絡(luò),如Alexnet、Resnet或Inception,它將高維圖像編碼為緊湊的表示。最后,多模態(tài)子網(wǎng)是一個隱藏網(wǎng)絡(luò),它對學(xué)習(xí)語言和視覺表示的聯(lián)合語義分布進行建模。

 圖 7:

3.4.2 示例 9  

為了解決當前視覺識別系統(tǒng)無法一目了然地生成圖像豐富描述的局限性,通過橋接視覺和文本數(shù)據(jù)之間的模態(tài)間關(guān)系,提出了一種多模態(tài)對齊模型(Karpathy&Li,2017)。為了實現(xiàn)這一點,提出了一個雙重方案。首先,設(shè)計了一個可視化語義嵌入模型來生成多模態(tài)訓(xùn)練數(shù)據(jù)集。然后,在此數(shù)據(jù)集上訓(xùn)練多模態(tài) RNN,以生成圖像的豐富描述。

在視覺語義嵌入模型中,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)用于獲取豐富的圖像表示,這些圖像表示包含與句子相對應(yīng)的內(nèi)容的足夠信息。然后使用雙向 RNN 將每個句子編碼為具有圖像表示的相同維度的密集向量。此外,還給出了一個多模態(tài)評分函數(shù)來衡量圖像和句子之間的語義相似性。最后,利用馬爾可夫隨機場方法生成多模態(tài)數(shù)據(jù)集。

在多模態(tài)RNN中,提出了一種基于文本內(nèi)容和圖像輸入的更有效的擴展模型。該多模態(tài)模型由對圖像輸入進行編碼的卷積神經(jīng)網(wǎng)絡(luò)和對圖像特征和句子進行編碼的 RNN 組成。該模型還通過隨機梯度下降算法進行訓(xùn)練。這兩種多模態(tài)模型都在 Flickr 和 Mscoco 數(shù)據(jù)集上進行了廣泛的評估,并實現(xiàn)了最先進的性能。

3.4.3 小結(jié)  

基于RNN的多模態(tài)模型能夠借助隱藏單元計算中的顯式狀態(tài)傳遞來分析隱藏在多模態(tài)數(shù)據(jù)中的時間依賴性。他們使用時間反向傳播算法來訓(xùn)練參數(shù)。由于在隱藏狀態(tài)傳輸中進行計算,因此很難在高性能設(shè)備上并行化。

4.總結(jié)與展望   

我們將模型總結(jié)為基于DBN、SAE、CNN和RNN的四組多模態(tài)數(shù)據(jù)深度學(xué)習(xí)模型。這些開創(chuàng)性的模式已經(jīng)取得了一些進展。然而,這些模型仍處于初步階段,因此仍然存在挑戰(zhàn)。    

先,多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型中存在大量的自由權(quán)重,特別是對目標任務(wù)影響不大的冗余參數(shù)。為了訓(xùn)練這些捕獲數(shù)據(jù)特征結(jié)構(gòu)的參數(shù),將大量數(shù)據(jù)輸入到基于反向傳播算法的多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型中,該算法計算密集且耗時。因此,如何結(jié)合現(xiàn)有的壓縮策略設(shè)計新的多模態(tài)深度學(xué)習(xí)壓縮方法也是一個潛在的研究方向。

其次,多模態(tài)數(shù)據(jù)不僅包含跨模態(tài)信息,而且包含豐富的跨模態(tài)信息。因此,深度學(xué)習(xí)和語義融合策略的結(jié)合可能是解決探索多模態(tài)數(shù)據(jù)所帶來的挑戰(zhàn)的一種方式。    

第三,從動態(tài)環(huán)境中收集多模態(tài)數(shù)據(jù),表明數(shù)據(jù)是不確定的。因此,隨著動態(tài)多模態(tài)數(shù)據(jù)的爆炸式增長,必須解決用于數(shù)據(jù)融合的在線和增量多模態(tài)深度學(xué)習(xí)模型的設(shè)計問題。

責(zé)任編輯:華軒 來源: 數(shù)據(jù)分析及應(yīng)用
相關(guān)推薦

2020-09-29 17:00:33

人工智能

2024-11-13 15:00:00

模型數(shù)據(jù)

2023-04-13 15:25:14

模型

2022-02-25 10:56:08

自動駕駛傳感器技術(shù)

2023-05-28 23:26:16

多模態(tài)機器學(xué)習(xí)大腦

2022-10-26 15:41:38

深度學(xué)習(xí)Deepfake機器學(xué)習(xí)

2024-07-01 10:19:22

2017-07-06 13:18:37

深度學(xué)習(xí)應(yīng)用問題及趨勢

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2024-12-16 07:30:00

2017-09-20 16:25:00

深度學(xué)習(xí)視覺領(lǐng)域計算機

2024-06-25 12:47:06

2025-01-08 08:21:16

2021-07-01 15:56:42

深度學(xué)習(xí)人工智能互聯(lián)網(wǎng)

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2024-06-28 18:18:22

2022-02-07 16:11:39

自動駕駛汽車安全

2023-08-21 12:22:54

機器學(xué)習(xí)總結(jié)
點贊
收藏

51CTO技術(shù)棧公眾號