自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

語言作“紐帶”，拳打腳踢各模態(tài)，超越Imagebind

作者：量子位 2023-11-13 07:39:31

人工智能新聞

多視角文本增強(qiáng)涵蓋了標(biāo)題、標(biāo)簽、關(guān)鍵幀描述以及視頻描述等多個(gè)組成部分，為視頻內(nèi)容提供了全面且詳盡的描述。

北大聯(lián)合騰訊打造了一個(gè)多模態(tài)15邊形戰(zhàn)士！

以語言為中心，“拳打腳踢”視頻、音頻、深度、紅外理解等各模態(tài)。

具體來說，研究人員提出了一個(gè)叫做LanguageBind的多模態(tài)預(yù)訓(xùn)練框架。

用語言作為與其它模態(tài)之間的紐帶，凍結(jié)語言編碼器，然后用對(duì)比學(xué)習(xí)方法，將各個(gè)模態(tài)映射到一個(gè)共享的特征空間，實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的語義對(duì)齊。

使用這種方法，模型在5個(gè)數(shù)據(jù)集上的性能拿下新SOTA，在15個(gè)zero-shot檢索等任務(wù)中取得了顯著的性能提升，全面超越ImageBind、OpenCLIP。

將各模態(tài)與語言綁定

LanguageBind包含三個(gè)部分：

多模態(tài)編碼器（Multi-modal Encoders），語言編碼器(Language Encoder)，以及多模態(tài)聯(lián)合學(xué)習(xí)(Multi-modal Joint Learning)。

先來看多模態(tài)編碼器部分。

除了語言之外的其它模態(tài)，研究人員使用24層、1024維的視覺Transformer，具有14的Patch大小。編碼器是從OpenCLIP-large初始化的。

深度和紅外被視為RGB圖像，在通道維度上復(fù)制3次與RGB圖像對(duì)齊。

按照ImageBind的方式，音頻數(shù)據(jù)被轉(zhuǎn)換為持續(xù)10秒（128個(gè)mel-bins）的頻譜圖，并進(jìn)行重復(fù)和填充。

Patch masking

為了解決在編碼器中處理所有Token的低效問題，研究人員將圖像分成補(bǔ)丁，并通過Mask獲取一小部分圖片序列，按照MAE的方法進(jìn)行。

LoRA fine-tuning

同時(shí)使用LoRA技術(shù)來加速微調(diào)。對(duì)于具有權(quán)重矩陣W0∈Rd×k的模態(tài)編碼器，在學(xué)習(xí)新的權(quán)重矩陣BA時(shí)，保持權(quán)重矩陣W0不變。

Modality extending

將LanguageBind方法擴(kuò)展到多個(gè)（N個(gè)）模態(tài)的第一步是將數(shù)據(jù)處理成令牌序列。隨后，參數(shù)將從OpenCLIP進(jìn)行初始化。然后通過令牌屏蔽和LoRA微調(diào)來訓(xùn)練不同模態(tài)的編碼器，同時(shí)保持語言編碼器凍結(jié)。最后，將該模態(tài)與語言特征空間對(duì)齊。

再來看看語言編碼器以及多模態(tài)聯(lián)合學(xué)習(xí)部分。

對(duì)于語言編碼器，研究人員使用了一個(gè)12層的transformer模型，維度為768，初始化來源于OpenCLIP。

對(duì)于給定的文本，他們首先使用BPE分詞器將單詞分割成相對(duì)常見的子詞。每個(gè)子詞對(duì)應(yīng)一個(gè)唯一的標(biāo)記，這些標(biāo)記在一個(gè)詞嵌入層內(nèi)嵌入。最終，這些標(biāo)記被語言編碼器編碼，以獲得文本對(duì)數(shù)：

其中L表示序列的長度。為了確?？绮煌B(tài)的對(duì)齊，研究人員采用了對(duì)比學(xué)習(xí)原則。

這種方法的目標(biāo)是增加配對(duì)數(shù)據(jù)的相似性，將它們帶到相同的語義空間，同時(shí)減小不配對(duì)數(shù)據(jù)的相似性。研究人員利用對(duì)比學(xué)習(xí)將各個(gè)模態(tài)與語言綁定在一起。

構(gòu)建高質(zhì)量數(shù)據(jù)集

此外，研究人員還創(chuàng)建了一個(gè)名為“VIDAL-10M”的高質(zhì)量數(shù)據(jù)集，其中包含1000萬個(gè)具有對(duì)齊視頻-語言、紅外-語言、深度-語言、音頻-語言的數(shù)據(jù)對(duì)，是第一個(gè)具有深度和紅外模態(tài)的大規(guī)模視頻多模態(tài)數(shù)據(jù)集。

數(shù)據(jù)集構(gòu)建方法如下：

△VIDAL-10M 構(gòu)建框架

第一步是生成搜索詞數(shù)據(jù)庫，這個(gè)過程中，研究人員設(shè)計(jì)了一種獨(dú)特的搜索詞獲取策略，利用來自各種視覺任務(wù)數(shù)據(jù)集的文本數(shù)據(jù)，包括標(biāo)簽和標(biāo)題，以構(gòu)建具有豐富視覺概念和多樣性的視頻數(shù)據(jù)集。

第二步是從互聯(lián)網(wǎng)收集相關(guān)視頻和音頻，并進(jìn)行一系列過濾處理，以確保數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性。

這個(gè)過程中，研究人員使用了多種過濾方法，包括基于文本的過濾、基于視覺與音頻的過濾，以確保數(shù)據(jù)集中的視頻和音頻與搜索詞相關(guān)且質(zhì)量高。

第三步是進(jìn)行紅外和深度模態(tài)生成，以及多視角文本生成和增強(qiáng)。

在空間信息增強(qiáng)方面，研究人員采用了OFA模型生成多個(gè)關(guān)鍵幀描述，以提升視頻內(nèi)容的空間表達(dá)質(zhì)量。

同時(shí)，在時(shí)間信息增強(qiáng)方面，將視頻內(nèi)容、標(biāo)題以及Hashtag標(biāo)簽輸入到mPLUG-owl模型中，以獲取更為精煉和豐富的時(shí)間維度描述。

最后，研究人員運(yùn)用ChatGPT模型對(duì)文本描述進(jìn)行進(jìn)一步細(xì)化和增強(qiáng)。

綜合而言，多視角文本增強(qiáng)涵蓋了標(biāo)題、標(biāo)簽、關(guān)鍵幀描述以及視頻描述等多個(gè)組成部分，為視頻內(nèi)容提供了全面且詳盡的描述。

多個(gè)測(cè)試拿下SOTA

在測(cè)試階段，大量的實(shí)驗(yàn)驗(yàn)證了VIDAL-10M數(shù)據(jù)集和LanguageBind方法的有效性，在視頻、音頻以及其它模態(tài)理解任務(wù)中取得了顯著的性能。

LanguageBind在四個(gè)數(shù)據(jù)集上都性能拿下SOTA。

在MSR-VTT上比InterVideo方法高出1.9%，在MSVD上比 InterVideo高出 8.8%，在DiDeMo上比InterVideo高出 6.3%，在ActivityNet上比InterVideo高出 4.4%。

值得注意的是，InterVideo采用了更廣泛的訓(xùn)練數(shù)據(jù)，正表明LanguageBind的有效性。

△Zero-Shot視頻-文本檢索結(jié)果

視頻-語言、紅外-語言、深度-語言和音頻-語言Zero-Shot分類，在所有數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于ImageBind、OpenCLIP：

Zero-Shot音頻-語言檢索性能同樣優(yōu)越：

論文鏈接：https://arxiv.org/pdf/2310.01852.pdf

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="9oerm"></style>