自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI也會(huì)「刷抖音」!清華領(lǐng)銜發(fā)布短視頻全模態(tài)理解新模型 | ICML 2024

人工智能
音視頻大語(yǔ)言模型在處理視頻內(nèi)容時(shí),往往未能充分發(fā)揮語(yǔ)音的作用。video-SALMONN模型通過(guò)三部分創(chuàng)新:音視頻編碼和時(shí)間對(duì)齊、多分辨率因果Q-Former、多樣性損失函數(shù)和混合未配對(duì)音視頻數(shù)據(jù)訓(xùn)練。該模型不僅在單一模態(tài)任務(wù)上表現(xiàn)優(yōu)異,更在視聽(tīng)聯(lián)合任務(wù)中展現(xiàn)了卓越的性能,證明了其全面性和準(zhǔn)確性。

想要看懂短視頻,除了視覺(jué)內(nèi)容外,語(yǔ)音和音頻等聽(tīng)覺(jué)信息,如視頻音樂(lè)、音效、語(yǔ)音內(nèi)容等,也對(duì)短視頻的理解起到關(guān)鍵作用。

音視頻大語(yǔ)言模型(av-LLMs)在近幾年取得了顯著進(jìn)展,但語(yǔ)音作為視頻中人類語(yǔ)言的主要載體,仍未在這些模型中得到充分探索。語(yǔ)音不僅提供了豐富的語(yǔ)言和語(yǔ)義信息,還有助于理解視頻中的情感和潛在意義。

與此同時(shí),語(yǔ)音信號(hào)還包含豐富的副語(yǔ)言信息,如音調(diào)和音高,以及多樣的說(shuō)話者屬性(如年齡、性別、口音和身份),這些都是視頻理解中不可或缺的要素。

然而,增強(qiáng)通用視聽(tīng)大語(yǔ)言模型的語(yǔ)音能力極具挑戰(zhàn)性,這需要時(shí)間上精細(xì)的建模,并在粗略(如視頻主題)和精細(xì)(如唇部動(dòng)作)時(shí)間尺度上與其他模態(tài)進(jìn)行復(fù)雜的交互。

近期,發(fā)表在ICML  2024的論文《video-SALMONN:  Speech-Enhanced Audio-Visual Large Language Models》成為了首個(gè)集齊視頻中所有音視頻元素(自然圖像、文字、語(yǔ)音、音頻事件、音樂(lè))的大模型。

圖片圖片

video-SALMONN論文鏈接:https://openreview.net/pdf?id=nYsh5GFIqX

SALMONN論文鏈接:https://arxiv.org/abs/2310.13289

Github Page:https://github.com/bytedance/SALMONN

通過(guò)下面幾個(gè)例子,一起來(lái)看看video-SALMONN是如何通過(guò)語(yǔ)音-音頻-視頻的信息來(lái)解讀視頻內(nèi)容的吧!

首先來(lái)一段經(jīng)典的《泰坦尼克號(hào)》片段

讓video-SALMONN來(lái)談?wù)劄槭裁催@段視頻很浪漫吧:

圖片圖片

問(wèn)題:

請(qǐng)結(jié)合視頻,音頻和人物對(duì)白解釋為什么視頻很浪漫

回答:

這段視頻展示了一對(duì)男女在船上的浪漫場(chǎng)景。男人把女人擁在懷里,兩人一起看著日落。背景音樂(lè)是一首歌,增添了浪漫的氣氛。女人說(shuō)「我在飛」和「杰克」,這表明他們很幸福,享受這一刻。船和日落的背景創(chuàng)造了一個(gè)美麗寧?kù)o的環(huán)境,增強(qiáng)了視頻的浪漫感覺(jué)。男女的肢體語(yǔ)言和面部表情也傳達(dá)了他們對(duì)彼此的愛(ài)和深情??偟膩?lái)說(shuō),這段視頻完美地展現(xiàn)了兩人之間浪漫而親密的時(shí)刻。

不止描述看到的場(chǎng)景,video-SALMONN還把聽(tīng)到的音樂(lè),和人物的對(duì)白,都融合進(jìn)了他的描述里。

更驚喜的是,video-SALMONN還能知道是女人說(shuō)的「我在飛」,進(jìn)一步詢問(wèn)的話,

此外,video-SALMONN還能推理出男人的名字是「杰克」。

我們都知道,正是這兩句對(duì)白成就了這個(gè)經(jīng)典場(chǎng)景,而video-SALMONN恰恰抓住了這個(gè)場(chǎng)景的精髓所在!

再來(lái)一段《瘋狂動(dòng)物城》的動(dòng)畫(huà)片段:

看看video-SALMONN是怎么理解樹(shù)獺的搞笑之處吧:

圖片圖片

問(wèn)題:

場(chǎng)景中有兔子,狐貍和樹(shù)獺,樹(shù)獺說(shuō)了什么?為什么樹(shù)獺很有趣?

回答:

樹(shù)懶在視頻結(jié)尾時(shí)說(shuō)了「Nick」。樹(shù)懶之所以搞笑,是因?yàn)樗且环N動(dòng)作緩慢的動(dòng)物,在視頻中表現(xiàn)得非常懶散,做事情花了很長(zhǎng)時(shí)間。這與其他動(dòng)物(如兔子和狐貍)的活躍和充滿活力形成了鮮明對(duì)比,使樹(shù)懶顯得尤為突出,增加了幽默感。此外,視頻中樹(shù)懶的慢動(dòng)作和表情也增加了它的喜劇效果。

這個(gè)例子展示了視聽(tīng)結(jié)合對(duì)說(shuō)話人的識(shí)別,只有聽(tīng)覺(jué)我們不知道是樹(shù)獺在說(shuō)話,只有視覺(jué)我們不知道樹(shù)獺說(shuō)了什么,只有視聽(tīng)結(jié)合才能真正理解視頻!

還有這個(gè)非常受歡迎的meme:

,時(shí)長(zhǎng)00:03

問(wèn)問(wèn)video-SALMONN這個(gè)視頻為什么搞笑吧:

圖片

問(wèn)題:

你可以解釋為什么這個(gè)視頻很有趣嗎?

回答:

這段視頻之所以有趣,是因?yàn)樗故玖艘粋€(gè)男人做了一個(gè)滑稽的表情,然后說(shuō)「nice」。他嚴(yán)肅的表情與「nice」這個(gè)詞之間的反差創(chuàng)造了幽默感和驚喜感。此外,男人打嗝的聲音效果和響亮的爆破音也增加了視頻的娛樂(lè)價(jià)值。

再來(lái)看一段國(guó)家地理的紀(jì)錄片片段,讓我們來(lái)看看理解語(yǔ)音還有什么幫助:

問(wèn)問(wèn)video-SALMONN視頻里是哪種鯊魚(yú)吧:

圖片圖片

問(wèn)題:

視頻中的鯊魚(yú)是哪種鯊魚(yú)?

帶audio輸入的回答:

視頻中的鯊魚(yú)是一頭鯨鯊

不帶audio輸入的回答:

視頻中的鯊魚(yú)是一頭大白鯊

光看視頻,沒(méi)點(diǎn)專業(yè)知識(shí)真的不知道是哪種鯊魚(yú),模型就只能猜,容易出現(xiàn)幻覺(jué)。

但是聽(tīng)了語(yǔ)音講解,video-SALMONN就能準(zhǔn)確知道視頻講的是鯨鯊,再也不用瞎猜了。

還有這個(gè)大佬之間對(duì)話的視頻片段:

不止理解對(duì)話內(nèi)容,video-SALMONN還將說(shuō)話人和對(duì)話內(nèi)容聯(lián)系到了一起:

圖片

提問(wèn):

基于視頻和語(yǔ)音,是視頻中飛去了Florence的是男人還是女人?

回答:

是女人飛去了Florence

這個(gè)例子進(jìn)一步展示了video-SALMONN對(duì)視頻里語(yǔ)音的全方位理解。

如果直接輸入語(yǔ)音轉(zhuǎn)錄的文字,模型是不可能知道到底是誰(shuí)飛去了Florence,而video-SALMONN可以將語(yǔ)音內(nèi)容和說(shuō)話人信息緊密結(jié)合在一起

接下來(lái)是干貨部分:讓我們一起來(lái)看看video-SALMONN具體是怎么實(shí)現(xiàn)語(yǔ)音-音頻-視頻的綜合理解的吧!

核心技術(shù)

圖片圖片

video-SALMONN模型

面對(duì)音視頻大模型中語(yǔ)音理解挑戰(zhàn),video-SALMONN通過(guò)以下三部分創(chuàng)新,使其能夠處理自然圖像、視覺(jué)幀序列、語(yǔ)音、音頻事件和音樂(lè)元素等各種視頻基本元素:

第一部分:音視頻編碼和時(shí)間對(duì)齊

video- SALMONN使用Whisper語(yǔ)音編碼器和BEATs音頻編碼器,分別得到語(yǔ)音和音頻的編碼向量序列(每1秒音頻對(duì)應(yīng)50個(gè)向量),同時(shí)使用InstructBLIP視覺(jué)編碼器,以2 FPS的視頻采樣率得到視覺(jué)編碼向量序列(每1秒視頻2幀,對(duì)應(yīng)64個(gè)向量)。

三個(gè)序列在時(shí)間維度上,以視頻幀為基準(zhǔn)每0.5秒對(duì)齊并拼接一次(temporal fine-grained synchronisation),因?yàn)檎Z(yǔ)音音頻序列略短于視覺(jué)序列,短的部分加上zero padding。

第二部分:多分辨率因果Q-Former

多分辨率因果(MRC)Q-Former結(jié)構(gòu)是video-SALMONN的創(chuàng)新核心,它不僅在多個(gè)不同的時(shí)間尺度上將時(shí)間同步的視聽(tīng)輸入特征與文本表示空間對(duì)齊,滿足依賴于不同視頻元素的任務(wù)需求,同時(shí)為了加強(qiáng)連續(xù)視頻幀之間事件的時(shí)間因果關(guān)系,引入了帶有特殊因果掩碼的因果自注意結(jié)構(gòu)。

MRC  Q-Former結(jié)構(gòu)MRC Q-Former結(jié)構(gòu)


首先,MRC Q-Former將輸入序列分成不同長(zhǎng)度的窗。然后,在每一個(gè)窗內(nèi),用Q-Former把拼接后的多模態(tài)表征映射到語(yǔ)義表征空間。最后,將每個(gè)分辨率層級(jí)內(nèi)的各個(gè)窗Q-Former輸出的向量串起來(lái)形成語(yǔ)義空間的向量序列。

MRC Q-Former通過(guò)保證輸出向量個(gè)數(shù)和窗長(zhǎng)比為定值,來(lái)保證不同分辨率層級(jí)的輸出序列可以直接在特征維度拼接,拼接后的向量通過(guò)線性層映射后用作大語(yǔ)言模型的輸入。

通過(guò)訓(xùn)練,高分辨率的Q-Former可以捕捉細(xì)粒度的信息,比如語(yǔ)音內(nèi)容以及語(yǔ)音和唇部動(dòng)作的聯(lián)系,低分辨率的Q-Former可以有效提取視頻層級(jí)的信息,對(duì)視頻的整體內(nèi)容以及多個(gè)幀之間的關(guān)系有更好的理解。

(注:MRC Q-Former結(jié)構(gòu)也適用于空間上的多分辨率,論文首次提出image spotlight方法,可以將圖片拆分成不同精度的子圖序列作為輸入,從而大大提高圖像理解的性能)

第三部分:多樣性損失函數(shù)和混合未配對(duì)音視頻數(shù)據(jù)的訓(xùn)練

此外,為了避免視頻中某一特定幀主導(dǎo)地位,video-SALMONN在交叉熵的基礎(chǔ)上,提出并使用了一種新的多樣性損失函數(shù),鼓勵(lì)模型探索整個(gè)序列的不同部分。

同時(shí),為了防止配對(duì)音視頻數(shù)據(jù)中的單一模態(tài)的主導(dǎo)問(wèn)題(比如視頻中非語(yǔ)音音頻往往只提供極少量的輔助信息,容易被忽視),video-SALMONN使用混合未配對(duì)的音頻和視頻的策略進(jìn)行訓(xùn)練,使video-SALMONN不得不同時(shí)注意兩個(gè)模態(tài)的信息。

主要結(jié)果

Video-SALMONN論文提出speech-audio-visual  evaluation (SAVE) benchmark來(lái)測(cè)試,并在語(yǔ)音,非語(yǔ)音音頻,圖像和視頻等任務(wù)上均展示了不俗的表現(xiàn)。

SAVE的測(cè)試任務(wù)包括語(yǔ)音識(shí)別 (ASR),音頻描述  (AAC),圖片描述 (IC),視覺(jué)文字識(shí)別 (OCR),圖片問(wèn)答 (VQA),視頻問(wèn)答 (Video QA) 等視覺(jué)和聽(tīng)覺(jué)單一輸入模態(tài)的任務(wù),還包括視聽(tīng)語(yǔ)音識(shí)別  (AVSR),音視頻問(wèn)答 (AVQA),音視頻聲源檢測(cè) (AVSSD)和音視頻匹配  (AVM)四個(gè)音視頻共同輸入的感知任務(wù)。

其中,AVQA為新提出的測(cè)試集,AVM為新提出的任務(wù),要求模型判斷音頻和視頻是否匹配。

圖片圖片

首先,video-SALMONN在單一模態(tài)輸入的任務(wù)上,達(dá)到了和僅能處理視覺(jué)或聽(tīng)覺(jué)一種模態(tài)輸入的模型相同甚至更好的效果。

相比同樣可以處理音視頻的大模型Video-LLaMA,video-SALMONN不僅增加了對(duì)語(yǔ)音輸入的理解能力,而且在各個(gè)單模態(tài)任務(wù)上遠(yuǎn)超其表現(xiàn)。

圖片圖片

在音視頻共同輸入的理解任務(wù)上,video-SALMONN更是展現(xiàn)了遠(yuǎn)超其他模型的表現(xiàn)。

得益于其理解語(yǔ)音的能力,video-SALMONN在AVQA上大幅超過(guò)同類大模型Video-LLaMA。

更重要的是,在AVM和AVSSD這兩個(gè)完全沒(méi)有訓(xùn)練過(guò)的任務(wù)上,video-SALMONN展現(xiàn)了出色的語(yǔ)音-音頻-視覺(jué)聯(lián)合推理的零樣本的涌現(xiàn)能力。

圖片圖片

這些共同推理的涌現(xiàn)能力需要模型同時(shí)給予輸入的視覺(jué)和聽(tīng)覺(jué)信息等量的關(guān)注,且可以理解視聽(tīng)之間復(fù)雜的聯(lián)系。

然而現(xiàn)存的開(kāi)源模型,要么無(wú)法完全理解音頻,要么僅能分別描述每個(gè)單一的輸入模態(tài)。

結(jié)語(yǔ)

video-SALMONN的推出,將有助于提升視頻理解技術(shù)的全面性和準(zhǔn)確性,為視頻內(nèi)容分析、情感識(shí)別、多模態(tài)交互等領(lǐng)域帶來(lái)新的機(jī)遇。

該模型不僅在學(xué)術(shù)研究上具有重要意義,也為實(shí)際應(yīng)用提供了強(qiáng)大的技術(shù)支撐。

參考資料:

https://openreview.net/pdf?id=nYsh5GFIqX

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2021-06-28 05:19:32

抖音電腦

2020-10-13 15:20:25

微信短視頻PK抖音

2023-02-27 22:41:44

Python水印短視頻

2024-05-16 12:48:12

數(shù)據(jù)AI

2023-03-12 21:28:36

AI工具

2022-01-22 07:44:12

抖音PC 版電腦刷抖音

2023-11-20 22:02:54

開(kāi)源模型

2024-04-03 12:37:13

模型數(shù)據(jù)

2022-07-12 10:37:08

阿里巴巴達(dá)摩院機(jī)器學(xué)習(xí)

2019-06-21 09:55:10

刷抖美腿App

2018-05-31 21:11:24

短視頻抖音快手

2024-10-30 15:00:00

AI視頻模型

2020-10-27 09:33:39

抖音印度移動(dòng)應(yīng)用

2024-03-25 12:40:19

訓(xùn)練模型

2024-07-19 10:39:38

2023-10-17 12:34:04

2020-07-13 11:20:21

Python開(kāi)發(fā)工具

2024-07-08 08:47:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)