人大高瓴人工智能學(xué)院讓AI學(xué)會了聽音樂,還開源9288個視頻數(shù)據(jù)集
你知道 AI 可以自己欣賞音樂會嗎?而且 AI 可以知道演奏場景中每一個樂器的演奏狀態(tài),這是不是很神奇?對人類而言,欣賞美妙的音樂會是一件很享受的事情,但對于機器來說,如何將優(yōu)美的旋律和激昂的演奏畫面珠聯(lián)璧合來提升欣賞體驗卻頗有挑戰(zhàn)。
最近,中國人民大學(xué)高瓴人工智能學(xué)院 GeWu 實驗室就針對這一問題提出了一種新的框架,讓 AI 能像人一樣觀看和聆聽樂器演奏,并對給定的視音問題做出跨模態(tài)時空推理。
目前這一成果已被 CVPR2022 接收并選為 Oral Presentation,相關(guān)數(shù)據(jù)集和代碼已經(jīng)開源。
- 論文地址:https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf
- 項目地址:https://gewu-lab.github.io/MUSIC-AVQA/
接下來讓我們一起來看一下這個有趣的工作!
1. 引言
我們在日常生活中被視覺和聲音信息所包圍,這兩種信息的結(jié)合利用提高了我們對場景的感知和理解能力。想象一下,當我們身處在一場音樂會中時,同時觀看樂器演奏動作和聆聽音樂的旋律可以很好地幫我們享受演出。受此啟發(fā),如何讓機器整合多模態(tài)信息,尤其是視覺和聲音等自然模態(tài),以達到與人類相當?shù)膱鼍案兄屠斫饽芰?,是一個有趣且有價值的課題。因此,該研究專注于視聽問答(Audio-Visual Question Answering, AVQA)任務(wù),旨在回答有關(guān)不同視覺對象、聲音及其在視頻中的關(guān)聯(lián)的問題。顯然,必須對視聽場景進行全面的多模態(tài)理解和時空推理才能做出正確的回答。
近年來,研究人員在聲音對象感知、音頻場景分析、視聽場景解析和內(nèi)容描述等方面取得了顯著進展。盡管這些方法能將視覺對象與聲音關(guān)聯(lián),但它們中的大多數(shù)在復(fù)雜視聽場景下的跨模態(tài)推理能力仍然有限。相比之下,人類可以充分利用多模態(tài)場景中的上下文內(nèi)容和時間信息來解決復(fù)雜的場景推理任務(wù),如視聽問答任務(wù)等?,F(xiàn)有的視覺問答(VQA)和聲音問答(AQA)方法等往往只關(guān)注單一模態(tài),從而不能很好的在真實的視音場景中進行復(fù)雜的推理任務(wù)。
如下圖所示的單簧管雙重奏場景,當回答 “哪個單簧管先發(fā)聲?” 的問題時,需要在視聽場景中先定位出發(fā)聲的單簧管,并在時序維度上重點聚焦于哪個單簧管先發(fā)出聲音。要正確回答這個問題,本質(zhì)上需要有效地對視聽場景理解和時空推理。
圖 1 AVQA 任務(wù)問題樣例展示
對于上面這個例子,若我們僅考慮基于視覺模態(tài)的 VQA 模型則很難對問題中涉及的聲音信息進行處理,相反,若我們只考慮基于聲音模態(tài)的 AQA 模型,同樣難以對問題中涉及的空間位置信息進行處理。但是,我們可以看到同時使用聽覺和視覺信息可以很容易的對場景進行理解并正確的回答上述問題。
2. 數(shù)據(jù)集
為了更好的探索視聽場景理解和時空推理的問題,該研究構(gòu)建了一個專注于問答任務(wù)的大規(guī)模的視聽數(shù)據(jù)集(Spatial-Temporal Music AVQA, MUSIC-AVQA)。我們知道高質(zhì)量的數(shù)據(jù)集對于視音問答任務(wù)的研究具有相當大的價值,因此,考慮到樂器演奏是一個典型的視音多模態(tài)場景,并由豐富的視聽成分及其交互組成,非常適合用于探索視聽場景理解和推理任務(wù)。因此該研究從 YouTube 上收集了大量用戶上傳的樂器演奏視頻,構(gòu)建數(shù)據(jù)集中的視頻包括了獨奏、重奏的合奏等多種演奏形式。具體來說,該研究一共選取了 22 種不同的樂器(如吉他、鋼琴、二胡、嗩吶等),設(shè)計了九種問題模板并涵蓋了聲音、視覺和視音三種不同的模態(tài)場景類型。
表 1 MUCIS-AVQA 數(shù)據(jù)集與其他 QA 數(shù)據(jù)集多維對比
如表 1 所示,該研究發(fā)布的 MUSIC-AVQA 數(shù)據(jù)集具有以下優(yōu)勢:1)MUSIC-AVQA 數(shù)據(jù)集涵蓋大量的聲音問題、視覺問題和視聽問題的問答對,比其他問答類數(shù)據(jù)集更全面豐富。對于大多數(shù)問答任務(wù)數(shù)據(jù)集(ActivityNet-QA, TVQA 等)來說,僅包含了視覺問題,難以探索視聽相關(guān)的研究。雖然現(xiàn)有的 AVQA 數(shù)據(jù)集(AVSD, Pano-AVQA 等)也提供了視聽問答對,但它們更專注于相對簡單的問題(Existential 或 Location),只需要空間推理即可做出回答。2)MUSIC-AVQA 數(shù)據(jù)集由包含豐富視聽成分的樂器演奏場景組成,有助于更好地研究視聽交互場景理解和推理,并可以在一定程度上避免場景中的噪聲問題。大多數(shù)公開問答類數(shù)據(jù)集(ActivityNet-QA, AVSD 等)中的聲音信息通常與其視覺對象不匹配,會產(chǎn)生嚴重的噪聲(如背景音樂),這使得它們難以探索不同模態(tài)之間的關(guān)聯(lián)。此外,TVQA 數(shù)據(jù)集雖然包含視覺和聲音模態(tài),但其聲音是由人類說話聲組成的,在其問答對構(gòu)建過程中也只使用了相應(yīng)的字幕信息,并不是真正的視音關(guān)聯(lián)場景。
最終數(shù)據(jù)集包含了 9,288 個視頻并包含了 22 種樂器,其總時長超過 150 小時。并且以眾包的形式形成了 45,867 個問答對,平均每個視頻約 5 個問答對,這些問答對涵蓋了不同模態(tài)下的 9 類問題類型以及 33 個不同的問題模板。豐富而多樣復(fù)雜的數(shù)據(jù)集對 AVQA 任務(wù)的研究具有相當大的價值和意義。
圖 2 MUSIC-AVQA 數(shù)據(jù)集多維統(tǒng)計分析
3. 模型方法
為了解決上述 AVQA 任務(wù),該研究分別從空間和時序感知的角度出發(fā),提出了一種動態(tài)視音場景下的空間 - 時序問答模型(如下圖所示)。
- 首先,聲音及其視覺源的位置反映了視聽模態(tài)之間的空間關(guān)聯(lián),這有助于將復(fù)雜的場景分解為具體的視聽關(guān)聯(lián)。因此該研究提出了一個基于注意力機制的聲源定位的空間模塊來模擬這種跨模態(tài)的關(guān)聯(lián)。
- 其次,由于視聽場景隨時間動態(tài)變化,因此捕捉和突出與問題密切相關(guān)的關(guān)鍵時間戳至關(guān)重要。因此,該研究提出了使用問題特征作為查詢的時間基礎(chǔ)模塊來聚焦關(guān)鍵時間片段,以有效地編碼問題感知音頻和視覺的嵌入。
- 最后,融合上述空間感知和時間感知的視聽特征,得到問答的聯(lián)合表示,以預(yù)測視頻關(guān)聯(lián)問題的答案。
圖 3 動態(tài)視音場景的空間 - 時序問答模型
4. 實驗結(jié)果
如表 2 所示,引入 Audio 和 Visual 模態(tài)信息都有助于模型性能的提升。此外,能明顯看到當結(jié)合聲音和視覺模態(tài)時,AV+Q 模型的性能比 A+Q 和 V+Q 模型要好得多,這表明多感官感知有助于提升問答任務(wù)的性能。我們也能看到視音空間關(guān)聯(lián)模塊和時序關(guān)聯(lián)模塊都能夠很明顯的提升模型的性能,從而更好地對場景進行理解。
表 2 不同模態(tài)消融實驗表
表 3 展示了一些最近的 QA 方法在 MUSIC-AVQA 數(shù)據(jù)集上的結(jié)果。結(jié)果首先表明所有的 AVQA 方法都要好于 VQA、AQA 和 VideoQA 方法,這說明多模態(tài)感知可以有益于 AVQA 任務(wù)。其次該研究所用方法在大多數(shù)視聽問題上取得了相當大的進步,尤其是對于需要空間和時序推理的視聽問題更為明顯(如 Temporal 和 Localization 等)。
表 3 與其他 QA 類方法對比
為了進一步說明所提模型的有效性和可解釋性,該研究進行了一些可視化展示。其中熱力圖表示聲源的位置,熱力圖下方的表格表示時序上的注意力分數(shù)。從可視化結(jié)果可以明顯看出所提的模型在多模態(tài)視聽場景中具有很好的理解和推理能力。
圖 4 可視化結(jié)果
5. 總述
總體來說,本文探索了如何回答有關(guān)不同視覺對象、聲音及其在視頻中的關(guān)聯(lián)的問題,從而對動態(tài)復(fù)雜的視音場景進行細粒度理解和推理。作者團隊構(gòu)建了一個包含 45,867 個不同視聽模態(tài)和多種問題類型問答對的大規(guī)模 MUSIC-AVQA 數(shù)據(jù)集,以及提出了一個簡單高效的視音時序 - 空間模型來很好的解決 AVQA 問題。該研究相信提出的 MUSIC-AVQA 數(shù)據(jù)集可以成為評估視聽場景細粒度理解和時空推理的基準平臺,同時也認為這項工作是探索視聽推理的開篇之作,為該領(lǐng)域開創(chuàng)了一個良好的開端,并借此希望能夠激勵更多的研究者同我們一道去探索這一領(lǐng)域。
團隊主要來自人大 AI 學(xué)院
本項研究由中國人民大學(xué)高瓴人工智能學(xué)院主導(dǎo),與美國羅徹斯特大學(xué)合作完成,通訊作者為 GeWu 實驗室胡迪助理教授,主要內(nèi)容由 GeWu 實驗室博士生李光耀負責(zé)。
GeWu 實驗室目前具體的研究方向主要包括多模態(tài)場景理解、多模態(tài)學(xué)習(xí)機制和跨模態(tài)交互與生成等,最近半年實驗室同學(xué)已發(fā)表多篇高質(zhì)量文章,如 TPAMI(人工智能領(lǐng)域影響因子最高的期刊,IF=17.861)和多篇 CVPR(均為 Oral)。
PS:研究人員發(fā)現(xiàn)常用的多模態(tài)模型存在欠優(yōu)化的單模態(tài)表征,這是由某些場景中另一種主導(dǎo)模態(tài)導(dǎo)致的。為此他們設(shè)計了 OGM-GE 方法,通過監(jiān)控不同模態(tài)對學(xué)習(xí)目標的貢獻差異來自適應(yīng)地調(diào)制每種模態(tài)的優(yōu)化,從而緩解了這種優(yōu)化上的不平衡。這篇工作也被 CVPR2022 接收為 Oral Presentation,具體內(nèi)容將在后續(xù)發(fā)布中解說。
此外,GeWu 實驗室非常歡迎對上述研究方向感興趣的同學(xué)加入(本、碩、博和訪問學(xué)生),詳情請進一步查看實驗室招生宣傳 (https://zhuanlan.zhihu.com/p/496452639)。