從視音角度看多模態(tài)學(xué)習的過去與未來
視覺和聽覺在人類的溝通和場景理解中至關(guān)重要。為了模仿人類的感知能力,旨在探索視音模態(tài)的視音學(xué)習在近些年來已成為一個蓬勃發(fā)展的領(lǐng)域。本文是對由中國人民大學(xué)高瓴人工智能學(xué)院GeWu-Lab聯(lián)合德克薩斯州大學(xué)達拉斯分校以及西北工業(yè)大學(xué)共同發(fā)布的最新視音學(xué)習綜述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解讀。
該綜述首先分析了視音模態(tài)的認知科學(xué)基礎(chǔ),進而對近來的視音學(xué)習工作(近三百篇相關(guān)文獻)進行了系統(tǒng)性的分析總結(jié)。最后,為了縱觀當前的視音學(xué)習領(lǐng)域,該綜述從視音場景理解的角度重新回顧了近年的視音學(xué)習進展,并探討了該領(lǐng)域潛在的發(fā)展方向。
arXiv鏈接:https://arxiv.org/abs/2208.09579
項目主頁:https://gewu-lab.github.io/audio-visual-learning/
awesome-list鏈接:https://gewu-lab.github.io/awesome-audiovisual-learning/
1 引言
視覺和聽覺信息是人類感知外部世界的主要信息來源。人類的大腦通過整合異質(zhì)的多模態(tài)的信息獲得對周遭環(huán)境的整體認知。例如,在具有多個說話人的雞尾酒會場景中,我們能夠借助唇形的變化加強接收到的感興趣的說話人的語音。因此,視音學(xué)習對于類人機器感知能力的探索是不可或缺的。相比于其他模態(tài),視音模態(tài)的特性使其與眾不同:
1)認知基礎(chǔ)。作為研究最廣泛的兩種感官,視覺和聽覺的整合遍布在人類的神經(jīng)系統(tǒng)中。一方面,這兩種感官在人類感知中的重要性為基于視音數(shù)據(jù)的機器感知研究提供了認知基礎(chǔ),另一方面,視覺和聽覺在神經(jīng)系統(tǒng)中的交互與整合能夠作為促進視音學(xué)習的依據(jù)。
2)多重一致性。在我們的日常生活中,視覺和聽覺緊密關(guān)聯(lián)。如圖1所示,狗的叫聲和它的外表都能讓我們與“狗”這一概念聯(lián)系起來(語義一致性)。同時,我們可以借助聽到的聲音或視覺來確定狗的確切空間位置(空間一致性)。而當聽到狗叫時,我們通常可以同時在視覺上看到狗(時序一致性)。視覺和聽覺之間的多重一致性是視音學(xué)習的研究基礎(chǔ)。
3)豐富的數(shù)據(jù)支持。移動終端和互聯(lián)網(wǎng)的快速發(fā)展促使越來越多的人在公共平臺上分享視頻,這使得收集視頻的成本降低。這些豐富的公開視頻緩解了數(shù)據(jù)獲取的障礙,為視音學(xué)習提供了數(shù)據(jù)支持。
視音模態(tài)的這些特點自然而然促使了視音學(xué)習領(lǐng)域的誕生。近年來,這一領(lǐng)域已經(jīng)取得了蓬勃發(fā)展,研究者們已經(jīng)不滿足于簡單地將額外模態(tài)引入原有的單模態(tài)任務(wù),開始探索并解決新的問題和挑戰(zhàn)。
但是,現(xiàn)有的視音學(xué)習工作通常是任務(wù)導(dǎo)向的。在這些工作中,他們關(guān)注于特定的視音任務(wù)。當前仍然缺乏能夠系統(tǒng)性回顧和分析視音學(xué)習領(lǐng)域發(fā)展的綜述性工作。因此,該文章對目前的視音學(xué)習領(lǐng)域進行了總結(jié),然后進一步展望了其潛在的發(fā)展方向。
由于視音學(xué)習和人類感知能力之間存在著緊密的聯(lián)系,該文章首先總結(jié)了視覺和聽覺模態(tài)的的認知基礎(chǔ),進而在此基礎(chǔ)上,將現(xiàn)有的視音學(xué)習研究分為三類:
1)視音提升(Audio-visual Boosting)。視覺和音頻數(shù)據(jù)各自已經(jīng)有很長的研究歷史和廣泛的應(yīng)用。盡管這些單模態(tài)方法已經(jīng)取得了相當有效的結(jié)果,但是他們僅僅利用了所關(guān)注事物的部分信息,單模態(tài)方法的表現(xiàn)是受限的,并且容易受到單模態(tài)噪聲的影響。因此,研究者們將額外模態(tài)引入這些音頻或視覺任務(wù)中,不僅通過整合互補信息提升了模型效果,而且促進了模型的魯棒性。
2)跨模態(tài)感知(Cross-modal Perception)。人類聽到聲音就能聯(lián)想到相關(guān)的畫面,看到畫面也可以想起與之匹配的聲音,這是因為視覺和聽覺信息具有一致性。該一致性為機器進行跨模態(tài)知識遷移或根據(jù)某一模態(tài)信息生成對應(yīng)的另一模態(tài)數(shù)據(jù)提供了基礎(chǔ)。因此,很多研究致力于跨模態(tài)感知能力的探索,并取得了顯著成果。
3)視音協(xié)作(Audio-visual Collaboration)。除了融合不同模態(tài)的信號之外,在人腦的皮質(zhì)區(qū)域存在更高級的模態(tài)間交互,以達到更深層次的場景理解。因此,類人感知能力需要對視音模態(tài)的協(xié)作進行探索。為了達到這一目標,近年來很多研究提出了更具挑戰(zhàn)性的場景理解問題,獲得了廣泛關(guān)注。
圖1:視音一致性與視音學(xué)習領(lǐng)域概覽
視音模態(tài)之間涵蓋語義,空間和時序的一致性為以上視音研究提供了可行性。因此,本文在總結(jié)了近來的視音研究之后,對視音的多重一致性進行了分析。此外,本文從視音場景理解的新視角,再次回顧了視音學(xué)習領(lǐng)域的進展。
2 視音認知基礎(chǔ)
視覺和聽覺是人類場景理解的兩個核心感官。這一章節(jié)總結(jié)了認知神經(jīng)科學(xué)中視覺和聽覺感官的神經(jīng)通路及視音模態(tài)的整合,為接下來對視音學(xué)習領(lǐng)域研究的討論奠定基礎(chǔ)。
2.1 視覺和聽覺的神經(jīng)通路
視覺是研究最廣泛的感官,有些觀點甚至認為它主導(dǎo)了人類的感知。相應(yīng)地,視覺的神經(jīng)通路也比較復(fù)雜。來自物體的反射光包含視覺信息,它激活了視網(wǎng)膜上眾多的光感受器(約2.6億個)。光感受器的輸出被送到神經(jīng)節(jié)細胞中(約200萬個)。這一過程壓縮了視覺信息。而后,經(jīng)過外側(cè)膝狀核細胞的處理,視覺信息最終到達大腦皮層的視覺相關(guān)區(qū)域。視覺皮層是一個具有功能差異的不同區(qū)域的組合,其視覺神經(jīng)元具有偏好性。例如,V4和V5的神經(jīng)元分別對顏色和運動敏感。
除了視覺,聽覺也是觀察周圍環(huán)境的一個重要感官。它不僅能提醒人類規(guī)避風險(例如當聽到野獸的叫聲時,人類會主動采取行動),也是人們相互交流的基礎(chǔ)。聲波在耳膜上被轉(zhuǎn)化為神經(jīng)元信號。然后,聽覺信息被輸送到腦干的下丘和耳蝸核。經(jīng)過丘腦內(nèi)側(cè)膝狀核的處理,聲音最終在初級聽覺皮層被編碼。大腦獲取聽覺信息,然后利用其中蘊含的聲音線索,如頻率和音色,來確定聲源的身份。同時,兩只耳朵之間的強度和聽覺間的時間差異為聲音的位置提供線索,這被稱為雙耳效應(yīng)。在實踐中,人類的感知可以結(jié)合多種感官,尤其是聽覺和視覺,這被稱為多通道知覺。
2.2 認知神經(jīng)科學(xué)中的視音整合
每種感官都提供關(guān)于周圍環(huán)境的獨特信息。盡管多種感官接收的信息是不同的,但由此產(chǎn)生的環(huán)境表征是統(tǒng)一的體驗,而非互不相干的感覺。
一個代表性的例子是麥格克效應(yīng):語義不同的視覺信號和聽覺信號得到了單一語義的信息。這些現(xiàn)象表明在人類的感知中,來自多種感官的信號通常被整合。其中,聽覺和視覺的神經(jīng)通路的交叉結(jié)合了人類兩種重要感官的信息,促進了知覺的敏感性和準確性,例如,與聲音有關(guān)的視覺信息能夠提高聽覺空間的搜索效率。
這些結(jié)合多種感官信息的感知現(xiàn)象在認知神經(jīng)科學(xué)領(lǐng)域引起了人們的關(guān)注。人類的神經(jīng)系統(tǒng)中一個被充分研究的多通道感知區(qū)域是上丘。上丘的許多神經(jīng)元具有多感官特性,可以被來自視覺、聽覺、甚至觸覺的信息激活。這種多感官反應(yīng)往往比單一的反應(yīng)更強。皮質(zhì)中的顳上溝是另一個代表性區(qū)域。
根據(jù)對猴子的研究,它被觀察到與多種感官的連接,包括視覺、聽覺和體感。更多的大腦區(qū)域,包括頂葉、額葉和海馬體,都表現(xiàn)出類似的多通道知覺現(xiàn)象。根據(jù)對于多通道知覺現(xiàn)象的研究,我們可以觀察到幾個關(guān)鍵發(fā)現(xiàn):
1)多模態(tài)提升。如上所述,許多神經(jīng)元可以對多種感官的融合信號作出反應(yīng),當單一感官的刺激較弱時,這種增強的反應(yīng)比單模態(tài)的反應(yīng)更可靠。
2)跨模態(tài)可塑性。這種現(xiàn)象是指剝奪一種感官能夠影響其對應(yīng)的皮質(zhì)區(qū)域的發(fā)展。例如,聾人的聽覺相關(guān)皮層有可能被視覺刺激所激活。
3)多模態(tài)協(xié)作。不同感官的信號在皮層區(qū)域有更復(fù)雜的整合。研究人員發(fā)現(xiàn),大腦皮層存在具有以協(xié)作方式整合多感官信息能力的模塊,以建立意識和認知。
受人類認知的啟發(fā),研究人員已經(jīng)開始研究如何實現(xiàn)類人的視音感知能力,更多的視音研究在近些年逐漸涌現(xiàn)。
3 視音提升
盡管各個模態(tài)本身已經(jīng)有較為充分的可供學(xué)習的信息,并且已經(jīng)存在許多基于單模態(tài)數(shù)據(jù)的任務(wù),但是單模態(tài)數(shù)據(jù)只提供了局部信息,并且對單模態(tài)噪聲較為敏感(例如,視覺信息受光照,視角等因素影響)。因此,受人類認知中多模態(tài)提升現(xiàn)象的啟發(fā),一些研究者在原有的單模態(tài)任務(wù)中引入額外的視覺(或音頻)數(shù)據(jù),以增進任務(wù)表現(xiàn)。我們將相關(guān)任務(wù)分為識別和增強兩大部分。
單模態(tài)識別任務(wù)在過去已經(jīng)被廣泛研究,例如基于音頻的語音識別以及基于視覺的動作識別。但是,單模態(tài)數(shù)據(jù)只觀察到了事物的部分信息,并且易受單模態(tài)噪聲影響。因而,整合多模態(tài)數(shù)據(jù)以促進模型的能力和魯棒性的視音識別任務(wù)在近年來引起了關(guān)注,并涵蓋了語音識別、說話人識別、動作識別和情感識別等多個方面。
視音模態(tài)的一致性不僅為多模態(tài)識別任務(wù)提供了基礎(chǔ),還使得用借助某一模態(tài)增強另一模態(tài)信號成為可能。例如,多個說話人在視覺上是分離的,因此說話人的視覺信息可以用于輔助語音分離。此外,音頻信息能夠為重建被遮蓋或缺失的說話人面部信息提供性別、年齡等身份信息。這些現(xiàn)象已經(jīng)啟發(fā)研究者借助其他模態(tài)的信息進行去噪或增強,例如語音增強,聲源分離及面部超分重建。
圖2:視音提升任務(wù)
4 跨模態(tài)感知
認知神經(jīng)科學(xué)中的跨模態(tài)可塑性現(xiàn)象以及視音模態(tài)之間的一致性促進了跨模態(tài)感知的研究,其目的在于學(xué)習并建立音頻和視覺模態(tài)之間的關(guān)聯(lián),促使了跨模態(tài)生成、遷移和檢索等任務(wù)的產(chǎn)生。
人類具有在已知模態(tài)的指導(dǎo)下預(yù)測另一種模態(tài)對應(yīng)的信息的能力。例如,在聽不到聲音的情況下,只要看到嘴唇運動的視覺信息,我們就能大致推斷出這個人在說什么。音頻和視覺之間在語義,空間和時序多方面的一致性為機器擁有類人的跨模態(tài)生成能力提供了可能。跨模態(tài)生成任務(wù)目前已經(jīng)涵蓋了包括單通道音頻生成、立體聲生成、視頻/圖像生成以及深度估計在內(nèi)的多個方面。
除跨模態(tài)生成以外,視音之間在語義上的一致性表明,一種模態(tài)的學(xué)習有望得到來自另一模態(tài)的語義信息的幫助。這也是視音遷移任務(wù)的目標。另外,視音的語義一致性也促進了跨模態(tài)信息檢索任務(wù)發(fā)展。
圖3:跨模態(tài)感知相關(guān)任務(wù)
5 視音協(xié)作
人腦會對接收到的場景的視聽信息進行整合,使之相互協(xié)作、互為補充,從而提升對場景的理解能力。因此,機器有必要通過探索視聽協(xié)作來追求類似人類的感知,而不僅僅是融合或預(yù)測多模態(tài)信息。為了這一目標,研究者們在視音學(xué)習領(lǐng)域引入了包括視音成分分析和視音推理在內(nèi)的多種新的挑戰(zhàn)。
在進行視音協(xié)作之初,如何在沒有人類注釋的情況下有效地從視音模態(tài)中提取表征,是一個重要的課題。這是因為高質(zhì)量的表征可以為各種下游任務(wù)做出貢獻。對于視聽數(shù)據(jù)來說,它們之間在語義,空間以及時序上的一致性,為以自監(jiān)督方式學(xué)習視音表征提供了天然的信號。
除了表征學(xué)習外,視音模態(tài)之間的協(xié)作主要聚焦在場景理解方面。一些研究者聚焦于對場景中視音成分的解析與定位,包括聲源定位,視音顯著性檢測,視音導(dǎo)航等。這類任務(wù)建立了細粒度的視音模態(tài)之間的聯(lián)系。
除此之外,在許多視音任務(wù)中,我們往往假定整個視頻中的視音內(nèi)容在時間上一直是匹配的,也就是說,在視頻的每個時刻,畫面和聲音均具有一致性。但實際上,這一假設(shè)并非能夠時刻成立。例如,在“打籃球”的樣本中,攝像機有時會拍攝觀眾席等和“打籃球”這一標簽無關(guān)的場景。因此,視音事件定位與解析這一類任務(wù)被提出以在時序上進一步對場景中的視音成分進行剝離。
人類在視音場景中能夠在感知之外進一步進行推斷。雖然以上的視音協(xié)作任務(wù)逐步達到了對視音場景細粒度的理解,卻并未進行對視音成分的進行推理分析。近來,隨著視音學(xué)習領(lǐng)域的發(fā)展,一些研究者開始進一步關(guān)注視音推理,例如視音問答和對話任務(wù)。這些任務(wù)旨在通過對視音場景進行跨模態(tài)時空推理,回答與場景有關(guān)的問題,或者就所觀察到的視音場景生成對話。
圖4:視音協(xié)作相關(guān)任務(wù)
6 代表性數(shù)據(jù)集
本部分梳理討論了視音學(xué)習領(lǐng)域的一些具有代表性的數(shù)據(jù)集。
7 趨勢和新視角
7.1 語義,空間和時序一致性
盡管視音模態(tài)具有異質(zhì)的數(shù)據(jù)形式,它們的內(nèi)在一致性涵蓋了語義,空間和時序多個方面,為視音研究奠定了基礎(chǔ)。
首先,視覺和音頻模態(tài)從不同的角度描繪了所關(guān)注的事物。因此,視音數(shù)據(jù)的語義被認為是語義一致的。在視音學(xué)習中,語義一致性在大多數(shù)任務(wù)中起著重要作用。例如,這種一致性使得結(jié)合視音信息以獲得更好的視音識別和單模態(tài)增強效果成為可能。此外,視音模態(tài)之間的語義一致性在跨模態(tài)檢索和遷移學(xué)習中也起著重要作用。
其次,視覺和音頻都可以幫助確定發(fā)聲對象的確切空間位置。這種空間上的對應(yīng)關(guān)系也有廣泛的應(yīng)用。例如,在聲源定位任務(wù)中,這種一致性被用來在輸入音頻的指導(dǎo)下確定發(fā)聲物體的視覺位置。在立體聲情況下,能夠基于雙耳音頻估計視覺深度信息或利用視覺信息為輔助生成立體聲音頻。
最后,視覺內(nèi)容和其產(chǎn)生的聲音通常在時序上是一致的。這種一致性在大多數(shù)視音學(xué)習研究中也被廣泛利用,比如在視音識別或生成任務(wù)中融合或預(yù)測多模態(tài)信息。
在實踐中,這些不同的視音一致性不是孤立的,而是經(jīng)常共同出現(xiàn)在視音場景中。因此,它們往往在相關(guān)任務(wù)中被共同利用。語義和時序一致性的結(jié)合是最常見的情況。
在簡單場景下,處于相同時間戳的視音片段被認為在語義和時序上都是一致的。然而,這種較強的假設(shè)可能會失敗,例如,視頻畫面和同一時間戳的背景音并非語義一致。這些假陽性對訓(xùn)練帶來了干擾。
最近,研究人員已經(jīng)開始關(guān)注這些情況以提高場景理解的質(zhì)量。此外,語義和空間一致性的結(jié)合也很常見。例如,視頻中聲源定位的成功依賴于語義一致性以根據(jù)輸入的聲音探索對應(yīng)的視覺上的空間位置。此外,在視音導(dǎo)航任務(wù)的早期階段,發(fā)聲目標會產(chǎn)生一個穩(wěn)定的重復(fù)的聲音。雖然空間一致性得到了滿足,但視覺和音頻中的語義內(nèi)容是不相關(guān)的。隨后,聲音和發(fā)聲位置的語義一致性被引入,以提高視音導(dǎo)航的質(zhì)量。
總的來說,視音模態(tài)的語義,空間以及時序上的一致性足為視音學(xué)習的研究提供了堅實的支撐。對這些一致性的分析和利用不僅提高了現(xiàn)有視音任務(wù)的性能,并且有助于更好地理解視音場景。
7.2 關(guān)于場景理解的新視角
本文總結(jié)了視音模態(tài)的認知基礎(chǔ),并分析了人類的多通道感知的現(xiàn)象,在此基礎(chǔ)上,將目前的視音學(xué)習研究分為三類:視音提升(Audio-visual Boosting)、跨模態(tài)感知(Cross-modal Perception)和視音協(xié)作(Audio-visual Collaboration)。為了從更宏觀的角度回顧目前視音學(xué)習領(lǐng)域的發(fā)展,文章進一步提出了關(guān)于視音場景理解的新視角:
1)基礎(chǔ)場景理解(Basic Scene Understanding)。視音提升和跨模態(tài)感知的任務(wù)通常側(cè)重于融合或預(yù)測一致的視音信息。這些任務(wù)的核心是對視音場景的基礎(chǔ)理解(例如,對輸入視頻的進行動作分類。)或?qū)缒B(tài)信息進行預(yù)測(例如,基于無聲視頻生成對應(yīng)的音頻。) 然而,自然場景中的視頻通常包含多種多樣的視音成分,超出了這些基礎(chǔ)場景理解任務(wù)的范疇。
2)細粒度場景理解(Fine-grained Scene Understanding)。如上所述,視音場景通常具有豐富的不同模態(tài)的成分。因此,研究者們提出了一些剝離目標成分的任務(wù)。例如,聲源定位任務(wù)旨在標記出視覺中的目標發(fā)聲物體所在的區(qū)域。視音事件定位與解析任務(wù)則在時序上確定目標可聽事件或可見事件。這些任務(wù)將視音成分剝離出來,對視音場景進行解耦,與上一階段相比,對場景有更細粒度的理解。
3)因果交互場景理解(Causal Scene Understanding)。 在視音場景中,人類不僅能感知周圍感興趣的事物,還能推斷出它們之間的交互。這一階段場景理解的目標更接近于追求類人感知。目前,只有很少的任務(wù)在這一階段進行探索。視音問答和對話任務(wù)是代表性的工作。這些任務(wù)試圖探索視頻中視音成分的關(guān)聯(lián),并進行時空推理。
總的來說,對這三個階段的探索是不平衡的。從基礎(chǔ)場景理解到因果交互場景理解,相關(guān)研究的多樣性和豐富性逐漸降低,特別是因果交互場景理解仍然處于起步階段。這暗示了視音學(xué)習存在的一些潛在發(fā)展方向:
1)任務(wù)整合。視音領(lǐng)域的大多數(shù)研究是任務(wù)導(dǎo)向的。這些單獨的任務(wù)只模擬和學(xué)習視音場景的特定方面。然而,視音場景的理解和感知并不是孤立的。例如,聲源定位任務(wù)強調(diào)視覺中與聲音相關(guān)的對象,而事件定位和解析任務(wù)則在時序上確定目標事件。這兩個任務(wù)有望被整合以促進對視音場景的精細化理解。多個視音學(xué)習任務(wù)的整合是在未來值得探索的方向。
2)更深入的因果交互場景理解。目前,對涉及推理的場景理解的研究的多樣性仍然有限?,F(xiàn)有的任務(wù),包括視音問答和對話,大多集中在基于視頻中的事件進行對話。更深入的推理類型,如根據(jù)預(yù)覽的場景預(yù)測接下來可能發(fā)生的音頻或視覺事件,值得在未來進一步研究。?
為了更好地呈現(xiàn)文章內(nèi)容,該綜述同時配備了持續(xù)更新的項目主頁,以圖片、視頻等更多形式展示了不同視音任務(wù)的目標與發(fā)展,供讀者快速了解視音學(xué)習領(lǐng)域。