Meta再放大招!VR新模型登CVPR Oral:像人一樣「讀」懂語(yǔ)音
一提到AR、VR體驗(yàn),聲音體驗(yàn)都是最重要的一環(huán)。
無(wú)論是在元宇宙的party上狂歡,還是戴著增強(qiáng)現(xiàn)實(shí) (AR) 眼鏡在客廳看家庭電影,聲效對(duì)用戶的沉浸式體驗(yàn)都至關(guān)重要。
這不,Meta AI與Meta Reality Lab的音頻專家聯(lián)手,并與德克薩斯大學(xué)奧斯汀分校的研究人員合作,共同推出三個(gè)開源模型,用于對(duì)視頻中人聲和環(huán)境聲的同步解析。
「我們正嘗試建立這樣的MR與VR場(chǎng)景,我們相信人工智能將為每個(gè)沉浸式環(huán)境提供相匹配的音質(zhì)」他們說(shuō)。
人體所處的物理環(huán)境不同,人耳所感知的聲覺效果也不同。
例如,音樂會(huì)在大型場(chǎng)地和客廳的聲音有很大的不同。這是因?yàn)槲锢砜臻g的幾何形狀、該區(qū)域的材料和表面,以及聲音來(lái)自何處的接近度,都影響了我們聽到音頻的方式。
因此,就需要AI模型來(lái)了解我們的環(huán)境信息,從而對(duì)聲覺與視覺信息進(jìn)行匹配。
Meta的這項(xiàng)研究主要包括三個(gè)模型,分別是視覺聲覺匹配模型(Visual Acoustic Matching model)、基于視覺的去混響模型(Visually-Informed Dereverberation)、音視頻分離模型(Visual Voice)。
同時(shí),這次研究成果還在CVPR 2022論壇上發(fā)表5分鐘演講,這也就是TOP5含金量的論文才有這待遇。
首先,視覺聲覺匹配模型可將視頻中的音頻轉(zhuǎn)換為目標(biāo)環(huán)境中的聲覺效果,給定目標(biāo)環(huán)境的圖像和源音頻的波形,模型就可以重新合成音頻以匹配目標(biāo)房間的聲學(xué)。
然后就是我們基于視覺的音頻去混響模型 (VIDA),它可根據(jù)觀察到的聲音和視覺場(chǎng)景來(lái)學(xué)習(xí)消除混響。
而Visual Voice模型則可跨模型將視頻中的音頻與視頻分離。
下面是這些模型的具體操作流程。
視覺和聲音的完美盛宴
眾所周知,音頻與場(chǎng)景不一致的視頻,會(huì)十分損傷我們的感知。
在過(guò)去,從不同的環(huán)境中獲取音頻和視頻,并進(jìn)行匹配,一直是一個(gè)挑戰(zhàn)。
聲學(xué)仿真模型可用于生成房間脈沖響應(yīng),以重新創(chuàng)建房間的聲學(xué)效果,但這只有在幾何形狀(通常以 3D 網(wǎng)格的形式)和空間的材料屬性已知的情況下才能完成。不過(guò),在大多數(shù)情況下,這些信息是無(wú)從獲取的。
當(dāng)然,我們也可以僅根據(jù)在特定房間中捕獲的音頻來(lái)估計(jì)聲學(xué)特性,但通過(guò)這種方式,只能獲取十分有限的聲學(xué)信息,而且通常不會(huì)產(chǎn)生很好的結(jié)果。
為了解決這些挑戰(zhàn),研究人員創(chuàng)建了一個(gè)自監(jiān)督的視覺聲學(xué)匹配模型,稱為AViTAR。
它可以調(diào)整音頻,以匹配目標(biāo)圖像的空間。研究人員使用了一個(gè)跨模態(tài)Transformer模型,其中輸入由圖像和音頻組成,允許Transformer執(zhí)行跨模態(tài)推理,并生成與視覺輸入匹配的真實(shí)音頻輸出。
自監(jiān)督訓(xùn)練目標(biāo)從外部網(wǎng)絡(luò)視頻中學(xué)習(xí)聲學(xué)匹配,盡管它們?nèi)狈β晫W(xué)不匹配的音頻和未標(biāo)記的數(shù)據(jù)。
研究人員使用兩個(gè)數(shù)據(jù)集構(gòu)建了這個(gè)任務(wù)。第一個(gè)數(shù)據(jù)集是建立在與SoundSpaces合作的基礎(chǔ)上,SoundSpaces是他們?cè)?020年開放的AI視聽平臺(tái)。
建立在AI Habitat之上,SoundSpaces可以將來(lái)自「Replica」和「Matterport3D」數(shù)據(jù)集中的高保真、逼真的聲源模擬,插入到各種真實(shí)世界中。
第二個(gè)數(shù)據(jù)集由29萬(wàn)段公開的英語(yǔ)視頻組成,這些視頻剪輯的內(nèi)容是人們進(jìn)行的3到10秒講話。
對(duì)于這兩個(gè)數(shù)據(jù)集,研究人員更專注室內(nèi)環(huán)境下的語(yǔ)音。因?yàn)檫@些語(yǔ)音中的大部分可能與未來(lái)的很多場(chǎng)景用例相關(guān),同時(shí)也因?yàn)槿祟悓?duì)混響會(huì)如何影響語(yǔ)音有很強(qiáng)的先驗(yàn)知識(shí)。
研究人員將「麥克風(fēng)和攝像機(jī)需要放在一起,并且遠(yuǎn)離聲源」作為篩選視頻的標(biāo)準(zhǔn)。因?yàn)楦鶕?jù)聲源的位置以及人或麥克風(fēng)所在的位置,聽到的聲音可能會(huì)有所不同。
對(duì)于網(wǎng)絡(luò)視頻,研究人員必須克服的一個(gè)挑戰(zhàn)是:他們只有與目標(biāo)環(huán)境的聲學(xué)相匹配的音頻。
因此引入「失配」的概念,即首先消除混響。再將音頻與另一個(gè)環(huán)境的脈沖響應(yīng)混合在一起以隨機(jī)化音效,并添加噪音以創(chuàng)建具有相同內(nèi)容但不同音效的音頻。
研究人員在兩個(gè)數(shù)據(jù)集上驗(yàn)證了這個(gè)模型,并根據(jù)三個(gè)標(biāo)準(zhǔn)測(cè)量了生成音頻的質(zhì)量,包括它是否最接近真實(shí)音頻、房間聲學(xué)的正確性以及合成語(yǔ)音中保留的語(yǔ)音質(zhì)量。
同時(shí),他們也想看看人類是如何評(píng)價(jià)該模型的表現(xiàn),評(píng)估的標(biāo)準(zhǔn)是「音響效果是否與參考圖像匹配」。
結(jié)果表明,該模型成功地將人類語(yǔ)音轉(zhuǎn)換為圖像中描繪的各種真實(shí)世界場(chǎng)景,而且優(yōu)于傳統(tǒng)的純音頻聲學(xué)匹配。
對(duì)于視覺聲學(xué)匹配,研究者們感興趣的話題之一是重溫過(guò)去的記憶。想象一下,如果能夠戴上一副AR眼鏡,記憶中經(jīng)歷過(guò)的場(chǎng)景就會(huì)悄然地浮現(xiàn)在眼前。
比如拿起一件芭蕾舞裙,就能看到孩子芭蕾舞演出的全息圖。音頻消除了混響,聽起來(lái)就像您在觀眾席的確切座位上所經(jīng)歷的那樣。
真是妙不可言!
利用視覺信息,去除混響
下一個(gè)問(wèn)題是,去混響。
盡管有些場(chǎng)景下,增加一些混響音效有助于讓聲音和視覺信息更加匹配,但在語(yǔ)音識(shí)別領(lǐng)域,更常見的做法是去混響。
混響會(huì)在環(huán)境中的表面和物體間反射,這種反射的后果反映在人的耳朵里,就是音質(zhì)降低,而且會(huì)嚴(yán)重影響自動(dòng)語(yǔ)音識(shí)別的精度。
通過(guò)去混響,可以盡量剝離環(huán)境影響,使語(yǔ)音更容易被識(shí)別和增強(qiáng),比如,為有聽力障礙的人生成更準(zhǔn)確的字幕,就需要對(duì)音源進(jìn)行去混響處理。
過(guò)去的去混響方法往往根據(jù)音頻模式進(jìn)行,這種方法并不能了解環(huán)境的完整聲學(xué)特征。更多靠的是人類語(yǔ)音的先驗(yàn)知識(shí),而沒有考慮到周圍的環(huán)境。
為了讓這一過(guò)程與周圍環(huán)境結(jié)合,需要融入更多的維度的信息,比如視覺信息。
結(jié)合了視覺信息的去混響模型稱為「VIDA」, 根據(jù)觀察到的聲音和視覺流來(lái)學(xué)習(xí)去混響,這些視覺信息包括房間的幾何形狀、材料和音源位置等,這些都會(huì)影響在音頻流中體現(xiàn)的混響效果。
有了這個(gè)思路,我們想從一個(gè)特定的地方獲取混響的音頻,并抽離房間的聲效。
研究人員開發(fā)了一個(gè)大規(guī)模的訓(xùn)練數(shù)據(jù)集,使用真實(shí)的語(yǔ)音進(jìn)行渲染。
通過(guò)虛擬和真實(shí)的圖像上的演示表明,在語(yǔ)音增強(qiáng)、語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等任務(wù)上,VIDA實(shí)現(xiàn)了SOTA性能,比傳統(tǒng)的純音頻方法有了很大的提升。這對(duì)AR和VR應(yīng)用中建立現(xiàn)實(shí)體驗(yàn)是非常重要的。
VisualVoice:通過(guò)看和聽,理解語(yǔ)音
在復(fù)雜環(huán)境下,人類比AI更能理解語(yǔ)音的含義,因?yàn)槲覀儾粌H使用耳朵,還使用眼睛。
例如,我們看到某人的嘴在動(dòng),可能憑直覺就知道我們聽到的聲音一定是來(lái)自這個(gè)人。
Meta AI正在研究新的AI對(duì)話系統(tǒng),就是要讓AI也學(xué)會(huì)這種本事,識(shí)別在對(duì)話中看到的和聽到的東西之間的細(xì)微關(guān)聯(lián)。
VisualVoice的學(xué)習(xí)方式類似于人類學(xué)習(xí)掌握新技能的方式,通過(guò)從未標(biāo)記的視頻中學(xué)習(xí)視覺和聽覺線索,實(shí)現(xiàn)視聽語(yǔ)音分離。
對(duì)于機(jī)器來(lái)說(shuō),這創(chuàng)造了更好的感知,同時(shí)人類的感知力也會(huì)得到改善。
想象一下,能夠與來(lái)自世界各地的同事一起參加元宇宙中的小組會(huì)議,隨著他們?cè)谔摂M空間中的移動(dòng),加入更小的小組會(huì)議,期間,場(chǎng)景中的聲音混響和音色會(huì)根據(jù)環(huán)境做出相應(yīng)調(diào)整。
的確,現(xiàn)在的AI 模型在視頻和圖像理解方面做得很好。
但要讓用戶有「很哇塞」聲如其境的體驗(yàn),我們需要「多模式的 AI 模型」。
也就是可同時(shí)獲取音頻、視頻和文本信息,并更具有豐富的環(huán)境理解的模型。
目前AViTAR 和 VIDA 目前僅支持單個(gè)圖像,離推向市場(chǎng)還存在距離。
「未來(lái)我們希望嘗試使用視頻和其他動(dòng)態(tài)來(lái)捕捉空間的聲學(xué)特性。這將幫助我們更接近我們的目標(biāo),即創(chuàng)建了解現(xiàn)實(shí)世界環(huán)境以及人們?nèi)绾误w驗(yàn)它們的多模式 AI」。
相關(guān)論文地址:
https://vision.cs.utexas.edu/projects/visual-acoustic-matching/
https://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation/
https://vision.cs.utexas.edu/projects/VisualVoice/
參考資料:
https://ai.facebook.com/blog/ai-driven-acoustic-synthesis-for-augmented-and-virtual-reality-experiences/
https://siliconangle.com/2022/06/24/meta-building-better-ai-driven-audio-virtual-reality/