聲學(xué)領(lǐng)域的機(jī)器學(xué)習(xí)研究可以開啟多模態(tài)元宇宙
麻省理工學(xué)院和IBM Watson AI Lab的研究人員創(chuàng)建了一個(gè)機(jī)器學(xué)習(xí)模型,用于預(yù)測聽眾在3D空間內(nèi)的不同位置上會(huì)聽到什么。
研究人員首先使用這個(gè)機(jī)器學(xué)習(xí)模型來了解房間中的任何聲音是如何在空間中傳播的,按照人們通過聲音理解自身所處環(huán)境的方式構(gòu)建3D房間的圖景。
在麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系(EECS)研究生Yilun Du共同撰寫的一篇論文中,研究人員們展示了如何將類似于視覺3D建模的技術(shù)應(yīng)用于聲學(xué)領(lǐng)域。
但是他們要面對聲音和光線傳播的不同之處。例如,由于障礙物、房間的形狀和聲音的特性,聽眾處在房間中不同的位置可能會(huì)對聲音產(chǎn)生非常不同的印象,從而讓結(jié)果變得難以預(yù)測。
為了解決這個(gè)問題,研究人員們在他們的模型中建立了聲學(xué)特征。首先,在所有其他條件都相同的情況下,交換聲音源和聽眾的位置不會(huì)改變聽眾聽到的內(nèi)容。聲音還特別受本地條件影響,例如位于聽眾和聲音源之間的障礙物。
Du表示:“到目前為止,大多數(shù)研究人員只專注于視覺建模。但是作為人類,我們有多種感知模式。不僅視覺很重要,聲音也很重要。我認(rèn)為這項(xiàng)工作開辟了一個(gè)令人興奮的研究方向,可以更好地利用聲音來模擬世界?!?/p>
使用這種方法,生成的神經(jīng)聲場(NAF)模型能夠?qū)W(wǎng)格上的點(diǎn)進(jìn)行隨機(jī)采樣,以了解特定位置的特征。例如,靠近門口會(huì)極大地影響聽眾聽見房間另一側(cè)聲響的內(nèi)容。
該模型能夠根據(jù)聽眾在房間中的相對位置預(yù)測聽眾可能從特定聲學(xué)刺激中聽到的內(nèi)容。
這篇論文表示:“通過將場景中的聲學(xué)傳播建模為線性時(shí)不變系統(tǒng),NAF學(xué)會(huì)不斷地將發(fā)射器和聽眾的位置映射到神經(jīng)脈沖響應(yīng)函數(shù),后者可以應(yīng)用于任意聲音?!薄拔覀冏C明了NAF的連續(xù)性讓我們能夠在任意位置為聽眾渲染空間聲音,并且可以預(yù)測聲音在新位置的傳播。”
MIT-IBM Watson AI Lab的首席研究員Chuang Gan 也參與了該項(xiàng)目,他表示:“這項(xiàng)新技術(shù)可能會(huì)為在元宇宙應(yīng)用程序創(chuàng)建多模態(tài)沉浸式體驗(yàn)帶來新的機(jī)會(huì)?!?/p>
我們知道不是所有 Reg 讀者都會(huì)對這個(gè)用例感到興奮。