自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專訪大象聲科汪德亮:利用深度學(xué)習(xí)解決「雞尾酒會(huì)問(wèn)題 」

企業(yè)動(dòng)態(tài)
隨著深度學(xué)習(xí)的興起,人工智能已經(jīng)學(xué)會(huì)了下圍棋、玩視頻游戲、識(shí)別人臉、做翻譯、駕駛汽車……甚至在德州撲克這種非完美博弈中也開始嶄露頭角。但事實(shí)上,變化不止于此,在語(yǔ)音增強(qiáng)方面,深度學(xué)習(xí)技術(shù)正推動(dòng)「雞尾酒會(huì)問(wèn)題」的解決。

近些年,隨著深度學(xué)習(xí)的興起,人工智能已經(jīng)學(xué)會(huì)了下圍棋、玩視頻游戲、識(shí)別人臉、做翻譯、駕駛汽車……甚至在德州撲克這種非完美博弈中也開始嶄露頭角。但事實(shí)上,變化不止于此,在語(yǔ)音增強(qiáng)方面,深度學(xué)習(xí)技術(shù)正推動(dòng)「雞尾酒會(huì)問(wèn)題」的解決。

俄亥俄州立大學(xué)終身教授汪德亮(DeLiang Wang)是全球第一個(gè)將深度學(xué)習(xí)應(yīng)用于語(yǔ)音增強(qiáng)的科學(xué)家。

[[183096]]

汪德亮教授是俄亥俄州立大學(xué)感知與神經(jīng)動(dòng)力學(xué)實(shí)驗(yàn)室的主任、校杰出學(xué)者、IEEE Fellow、頂級(jí)期刊 Neural Networks 主編,主要致力于機(jī)器感知和信號(hào)處理領(lǐng)域的研究,在聽視覺處理的神經(jīng)計(jì)算研究方面開展了多項(xiàng)研究工作,并取得了很多重大成果。他建立了振蕩相關(guān)理論,在聽視覺分析中得到了廣泛應(yīng)用,還開創(chuàng)性地提出了計(jì)算聽覺場(chǎng)景分析理論與算法,為解決聽覺領(lǐng)域中著名的「雞尾酒會(huì)問(wèn)題」提供了全新的研究思路和方向。前段時(shí)間,他在 IEEE Spectrum 上發(fā)文詳細(xì)介紹了其團(tuán)隊(duì)在語(yǔ)音增強(qiáng)深度學(xué)習(xí)技術(shù)上的研究進(jìn)展。

汪德亮以聯(lián)合創(chuàng)始人兼首席科學(xué)家身份加入創(chuàng)業(yè)公司「大象聲科」,該公司于最近在深圳成立,專注于深度學(xué)習(xí)在語(yǔ)音增強(qiáng)領(lǐng)域的應(yīng)用開發(fā),通過(guò)聲音信號(hào)處理技術(shù)為企業(yè)提供全面的遠(yuǎn)場(chǎng)語(yǔ)音增強(qiáng)方案。目前大象聲科涉及的領(lǐng)域包括會(huì)議轉(zhuǎn)錄、通訊、機(jī)器人、智能家居、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)等。

機(jī)器之心近日對(duì)汪德亮進(jìn)行了一次專訪,以下是專訪內(nèi)容的整理:

機(jī)器之心:您是計(jì)算聽覺場(chǎng)景分析(CASA/computational auditory scene analysis)的主要貢獻(xiàn)者之一,您能為我們簡(jiǎn)單介紹一下 CASA 相關(guān)的技術(shù)以及您的研究團(tuán)隊(duì)的工作嗎?

汪德亮:CASA 主要關(guān)注的領(lǐng)域是聲源分離。這里的聲源不單是指人的聲音,也可能是其它各種聲音(比如街上汽車和救護(hù)車的聲音)——這些都是聲源。聲源分離的目標(biāo)就是將這些聲音分離開。針對(duì)這一問(wèn)題的早期解決方式是通過(guò)統(tǒng)計(jì)的方法把聲音里面的統(tǒng)計(jì)特性提取出來(lái); 計(jì)算聽覺場(chǎng)景分析則在很大程度上是對(duì)人的聽覺特性的模擬。

盡管現(xiàn)在人工智能已經(jīng)很強(qiáng)大了,但在很多方面人的智能還是比機(jī)器智能強(qiáng)很多,尤其是在魯棒性方面。也就是說(shuō),對(duì)于有一個(gè)同樣答案的數(shù)據(jù),如果其中有一些變化的話,對(duì)機(jī)器來(lái)說(shuō)會(huì)是很大的困難,但對(duì)人來(lái)說(shuō)卻沒有什么影響。CASA 這個(gè)領(lǐng)域很大程度上基于聽覺場(chǎng)景分析(ASA/auditory scene analysis)。ASA 是心理聽覺(psychoacoustics)的一個(gè)研究領(lǐng)域,這是心理學(xué)和聽覺的交叉領(lǐng)域。其中最有名的問(wèn)題叫做「雞尾酒會(huì)問(wèn)題(cocktail party problem)」;而人能夠解決雞尾酒會(huì)問(wèn)題。

雞尾酒會(huì)問(wèn)題是什么呢?這首先是由一位著名心理學(xué)家 Colin Cherry 提出的,他當(dāng)時(shí)研究的是注意機(jī)制(attention mechanism),你能在很多的相關(guān)書籍中看到他的名字,在歷史上的地位非常顯赫。當(dāng)時(shí)他在他那本 1957 的書《On Human Communication》里面說(shuō)道:到目前為止,還沒有哪個(gè)機(jī)器算法能夠解決雞尾酒會(huì)問(wèn)題。這之后雞尾酒會(huì)問(wèn)題就為人所知了。要解決雞尾酒會(huì)問(wèn)題,就需要能夠達(dá)到人類的聽覺性能水平。后來(lái)麥吉爾大學(xué)的教授 Albert Bregman 在 90 年代寫了一本巨著——《聽覺場(chǎng)景分析(Auditory Scene Analysis)》,這本書對(duì)計(jì)算領(lǐng)域的影響還是很大的。Bregman 本身是一位心理學(xué)家,不管計(jì)算問(wèn)題。他思考的是:人是通過(guò)怎樣一種心理學(xué)機(jī)制和生物學(xué)機(jī)制來(lái)達(dá)到能夠解決雞尾酒會(huì)問(wèn)題的性能的(當(dāng)然到目前我們也還并不完全了解人是怎么做到的)。但是他在他的那本書里面提出了一個(gè)理論——聽覺場(chǎng)景分析理論。后來(lái)他這個(gè)理論被引入了計(jì)算領(lǐng)域,人們就思考怎么可以把人解決雞尾酒會(huì)問(wèn)題的機(jī)制變成算法用到機(jī)器上,讓機(jī)器能夠達(dá)到解決雞尾酒會(huì)問(wèn)題的性能,從而回答 Cherry 在很多年前最開始提出的那個(gè)挑戰(zhàn)。

CASA 這個(gè)領(lǐng)域又是怎么由來(lái)的呢?Bregman 的那本書是 1990 年發(fā)表的,而 CASA 領(lǐng)域最早的工作是 1985 年斯坦福大學(xué)的一篇博士論文;這項(xiàng)研究啟動(dòng)的時(shí)間比那本書還早 (但也受到了 Bregman 影響)。計(jì)算聽覺場(chǎng)景分析這個(gè)領(lǐng)域就從那個(gè)時(shí)候開始形成。

圖注:一個(gè)街道上的聽覺場(chǎng)景,圖片來(lái)自 IEEE Spectrum

一個(gè)街道上的聽覺場(chǎng)景,圖片來(lái)自 IEEE Spectrum

對(duì)于我們這個(gè)團(tuán)隊(duì)呢——我是從神經(jīng)網(wǎng)絡(luò)這個(gè)領(lǐng)域切進(jìn)去的,而他們是從電子電氣和信號(hào)處理那些領(lǐng)域切進(jìn)去的——我們的進(jìn)入方向不一樣。我進(jìn)入的時(shí)間也比較早——從 90 年代初就進(jìn)入了。我在早期的時(shí)候研究的是神經(jīng)動(dòng)力學(xué),比如大腦里的振蕩器。后來(lái)我轉(zhuǎn)向了這個(gè)方向,在這個(gè)過(guò)程中 Bregman 的那本書對(duì)我的影響非常大。但那時(shí)候做這個(gè)領(lǐng)域研究的人還不多,我可以說(shuō)是 CASA 這個(gè)領(lǐng)域的主要代表人物之一。后來(lái) CASA 的影響力開始慢慢變大。

我們也第一次把 CASA 和后來(lái)的深度學(xué)習(xí)結(jié)合了起來(lái),也就是說(shuō)把雞尾酒會(huì)問(wèn)題變成了一個(gè)機(jī)器學(xué)習(xí)問(wèn)題。早期的時(shí)候,我是通過(guò)神經(jīng)動(dòng)力學(xué)來(lái)做聲源分離的。但現(xiàn)在我們把雞尾酒會(huì)問(wèn)題變成了一個(gè)分類問(wèn)題,源于我們稱之為「理想二值模(Ideal Binary Mask)」。這是我們實(shí)驗(yàn)室提出的一個(gè)很重要的概念。我們就想:什么叫解決了雞尾酒會(huì)問(wèn)題?也就是說(shuō),如果把一個(gè)聽覺信號(hào)在時(shí)間域和頻率域兩個(gè)維度(時(shí)頻二維)進(jìn)行表示(類似于視覺信號(hào)的 x 軸和 y 軸兩個(gè)維度),你就可以把時(shí)頻這二維表示成一個(gè)二維矩陣,這個(gè)矩陣中的每一個(gè)元素稱為一個(gè)「時(shí)頻元(time-frequency unit)」。我們開始研究的就是怎么量化這個(gè)時(shí)頻元,后來(lái)我們發(fā)現(xiàn)這個(gè)量化只要二值就可以了——要么是 0 要么就是 1。這跟傳統(tǒng)的聲源處理方法是完全不一樣的。傳統(tǒng)的聲源處理要把信號(hào)分得很細(xì)。一個(gè)信號(hào)里面可能有很多的組成部分——一個(gè)部分屬于這個(gè)聲源,另一個(gè)部分屬于另一個(gè)聲源。我們的方法就不需要分那么細(xì),就只需要分一次——要么屬于目標(biāo)聲源,要么就是背景噪聲。這就是「二值」的意思。這樣我們就把 CASA 問(wèn)題變成了一個(gè)監(jiān)督學(xué)習(xí)(supervised learning)問(wèn)題;相對(duì)地,早期方法則是無(wú)監(jiān)督的(unsupervised)——也就是說(shuō)把一個(gè)信號(hào)的權(quán)值算一算,而不需要教它。我們從理想二值模的角度考慮,就把它變成了一個(gè)分類問(wèn)題。

分類是監(jiān)督學(xué)習(xí)領(lǐng)域里面一個(gè)最基本的任務(wù)。我講課的時(shí)候常常這樣比喻:對(duì)于一個(gè)水果——它是橘子還是蘋果?二值就是這個(gè)意思——要么是橘子,要么就是蘋果。如果最開始你讓一個(gè)不認(rèn)識(shí)它們的小孩去猜,猜錯(cuò)了之后他媽媽會(huì)告訴他錯(cuò)了,最多幾次之后這個(gè)小孩就能自然地知道該怎么區(qū)分了。機(jī)器學(xué)習(xí)也就是這樣,我在講課的時(shí)候常常將它比作是「Apple & Orange Problem」。當(dāng)你把它變成了一個(gè)二值模問(wèn)題之后,這就很自然地變成了一個(gè)「Apple & Orange Problem」,也就成了一個(gè)分類問(wèn)題了,之后該怎么做就變得明朗了。

確定了問(wèn)題之后,接下來(lái)就是確定用什么學(xué)習(xí)模型去做,這就是具體的技術(shù)問(wèn)題了。

為什么我們實(shí)驗(yàn)室在聲源分離這方面一直處于領(lǐng)先呢?因?yàn)槭俏覀冏钤缣岢霭崖曉磫?wèn)題變成一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題的。最早用過(guò)多層感知器(Multi-layer perceptron)、混合高斯模型(Gaussian Mixture Model)等等。因?yàn)檫@是一個(gè)全新的思路——原來(lái)是一個(gè)信號(hào)處理問(wèn)題,現(xiàn)在變成了一個(gè)學(xué)習(xí)問(wèn)題——而我們一直是領(lǐng)先在做,所以我們也一直處于領(lǐng)先的狀態(tài)。深度學(xué)習(xí)出來(lái)之后,我們也是最早把深度學(xué)習(xí)應(yīng)用到這一領(lǐng)域的。當(dāng)我們把它變成了一個(gè)深度學(xué)習(xí)問(wèn)題之后,剩下的就是具體的技術(shù)問(wèn)題了。將來(lái)(也許五年之后),也許深度神經(jīng)網(wǎng)絡(luò)又比不上一種新出現(xiàn)的學(xué)習(xí)模型了。我們會(huì)照樣進(jìn)行研究,因?yàn)槲覀円呀?jīng)有了概念上的突破。學(xué)習(xí)模型之間性能當(dāng)然是有差別的,所以采用更好的模型也是理所當(dāng)然。而將這個(gè)問(wèn)題變成一個(gè)學(xué)習(xí)問(wèn)題才是更大的概念上的突破。

所以簡(jiǎn)單總結(jié)一下,CASA 就是基于人的聽覺原理來(lái)做聲源分離,我們實(shí)驗(yàn)室的最大貢獻(xiàn)是第一次將這個(gè)問(wèn)題變成了一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題。

機(jī)器之心:您前段時(shí)間在 IEEE Spectrum 上面發(fā)表了一篇用深度學(xué)習(xí)變革助聽器的文章《Deep Learning Reinvents the Hearing Aid》,談了您對(duì)聽覺增強(qiáng)技術(shù)的研究工作,尤其是聲音分離技術(shù)。請(qǐng)您簡(jiǎn)單介紹一下深度學(xué)習(xí)是如何將噪聲和我們想要的聲音分離開的。其中最大的難點(diǎn)是什么?

汪德亮:一旦把它變成了一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題之后,我們就希望學(xué)習(xí)機(jī)的分類結(jié)果和理想二值模的分類是一樣的。理想二值模是「理想的」,是在聲音沒有重疊之前計(jì)算出來(lái)的,就是說(shuō)不管噪聲比目標(biāo)聲音強(qiáng)多少倍,它都能將目標(biāo)聲音分離出來(lái)。盡管是二值的,但是功效非常之大。

深度學(xué)習(xí)聲音分離技術(shù)的流程,圖片來(lái)自 IEEE Spectrum

深度學(xué)習(xí)聲音分離技術(shù)的流程,圖片來(lái)自 IEEE Spectrum

其中的難點(diǎn)就在怎么通過(guò)學(xué)習(xí)的方式來(lái)不斷地提高精度,讓它不斷接近理想二值模。其中最大的難點(diǎn)?我想所有的監(jiān)督學(xué)習(xí)都一樣,就是說(shuō):我們可以怎樣在數(shù)據(jù)有限的條件下學(xué)習(xí)到足夠好的模型,并且可以推廣到新的場(chǎng)景。我們談的計(jì)算聽覺場(chǎng)景分析就是要在所有的場(chǎng)景中都達(dá)到能夠?qū)嵱玫囊?mdash;—因?yàn)橐苍S它大部分場(chǎng)景都見過(guò),但有的場(chǎng)景卻從沒碰到過(guò)。這就類似于早期時(shí)候的自動(dòng)駕駛汽車在雪地里沒法行駛,因?yàn)樗鼜膩?lái)沒有在雪地里行駛的數(shù)據(jù),之后有了這方面的訓(xùn)練數(shù)據(jù)之后,自動(dòng)駕駛汽車就能應(yīng)對(duì)雪地了。這就是一個(gè)數(shù)據(jù)問(wèn)題。而現(xiàn)在這個(gè)難點(diǎn)我們已經(jīng)走過(guò)了,「突破」就是這個(gè)意思——就是說(shuō)以前人們百思不得其解的東西,現(xiàn)在已經(jīng)有了方向,接下來(lái)就開始加速發(fā)展了。

機(jī)器之心:就是說(shuō)現(xiàn)在技術(shù)已經(jīng)有了,現(xiàn)在最大的難點(diǎn)是在數(shù)據(jù)上?

汪德亮:對(duì),數(shù)據(jù)是個(gè)問(wèn)題,還有就是訓(xùn)練過(guò)程。目前深度學(xué)習(xí)代表著最現(xiàn)代的一種方法,但我們還不清楚它究竟能走多遠(yuǎn)、能不能最終完全解決雞尾酒會(huì)問(wèn)題。不過(guò)我是持樂觀態(tài)度的。因?yàn)槲覀円部梢詮钠渌I(lǐng)域看到深度學(xué)習(xí)的好處,像是汽車駕駛、機(jī)器翻譯、圖像識(shí)別,甚至還有可以譜曲的模型了。聲源分離問(wèn)題也可以被看作是這個(gè)大潮流的一部分。

機(jī)器之心:剛才您提到早期的方法是無(wú)監(jiān)督的,而我們現(xiàn)在用的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)方法是有監(jiān)督的,但也有一些學(xué)者認(rèn)為未來(lái)的發(fā)展方向是無(wú)監(jiān)督的學(xué)習(xí),因?yàn)檫@樣可以實(shí)現(xiàn)更強(qiáng)的自主智能?您怎么看?

汪德亮:無(wú)監(jiān)督或有監(jiān)督只是具體的方法,有的無(wú)監(jiān)督方法也可以變成有監(jiān)督的方法。學(xué)習(xí)大概可以分為三類:無(wú)監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。最近下圍棋的程序就用到了強(qiáng)化學(xué)習(xí),但基本上可以把它看作是有監(jiān)督學(xué)習(xí),但是它的學(xué)習(xí)信號(hào)非常少。學(xué)習(xí)究竟具體使用了什么算法我覺得倒不是很重要,重要的是我們的目標(biāo)要非常明確——就是要解決雞尾酒會(huì)問(wèn)題。

雞尾酒會(huì)問(wèn)題的答案有兩種定義方式,一種是要讓算法在現(xiàn)實(shí)場(chǎng)景中語(yǔ)音識(shí)別上達(dá)到人類的水平,另一種是算法能夠幫助有聽覺障礙的人能夠像正常人一樣在現(xiàn)實(shí)場(chǎng)景中聽懂語(yǔ)音。視力不好的人一般戴上眼鏡問(wèn)題就解決了,助聽器則不是這么回事,遠(yuǎn)未達(dá)到眼鏡的水平。所以有監(jiān)督還是無(wú)監(jiān)督都會(huì)有,這并不重要,重要的是要能夠達(dá)到解決雞尾酒會(huì)問(wèn)題的目標(biāo)。

機(jī)器之心:在這篇文章最后,您也談到了這項(xiàng)技術(shù)正在進(jìn)行商業(yè)化的過(guò)程中,那么我們大概什么時(shí)候能在市面上見到深度學(xué)習(xí)助聽器產(chǎn)品?

汪德亮:這個(gè)還需要一點(diǎn)時(shí)間。你想要完全采納這個(gè)技術(shù),對(duì)現(xiàn)有的技術(shù)就是一種顛覆。傳統(tǒng)的方法是通過(guò)信號(hào)處理的方式把信號(hào)分成各個(gè)頻段,然后對(duì)這些頻段的信息進(jìn)行分析,看應(yīng)該對(duì)這些頻段進(jìn)行放大還是縮小;而現(xiàn)在我們是通過(guò)學(xué)習(xí)的方式來(lái)做。而要把它放進(jìn)實(shí)際的助聽器中,有實(shí)時(shí)性方面的問(wèn)題,需要把器件做得足夠小,而且還需要助聽器廠商的配合;所以我覺得正式上市還需要幾年的時(shí)間。

機(jī)器之心:那么你們的技術(shù)現(xiàn)在在時(shí)延方面的表現(xiàn)如何?

汪德亮:我們目前還沒有很關(guān)注時(shí)延方面的問(wèn)題。因?yàn)槲覀冇X得在性能上還需要提高,要讓這個(gè)技術(shù)在各種場(chǎng)景下都能夠行之有效?,F(xiàn)在只能做到在一些場(chǎng)景或很多場(chǎng)景下有效,但還不能做到在所有的場(chǎng)景都有效。所以時(shí)延的問(wèn)題我們還沒有太關(guān)注,但將來(lái)做商業(yè)規(guī)劃的時(shí)候時(shí)延就非常重要了。

當(dāng)然反過(guò)來(lái)講,神經(jīng)網(wǎng)絡(luò)的好處在于能把整個(gè)任務(wù)分成兩個(gè)部分。一個(gè)部分是訓(xùn)練,這個(gè)部分可以不用在乎用什么來(lái)做訓(xùn)練,CPU 或 GPU 都可以,訓(xùn)練多長(zhǎng)時(shí)間都沒關(guān)系。比如說(shuō)谷歌的 ASR 可以訓(xùn)練六個(gè)月時(shí)間,但運(yùn)行時(shí)的時(shí)延就很短了,可以達(dá)到幾秒鐘。這個(gè)概念和傳統(tǒng)的方法有區(qū)別,傳統(tǒng)的方法是把這兩個(gè)過(guò)程放到一起。神經(jīng)網(wǎng)絡(luò)的方法把它分成訓(xùn)練過(guò)程和使用過(guò)程,訓(xùn)練完了之后可以得到一個(gè)單獨(dú)的實(shí)用模型;只要這個(gè)模型不是特別大,使用時(shí)其實(shí)用不著很大的計(jì)算量。慢的地方主要還是在訓(xùn)練階段。另外,訓(xùn)練完之后的模型還可以進(jìn)一步簡(jiǎn)化。

機(jī)器之心:如果噪聲的音量遠(yuǎn)比我們想要的聲音的音量大,模型也可以正確的識(shí)別嗎?

汪德亮:可以。我們的 demo 現(xiàn)在已經(jīng)可以做到 -8 分貝了。0 分貝就是說(shuō)兩個(gè)聲音一樣強(qiáng),-8 分貝就是說(shuō)噪音比目標(biāo)聲音高 8 個(gè)分貝。在這種比例下,你幾乎聽不到人說(shuō)話的聲音,但模型還是能分離和識(shí)別。因?yàn)槟P褪强此奶卣?,在?xùn)練過(guò)程中它已經(jīng)學(xué)會(huì)怎么做了,在處理的時(shí)候它不需要管噪音有多大,它只要發(fā)現(xiàn)聲音中有特征和訓(xùn)練時(shí)學(xué)習(xí)的特征接近,它就能將目標(biāo)音分離出來(lái)。所以這倒不是一個(gè)大問(wèn)題。

機(jī)器之心:我們知道深度學(xué)習(xí)對(duì)計(jì)算性能和在功耗上的要求還是比較高的,而老人佩戴的助聽器這樣的便攜式設(shè)備基本上無(wú)法提供這樣的性能或功率支持,這個(gè)問(wèn)題有可能通過(guò)什么方法來(lái)解決?

汪德亮:這個(gè)不難解決,就像我們剛才講的,深度學(xué)習(xí)的訓(xùn)練和使用可以分開,助聽器里面可以只用訓(xùn)練好的模型?,F(xiàn)在比較好的助聽器是幾千美元一只,這些助聽器也是需要進(jìn)行「訓(xùn)練」的,首先是試戴,之后還會(huì)發(fā)現(xiàn)這個(gè)頻段需要調(diào)或那個(gè)頻段需要調(diào),需要拿到賣助聽器的地方去調(diào)節(jié)。訓(xùn)練本身就是這樣一個(gè)調(diào)節(jié)的過(guò)程。功耗、大規(guī)模數(shù)據(jù)、訓(xùn)練時(shí)間這些成本都主要體現(xiàn)在訓(xùn)練過(guò)程中,訓(xùn)練完成之后這些問(wèn)題就不存在了。

機(jī)器之心:您的研究經(jīng)歷中也有關(guān)于圖像分割(image segmentation)的成果,圖像分割和語(yǔ)音分離(speech segregation)在技術(shù)上有哪些相同點(diǎn)和不同點(diǎn)?

汪德亮:最大的不同點(diǎn)是:聲音信號(hào)是疊加的,即多個(gè)聲音信號(hào)加在一起;而視覺信號(hào)則不是相加的,而是遮擋(occlusion)的,即前面的物體把后面的物體擋住。

人的五官很有意思。我一直在研究人的感知覺。人為什么有五官呢?我們知道外界世界是同一個(gè)物理世界,而五官則是通過(guò)物體的五種不同類型的屬性來(lái)對(duì)外界進(jìn)行分析,比如視覺上是通過(guò)亮度、顏色等等特征,而聽覺上則是通過(guò)聲音的振幅、頻率之類的特征。聽覺有一些視覺做不到的地方,比如你就算睡著了,你的耳朵照樣還在觀察四方,你也可以聽見隔壁或房間外面的聲音,而通過(guò)視覺的話你就會(huì)被墻遮擋。當(dāng)然在光線比較好的地方,視覺的精度要比聽覺的精度高。但是,總的來(lái)說(shuō)它們是一種互補(bǔ)的關(guān)系。

前面我們也講了,還有一個(gè)不同之處是:聲音是時(shí)間維和頻率維兩個(gè)維度,圖像則是橫軸和縱軸兩個(gè)維度。圖像的兩個(gè)維度基本是對(duì)稱的,而聲音的兩個(gè)維度則很不同。我們還可以給圖像加第三維的深度信息。聲音也可以加深度信息。

而它們之間的共同之處也非常多。理想二值模就是把這個(gè)問(wèn)題變成二值的,就像前面的東西會(huì)把后面的東西給擋住一樣,強(qiáng)的聲音把弱的聲音給掩蔽掉。其中的概念在某種程度上受到了之前的在視覺上的工作的影響。在視覺上做 segmentation 的時(shí)候,我們可以很自然地根據(jù)像素歸屬于某個(gè)物體很容易地將其分開——要么屬于該物體,要么就不屬于。這個(gè)二值概念對(duì)我們提出聽覺上的理想二值模是有啟發(fā)的。

所以它們既有共同之處,也有不同之處。

機(jī)器之心:有可能使用同一個(gè)模型同時(shí)完成這兩種功能嗎?

汪德亮:現(xiàn)在有一個(gè)叫做 audiovisual 的領(lǐng)域,它既有「視」的通道,也有「聽」的通道。我覺得它們之間的互補(bǔ)性大于它們之間的重疊性,也就是說(shuō)當(dāng)我們把 audiovisual 做在一起的時(shí)候,它們之間會(huì)有一些重疊的部分;也就是說(shuō)視覺很不錯(cuò)、聽覺也很不錯(cuò),兩者可以互相支持。但很多情況下,只能靠視覺模型、或聽覺模型。當(dāng)然我們也確實(shí)可以把它們做進(jìn)同一個(gè)模型。

機(jī)器之心:這和遷移學(xué)習(xí)有什么聯(lián)系嗎?

汪德亮:遷移不太一樣。遷移(transfer)是把在一個(gè)方面做得已經(jīng)很不錯(cuò)的模型遷移到類似的一個(gè)任務(wù)上去,而 audiovisual 是把兩種模型合在一起做。也就是說(shuō),對(duì)于一個(gè)物體(object),audiovisual 并不把它作為一個(gè)視覺的物體,也不把它作為一個(gè)聽覺的物體,而是一個(gè)視覺和聽覺整合的物體,也就是把這個(gè)物體的信息通過(guò)兩個(gè)不同的渠道進(jìn)行獲取,而這兩個(gè)渠道的信息有互補(bǔ),效果會(huì)比僅使用一個(gè)渠道的要好。

而遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型進(jìn)行少許改進(jìn)后應(yīng)用到類似的任務(wù)上,這樣讓我們可以在新的任務(wù)不用完全從頭開始訓(xùn)練。

機(jī)器之心:2016 年是深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)大突破的一年,翻譯、語(yǔ)音識(shí)別等等許多領(lǐng)域都取得了里程碑成果,您能預(yù)測(cè)一下 2017 年這一領(lǐng)域的發(fā)展嗎?

汪德亮:這是一個(gè)很大的問(wèn)題。大數(shù)據(jù)量、大計(jì)算量是現(xiàn)在的大潮流。現(xiàn)在人工智能基本上已經(jīng)沖擊到各個(gè)領(lǐng)域了,包括前面講的語(yǔ)音增強(qiáng),語(yǔ)音識(shí)別、自然語(yǔ)言理解、視覺、機(jī)器人、自動(dòng)駕駛等等。其中關(guān)鍵的問(wèn)題是我們能不能把一個(gè)問(wèn)題變成監(jiān)督學(xué)習(xí)的問(wèn)題。我 16 年 9 月份在做一個(gè)大會(huì)報(bào)告后有不少人問(wèn)我:之前很多年我們都沒有這么考慮過(guò),現(xiàn)在應(yīng)該怎么辦?我就說(shuō):其實(shí)也不難,上一門神經(jīng)網(wǎng)絡(luò)的課就行了。而最關(guān)鍵的還是要把你的問(wèn)題變成一個(gè)監(jiān)督學(xué)習(xí)的問(wèn)題。這和過(guò)去是一種完全不同的思路。我們現(xiàn)在看到很多很有說(shuō)服力的成功例子,這將吸引大量的人將原來(lái)用傳統(tǒng)方法解決的問(wèn)題變成學(xué)習(xí)問(wèn)題來(lái)做。

對(duì)于 17 年的深度學(xué)習(xí)領(lǐng)域,我覺得首先毫無(wú)疑問(wèn)它將滲透到更多的領(lǐng)域里面并且推進(jìn)這些領(lǐng)域的發(fā)展,而且我相信會(huì)是大幅度的推進(jìn)。

另外我覺得在神經(jīng)網(wǎng)絡(luò)研究本身上也會(huì)有進(jìn)展。因?yàn)樯窠?jīng)網(wǎng)絡(luò)/學(xué)習(xí)模型可以說(shuō)是一種工具,其本身也還是有很多工作要做的。深度學(xué)習(xí)開始出來(lái)的時(shí)候,人們最看好的是應(yīng)用領(lǐng)域??雌饋?lái)好像沒有什么理論上的突破。我覺得這種說(shuō)法有一點(diǎn)太挑剔了。我認(rèn)為今后網(wǎng)絡(luò)體系的發(fā)展會(huì)越來(lái)越多樣化,會(huì)有新的模型、新的架構(gòu)出來(lái)。除了多樣化之外,網(wǎng)絡(luò)還可能會(huì)更加細(xì)分,也就是說(shuō)對(duì)于不同的任務(wù),有效網(wǎng)絡(luò)的結(jié)構(gòu)可能會(huì)不一樣,這和現(xiàn)在網(wǎng)絡(luò)結(jié)構(gòu)都大同小異的情況不一樣——以前全是單向網(wǎng)絡(luò)(feedforward network),后來(lái)加入了循環(huán)網(wǎng)絡(luò)(recurrent network)、LSTM 等等,一個(gè)潮流推動(dòng)一個(gè)潮流。最近大家都一窩蜂地去做 LSTM。我認(rèn)為以后不同的任務(wù)和任務(wù)的不同特征也會(huì)反映到網(wǎng)絡(luò)的結(jié)構(gòu)上。比如說(shuō),大家都是循環(huán)網(wǎng)絡(luò),但是做語(yǔ)音的循環(huán)網(wǎng)絡(luò)和做視覺的循環(huán)網(wǎng)絡(luò)應(yīng)該不太一樣。我認(rèn)為隨著做的人越來(lái)越多,其結(jié)構(gòu)也會(huì)不斷細(xì)化,最后每一個(gè)領(lǐng)域(domain)可能有自己特定結(jié)構(gòu)的網(wǎng)絡(luò)。我認(rèn)為 2017 年這一趨勢(shì)還將繼續(xù),這一領(lǐng)域還將繼續(xù)發(fā)展。

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:武曉燕 來(lái)源: 51CTO專欄
相關(guān)推薦

2015-04-23 15:34:15

RSA大會(huì)RSA2015安全大會(huì)

2023-03-22 08:00:00

2011-04-20 16:58:33

java排序

2011-09-13 09:46:10

創(chuàng)業(yè)速度隱蔽

2011-11-04 17:43:13

Web

2014-09-04 10:51:13

2018-09-04 08:00:00

人工智能深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2017-09-28 10:40:10

深度學(xué)習(xí)多體問(wèn)題多代理系統(tǒng)

2017-09-23 22:07:24

深度學(xué)習(xí)N 體問(wèn)題GAN

2023-12-12 08:31:44

智能運(yùn)維場(chǎng)景

2023-08-17 14:22:17

深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2013-04-01 14:05:25

SDN汪軍網(wǎng)絡(luò)架構(gòu)

2017-12-05 15:32:44

深度學(xué)習(xí)語(yǔ)音識(shí)別

2012-08-28 11:03:12

Evernote印象筆記

2018-10-15 10:38:14

UCloud虛擬網(wǎng)絡(luò)SDN

2009-06-10 08:45:31

LinuxWhile文件等待

2014-03-05 18:57:31

2016-08-12 09:28:52

APIPythonLinux

2017-09-20 18:20:24

深度學(xué)習(xí)圖像處理心臟病

2020-07-17 17:43:49

深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)