饒·寇他科里:大數(shù)據(jù)分析的前沿技術(shù)
數(shù)據(jù)觀現(xiàn)場報道 2016年11月17日下午,第三屆世界互聯(lián)網(wǎng)大會“大數(shù)據(jù)論壇”舉行,本次論壇由中國國家互聯(lián)網(wǎng)信息辦公室和浙江省人民政府指導(dǎo)支持,中國科學(xué)院主辦,中科學(xué)院信息工程研究所承辦,數(shù)據(jù)中心聯(lián)盟協(xié)辦。
澳大利亞科學(xué)院院士、工程院院士,墨爾本大學(xué)終身教授饒·寇他科里先生在該論壇上發(fā)表了主題為“大數(shù)據(jù)分析的前沿技術(shù)”的演講。饒·寇他科里提到,現(xiàn)在計算機已經(jīng)跟人眼的識別水平完全一樣,未來人類還需要更多的東西。
以下為演講全文:
饒·寇他科里:首先我來講一下籠統(tǒng)的概念就是深度學(xué)習(xí)以及它的應(yīng)用,什么是最先進的深度學(xué)習(xí),那就是用最先進水平的技術(shù)可以非常穩(wěn)定的來采取數(shù)據(jù)來實現(xiàn)人工智能來解決一些人工智能的問題。比如說進行自然語言的加工,李世石已經(jīng)被谷歌的AlphaGo打敗了,它就成為世界上最厲害的圍棋手,這個是非常典型的深度學(xué)習(xí)的典型象征。我相信在未來的幾年過程當(dāng)中,我們就可以用系統(tǒng)來進一步的開發(fā),我們都知道的谷歌的Alphago它是怎么樣的一個神經(jīng)網(wǎng)絡(luò)呢?
這個是他們背后的邏輯,也就是說我們理解背后的邏輯以及語言的網(wǎng)絡(luò),最后可以用在我們的其他的成功案例過程當(dāng)中。這個就是我們所使用的最典型的一個架構(gòu),這個架構(gòu)看到了一些圖片的處理,語言的處理、語音的處理等等,還要基于問題處理其他的東西,不光是圖片、語音,我們需要有識別,我還是給大家看一些挑戰(zhàn),我們有什么樣的挑戰(zhàn)呢?我們叫把它叫做ILSVRC,就是說一個圖片,它在大規(guī)模大范圍視覺認知的時候,會遇到各種各樣的挑戰(zhàn),比如說你看到這個圖片,你去攝影它的時候需要對象識別,這個圖片到底是告訴你這是一只鳥還是一只青蛙,這個地方就會有難度,所以你需要有對象的定位,所以這就涉及到對象的識別和定位,這個圖片也是。到底是一個人一條狗還是一個椅子?這個就是計算機識別的基準,我們遇到大規(guī)模視覺識別的挑戰(zhàn)。大規(guī)模視覺識別挑戰(zhàn),還有這樣一個統(tǒng)計的數(shù)據(jù),就是最難的五個圖象處理,ImageNet方面的五大錯誤,這個錯誤率當(dāng)然是一年比一年降低,而且降低的速度也是非常非???。
到2014年,我們基本上已經(jīng)把錯誤率降到很低很低的,到了2015年,現(xiàn)在計算機已經(jīng)跟人眼所識別到的東西水平是完全一樣的,這就是我們神經(jīng)語言網(wǎng)絡(luò)可以幫我們做到的水平。當(dāng)然人類還需要更多的東西,比如說圖象字幕的抓取,這也是我們想做的一件事情。
另外一個案例很有意思,兩個圖片,比如說下面一個,你給他下面一個圖片,然后機器會給你一張很漂亮的圖片,就是右邊的這個。另外一個機器學(xué)習(xí)的案例呢,就是你給它兩張,一張照片,一個花圖,最后出來一個非常漂亮的圖片。其他的也一樣,這也是我喜歡的圖片,馬和面條結(jié)合出來這么有藝術(shù)感的圖象。這個就是我們了解的神經(jīng)語言網(wǎng)絡(luò),最后出來了這么一個特征圖,也就是說它會把這些圖片的特征都有機的,或者用藝術(shù)的感覺把它連接在一起。
這個就是深度學(xué)習(xí)的應(yīng)用,包括計算機的視覺,包括標注、計算機、無人駕駛汽車這里面都是需要用到計算機視覺,比如說你把我的名字輸進去以后,給你各種各樣我的圖片以及我這個人涉及在一起的各種各樣的圖片。自然語音加工是深度學(xué)習(xí)應(yīng)用的另外一個案例,然后是現(xiàn)場翻譯,我覺得現(xiàn)場翻譯亞馬遜翻譯等等,以后都是可以實現(xiàn)的,包括大城市的數(shù)據(jù),車輛的數(shù)據(jù)等等。
接下來,給大家講一下對抗性樣本和無法識別的樣本。神經(jīng)網(wǎng)絡(luò)易受的干擾就是對抗性的噪音干擾。比如說這里面有123456789,如果你加進去一些肉眼看不到的聲音進去以后,最后一模一樣的圖片出來的數(shù)據(jù),就變成了6332931這樣的,完全不一樣的數(shù)據(jù)。其實這個數(shù)據(jù)還是123456789,也就是說有一些聲音,雖然我們?nèi)耸峭耆兄坏降穆曇?,而這些聲音輸入到機器當(dāng)中,計算機會非常非常的敏感,會干擾它對圖象的識別。這個就是機器所敏感的噪音,另外我們還做了一個隨機大容量噪音,隨機大容量噪音不是非常細微,而且大家都一樣,在每一個數(shù)據(jù)上面都加入了大容量的隨機噪音,出來的結(jié)果影響并不是很大,只有一個數(shù)據(jù)錯了。
再比如說,我們看所有的圖片,大家看這個圖片,它會識別出來的時候都是蘑菇,如果加了噪音以后,識別出來的結(jié)果會不一樣,所以聲音對圖形的識別是很有意思。我們加入過程當(dāng)中,我們怎么樣去做對抗性的干擾,對抗性的聲音?對抗性的聲音我們用的是分類器,我們用不同的每一次識別的時候,我們都輸入X,它的矢量也會不一樣,對抗性和概率也是不一樣的。
最后這個問題,是通過梯度下降實現(xiàn)噪音的對抗性干擾。對抗性干擾,樣本的屬性應(yīng)該是非常特別的,剛才我說到的普遍性,就是需要用這樣的分類器和基本的線性模型和良好的訓(xùn)練。它的概括性和普遍性是可以通過我們的干擾來實現(xiàn)的。不管你做什么,他們都必須要非常得小心,我們要有很多很多的技術(shù),這個比較專業(yè)。比如說基本信息模型,良好的訓(xùn)練分類器等等,抵抗力方面,我們需要正規(guī)化,需要降噪建筑,需要對抗性的訓(xùn)練,還有同時發(fā)聲、共振等等。還要進行一定的預(yù)處理,比如說低通濾波器,有源探測等等,普遍性的應(yīng)用是剛才汽車的例子,這個概化屬性的案例比如說語意解釋,是像這樣的圖片過程當(dāng)中,我們在這個圖片的輸入過程當(dāng)中加入噪音,讓機器變得疑惑,這個到底怎么樣,它會退出來。對抗性的樣本是數(shù)據(jù)部分固有的,是固定任何模型的。說到無法識別的樣本,機器跟人最大的區(qū)別,就是我們覺得沒有問題的東西它會覺得無法識別。這些東西到底是什么呢,需要輸入一定的干擾才能夠識別。
我們的結(jié)果是藍色的這一部分,大家看Epochs,數(shù)據(jù)可以學(xué)習(xí)的周期,可以學(xué)習(xí)的數(shù)量越來越大,學(xué)習(xí)成本會越來越低,錯誤率會越來越高,藍色的就是錯誤率的降低。當(dāng)然我們會有一些比較危險的,你輸入太多噪音干擾的話,會有一定的風(fēng)險。我們看到Net1和Net2,Net1是生成噪音的地方,Net2是我們的目標系統(tǒng)。我們看一下穩(wěn)定性、穩(wěn)健性,以及怎么樣對抗這些樣本的穩(wěn)定性,我們也可以看到輸入一定的噪音干擾之后可以降低三分之一的錯誤率,這個就是神經(jīng)語言網(wǎng)絡(luò)學(xué)習(xí),當(dāng)然大家需要去理解這些理論,我們?nèi)绻辣澈蟮睦碚摬拍軌蜻M一步的利用它,減低錯誤的機率。我們在實驗的過程當(dāng)中,也發(fā)現(xiàn)了隨機系統(tǒng)是非常穩(wěn)健的,可以做到非常高度的隨機性,99%的隨機性,可以看到神經(jīng)系統(tǒng)隨機語言可以達到百分之百的隨機性。在整個系統(tǒng)的穩(wěn)定性方面,基本上可以達到90%的提升。接下來會做什么呢?我們用隨機投射,進一步利用到回界回腦的架構(gòu)當(dāng)中,我們會繼續(xù)利用這一點,然后是對抗性的擾亂或是干擾。
謝謝大家。