2016GBDC|地平線機(jī)器人科技創(chuàng)始人兼CEO余凱:大數(shù)據(jù)深度學(xué)習(xí)
2016年1月20日,2016全球大數(shù)據(jù)峰會GBDC2016在京舉行。本次大會由全球大數(shù)據(jù)聯(lián)盟(GBDC)、全球移動游戲聯(lián)盟(GMGC)、世界O2O組織(WOO)、光合資本主辦,中國互聯(lián)網(wǎng)協(xié)會(ISC)O2O工作組、中國汽車流通協(xié)會(CADA)支持。地平線機(jī)器人科技創(chuàng)始人兼CEO,前百度IDL常務(wù)副院長,前百度研究院副院長余凱做了主題為《大數(shù)據(jù)深度學(xué)習(xí)》的演講。以下是他的演講全文:
余凱:大家上午好。大家最近應(yīng)該經(jīng)常聽到一個詞,就是深度學(xué)習(xí)。我講一下深度學(xué)習(xí)的進(jìn)展。為什么現(xiàn)在深度學(xué)習(xí)受到重視?實(shí)際上是跟這個時代背景有關(guān)系的,一方面是跟大會的主題有關(guān),就是大數(shù)據(jù);另一方面,另外一個基礎(chǔ)性的支撐,就是計(jì)算能力的提升,這兩個基礎(chǔ)的支撐性的因素,使得今天更加復(fù)雜的模型,能夠發(fā)揮它的價值。這是一個大概的背景。我們講人工智能爸爸硬件的系統(tǒng)或軟件的系統(tǒng),但是它的本質(zhì)上有感知,理解到?jīng)Q策的過程。比如我們看搜索引擎的話,它也是一個人工智能系統(tǒng),雖然它是純軟件形態(tài),它一方面通過搜索服務(wù)去感知用戶的需求,通過很多大數(shù)據(jù)人工智能的技術(shù),比如自然語言學(xué)習(xí),數(shù)據(jù)挖掘這些技術(shù),去理解數(shù)據(jù)背后所蘊(yùn)含的用戶的需求是什么,然后去實(shí)現(xiàn)它的商業(yè)價值,這里有很多很多的決策。
我記得1956年“人工智能”這個詞被提出,到今年正好是六十年時間。在六十年的時間基本可以劃分為兩個階段:***,基于規(guī)則的人工智能,這個一直到八十年代末,那個典型的叫專家系統(tǒng)。到八十年代末開始到現(xiàn)在,有更多的是基于數(shù)據(jù)驅(qū)動的人工智能。這樣的話計(jì)算,大數(shù)據(jù)這兩個關(guān)鍵的支撐在過去的二十多年的時間去推動這個領(lǐng)域去往前發(fā)展。
我們講人工智能可以做很多很多事情,但是是不是可以有一個相對簡單的框架使我們能夠研究它、刻畫它?這樣一個簡單的框架我們用一個映射來描述,就是從X到Y的映射。比如說X的話,是Image,Y是Object,這就是簡單的圖像識別。如果X是Speech,Y是Texts,這個就是簡單的語音識別。如果X是Language,Y是Parse Tree這就是自然語言的處理。如果是各種傳感器在汽車上面把路上的信息都搜集過來,實(shí)時的做決策,X就是傳感器受到的數(shù)據(jù),Y就是控制的的決策,我們看不同人工智能的問題,基本可以用一個相對簡單的框架,從X到Y的框架來數(shù)。學(xué)習(xí)問題在這里面是怎么回事呢?就是你有一堆的訓(xùn)練樣本,這堆訓(xùn)練樣本告訴你,如果是這樣的輸入,它的輸入是什么?比如這樣的一個圖像,它的輸出是它的一個標(biāo)注,是什么?這樣的話學(xué)習(xí)一個映射函數(shù),這個映射函數(shù)告訴你,有了這個映射函數(shù)就會回答這樣的問題,比如給了下面這幅圖像,讓它的輸出是什么。這樣就是從學(xué)習(xí)到應(yīng)用,就是從數(shù)據(jù)中學(xué)習(xí)模型,然后運(yùn)用這個模型的過程。
最簡單的一個***的模型,也許是一個問題,就是說我們給你六個訓(xùn)練樣本,六個例子,縱軸是輸出,橫軸是輸入。我們把背后蘊(yùn)含的規(guī)律給找出來,這個規(guī)律可能是這樣的,這個規(guī)律好不好,有沒有更好?如果是這樣的規(guī)律,我們覺得怎么樣?可不可以做的更好?其實(shí)所有的規(guī)律都解釋了我們的樣本,但是哪個是真實(shí)的?所以這里反映到機(jī)器學(xué)習(xí)和人工智能很本質(zhì)的問題,就是學(xué)習(xí)的空間的復(fù)雜度的問題。
我們講目前我們在自然界,在世界上所知道的***的學(xué)習(xí)機(jī)器,能夠?qū)W習(xí),從X到Y的是人類的神經(jīng)系統(tǒng),人的大腦。人的大腦最本質(zhì)的單元就是神經(jīng)元。從神經(jīng)元的話可以從一個簡單的數(shù)學(xué)模型來模擬他的行為,他的輸入和輸出行為。這樣的話就得到我們一個最基本的,用計(jì)算機(jī)程序,可以去構(gòu)造的一個學(xué)習(xí)機(jī)器。我們把這樣的一個基本單元,在好幾個維度去給它擴(kuò)張、擴(kuò)展,讓它得到更加復(fù)雜的模型,這就得到了我們今天最成熟,最受到關(guān)注的深度學(xué)習(xí)模型。比如說我們縱向的維度是越來越深。在橫向的話,比如說時間的維度,空間的維組去擴(kuò)展,我們得到的也是針對這個序列的,叫遞歸神經(jīng)網(wǎng)絡(luò)。
深度學(xué)習(xí)在當(dāng)前的話,在工業(yè)界廣為受到關(guān)注,包括互聯(lián)網(wǎng)的這些巨頭,本質(zhì)的原因,為什么受到重視?我想主要有四方面的原因:***,它是我們目前所知道的說話的計(jì)算機(jī)系統(tǒng)里面最接近人腦的結(jié)構(gòu)跟行為的這樣的計(jì)算模型。第二,從統(tǒng)計(jì)和計(jì)算角度來講,深度學(xué)習(xí)特別適合大數(shù)據(jù)。第三,從思維方法,方法論的角度來講,它是當(dāng)前唯一的一個所謂強(qiáng)調(diào)叫端到端的學(xué)習(xí)系統(tǒng)。什么叫端到端的學(xué)習(xí),待會兒我會解釋。第四,它實(shí)際上提供了一個非常靈活的框架,它的框架可以讓你去很容易描述各種不一樣的人工智能的問題。
我們講為什么深度學(xué)習(xí)特別適合大數(shù)據(jù)?看這樣一個簡單的適宜,傳統(tǒng)的人工智能算法通過學(xué)習(xí)效果不一定會增長,深度學(xué)習(xí)可以。像語音識別,在2012年之前,基本上幾百個小時的訓(xùn)練,大家覺得已經(jīng)了不起了。深度學(xué)習(xí)在2012年真正用于工業(yè)界,那個時候一下加到7千個小時,效果不斷提升。這里不光把語音學(xué)習(xí)的深水模型用深度學(xué)習(xí),整個都用深度學(xué)習(xí),包括后面用序列的神經(jīng)網(wǎng)絡(luò),這樣的話加到幾萬個小時效果還在不斷提升。另外就是所謂的端到端的學(xué)習(xí),過去的話傳統(tǒng)的無論是說模式識別也好,還是數(shù)據(jù)挖掘也好,語音識別也好,圖像識別,還有很多其他的事情,其實(shí)都是有一個序列的步驟,這里面大部分的步驟都是用人工的方法來做的,并不是一種自動的方法。深度學(xué)習(xí)的話是說把所有的這些中間的步驟全都?xì)w結(jié)成一個學(xué)習(xí)問題,然后去優(yōu)化一個統(tǒng)一的目標(biāo),能不能***的最終的優(yōu)化的結(jié)果,這就是所謂端到端的學(xué)習(xí),今天受到重視的原因。
成功應(yīng)用的話,比如包括圖像識別,圖像識別,這是在2012年的時候,我們經(jīng)常用的一張圖,就是一個卷積的有很多層的神經(jīng)網(wǎng)絡(luò),用于做圖像的識別。過去的三年的發(fā)展,其實(shí)發(fā)展非??臁5?/span>2012年底的時候***的網(wǎng)絡(luò)到十層,到去年***的網(wǎng)絡(luò)到四十層,現(xiàn)在***的網(wǎng)絡(luò)已經(jīng)到了152層,就是更深的網(wǎng)絡(luò)導(dǎo)致更好的效果。所以這還是在快速的進(jìn)展過程中。比如我們看到一個典型的圖像評測,由于深度學(xué)習(xí)的發(fā)展,帶過去的五年時間里效果不斷的變好,錯誤率不斷降低,甚至超越了人類的能力。包括語音識別,傳統(tǒng)語音識別的是這樣的,就是先把聲音信號轉(zhuǎn)換成拼音,然后再從拼音轉(zhuǎn)化成文字,先把轉(zhuǎn)換成拼音的步驟變成深度學(xué)習(xí)的模型,然后帶來語音識別的一個突飛猛進(jìn)的進(jìn)展。最近的進(jìn)展是把整個變成深度學(xué)習(xí),然后進(jìn)一步去提升。我看到百度***次做這個的時候錯誤率在15%左右,到現(xiàn)在是5%以內(nèi)??梢韵胂?,大概在兩到三年內(nèi)錯誤率能夠降到1%以內(nèi)。這個我有充分的信心。
傳統(tǒng)的語言方法,是把整個的問題分解成很多的不連貫的子問題,比如從詞法分析到語法分析,到語義分析,到今天是一氣呵成的學(xué)習(xí)系統(tǒng)。還有用更復(fù)雜的語義去搜索,包括在廣告的變現(xiàn)系統(tǒng),背后的話是大規(guī)模的工程來支撐。因?yàn)檫@個計(jì)算量特別大,需要有上千臺的機(jī)器去做并行的計(jì)算。所以這是目前在互聯(lián)網(wǎng)領(lǐng)域最成功的應(yīng)用,基本上全部改寫成深度學(xué)習(xí),把語音,圖像,自然語言理解,搜索,變現(xiàn)這些?,F(xiàn)在的話,除了在云端去做這些事情的話,我們發(fā)現(xiàn)我們希望把很多物理的東西變得聰明,需要在這個上面,前端去部署這些深度學(xué)習(xí)的系統(tǒng)。比如像自動駕駛里面,如果對前方的小孩撞過來,你這個識別要到云端處理,然后再來反應(yīng),這是不可想象的。如果你的網(wǎng)絡(luò)帶寬出了問題怎么辦?所以要在原端,原地,實(shí)時處理。還有很多處理要在本地來做。所以我們看到一個趨勢,深度學(xué)習(xí)的部署,從云端開始往前端來遷移。遷移的話需要我們對計(jì)算的處理器做一些重新的思考。
這里的話我想問一下大家,大家覺得人類大腦是專用處理器還是通用處理器?大部分都認(rèn)為通用處理器???我來挑戰(zhàn)一下,誰能回答這個問題?大腦對有些問題,特別的容易,比如拿著麥克風(fēng)在這里講話,走路。但是對很多的問題,其實(shí)它并不是很擅長。其實(shí)大腦的話,是專用處理器。它的專用處理器專用帶什么地方?它作為這些年作為一個物種去繁衍,它有一專門的技能化優(yōu)化它,對不需要的沒有專門優(yōu)化它,所以大腦是專用處理器。
這里有一個經(jīng)典的硬件設(shè)計(jì)方面的,就是你越是通用的話,你就越犧牲效率;你要是專門處理問題的話,效率就特別高,但是會犧牲通用性。人的大腦實(shí)際上是專門通過處理過的,比如從信號的傳遞大概要200毫秒的時間。這樣的話基本不能開車,不能滑雪能干呢?是因?yàn)閷@樣的結(jié)構(gòu)進(jìn)行了專門處理,使它并行,使它能夠非常的快。所以對未來來講,對機(jī)器人未來硬件還有很多話,是必須從專用的處理器來設(shè)計(jì)它,使它對人類感知的問題要進(jìn)行專門的設(shè)計(jì)。