10分鐘帶你讀完人工智能的三生三世
AI作為2016年以來(lái)最熱門的詞匯,人們對(duì)之也持有不同的看法:有人在懷疑泡沫即將破裂、有人堅(jiān)信這場(chǎng)變革會(huì)帶來(lái)巨大的機(jī)會(huì)、有人拋出威脅論。
本系列試圖以通俗易懂的方式,讓不同知識(shí)水平的讀者都能從中獲益:讓外行人對(duì)人工智能有一個(gè)清晰客觀的理解,也幫助內(nèi)行人更好地參與到AI帶來(lái)這場(chǎng)產(chǎn)業(yè)變革中來(lái)。
本文將會(huì)從AI最基本的幾個(gè)模塊(計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理、決策規(guī)劃系統(tǒng))著手,回顧其一路以來(lái)的發(fā)展脈絡(luò),以史為鏡、正視未來(lái)。
1. 計(jì)算機(jī)視覺(jué)的發(fā)展歷史
“看”是人類與生俱來(lái)的能力。剛出生的嬰兒只需要幾天的時(shí)間就能學(xué)會(huì)模仿父母的表情,人們能從復(fù)雜結(jié)構(gòu)的圖片中找到關(guān)注重點(diǎn)、在昏暗的環(huán)境下認(rèn)出熟人。隨著人工智能的發(fā)展,機(jī)器也試圖在這項(xiàng)能力上匹敵甚至超越人類。
計(jì)算機(jī)視覺(jué)的歷史可以追溯到1966年,人工智能學(xué)家Minsky在給學(xué)生布置的作業(yè)中,要求學(xué)生通過(guò)編寫一個(gè)程序讓計(jì)算機(jī)告訴我們它通過(guò)攝像頭看到了什么,這也被認(rèn)為是計(jì)算機(jī)視覺(jué)最早的任務(wù)描述。
到了七八十年代,隨著現(xiàn)代電子計(jì)算機(jī)的出現(xiàn),計(jì)算機(jī)視覺(jué)技術(shù)也初步萌芽。人們開(kāi)始嘗試讓計(jì)算機(jī)回答出它看到了什么東西,于是首先想到的是從人類看東西的方法中獲得借鑒。
- 借鑒之一是當(dāng)時(shí)人們普遍認(rèn)為,人類能看到并理解事物,是因?yàn)槿祟愅ㄟ^(guò)兩只眼睛可以立體地觀察事物。因此要想讓計(jì)算機(jī)理解它所看到的圖像,必須先將事物的三維結(jié)構(gòu)從二維的圖像中恢復(fù)出來(lái),這就是所謂的“三維重構(gòu)”的方法。
- 借鑒之二是人們認(rèn)為人之所以能識(shí)別出一個(gè)蘋果,是因?yàn)槿藗円呀?jīng)知道了蘋果的先驗(yàn)知識(shí),比如蘋果是紅色的、圓的、表面光滑的,如果給機(jī)器也建立一個(gè)這樣的知識(shí)庫(kù),讓機(jī)器將看到的圖像與庫(kù)里的儲(chǔ)備知識(shí)進(jìn)行匹配,是否可以讓機(jī)器識(shí)別乃至理解它所看到的東西呢,這是所謂的“先驗(yàn)知識(shí)庫(kù)”的方法。
這一階段的應(yīng)用主要是一些光學(xué)字符識(shí)別、工件識(shí)別、顯微/航空?qǐng)D片的識(shí)別等等。
到了九十年代,計(jì)算機(jī)視覺(jué)技術(shù)取得了更大的發(fā)展,也開(kāi)始廣泛應(yīng)用于工業(yè)領(lǐng)域。一方面原因是CPU、DSP等圖像處理硬件技術(shù)有了飛速進(jìn)步;另一方面是人們也開(kāi)始嘗試不同的算法,包括統(tǒng)計(jì)方法和局部特征描述符的引入。
在“先驗(yàn)知識(shí)庫(kù)”的方法中,事物的形狀、顏色、表面紋理等特征是受到視角和觀察環(huán)境所影響的,在不同角度、不同光線、不同遮擋的情況下會(huì)產(chǎn)生變化。
因此,人們找到了一種方法,通過(guò)局部特征的識(shí)別來(lái)判斷事物,通過(guò)對(duì)事物建立一個(gè)局部特征索引,即使視角或觀察環(huán)境發(fā)生變化,也能比較準(zhǔn)確地匹配上。
進(jìn)入21世紀(jì),得益于互聯(lián)網(wǎng)興起和數(shù)碼相機(jī)出現(xiàn)帶來(lái)的海量數(shù)據(jù),加之機(jī)器學(xué)習(xí)方法的廣泛應(yīng)用,計(jì)算機(jī)視覺(jué)發(fā)展迅速。以往許多基于規(guī)則的處理方式,都被機(jī)器學(xué)習(xí)所替代,自動(dòng)從海量數(shù)據(jù)中總結(jié)歸納物體的特征,然后進(jìn)行識(shí)別和判斷。
這一階段涌現(xiàn)出了非常多的應(yīng)用,包括典型的相機(jī)人臉檢測(cè)、安防人臉識(shí)別、車牌識(shí)別等等。
數(shù)據(jù)的積累還誕生了許多評(píng)測(cè)數(shù)據(jù)集,比如權(quán)威的人臉識(shí)別和人臉比對(duì)識(shí)別的平臺(tái)——FDDB和LFW等,其中最有影響力的是ImageNet,包含1400萬(wàn)張已標(biāo)注的圖片,劃分在上萬(wàn)個(gè)類別里。
到了2010年以后,借助于深度學(xué)習(xí)的力量,計(jì)算機(jī)視覺(jué)技術(shù)得到了爆發(fā)增長(zhǎng)和產(chǎn)業(yè)化。通過(guò)深度神經(jīng)網(wǎng)絡(luò),各類視覺(jué)相關(guān)任務(wù)的識(shí)別精度都得到了大幅提升。
在全球最權(quán)威的計(jì)算機(jī)視覺(jué)競(jìng)賽ILSVR
(ImageNet Large Scale VisualRecognition Competition)上,千類物體識(shí)別Top-5錯(cuò)誤率在2010年和2011年時(shí)分別為28.2%和25.8%,從2012年引入深度學(xué)習(xí)之后,后續(xù)4年分別為16.4%、11.7%、6.7%、3.7%,出現(xiàn)了顯著突破。
由于效果的提升,計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用場(chǎng)景也快速擴(kuò)展,除了在比較成熟的安防領(lǐng)域應(yīng)用外,也有應(yīng)用在金融領(lǐng)域的人臉識(shí)別身份驗(yàn)證、電商領(lǐng)域的商品拍照搜索、醫(yī)療領(lǐng)域的智能影像診斷、機(jī)器人/無(wú)人車上作為視覺(jué)輸入系統(tǒng)等,包括許多有意思的場(chǎng)景:照片自動(dòng)分類(圖像識(shí)別+分類)、圖像描述生成(圖像識(shí)別+理解)等等。
2. 語(yǔ)音技術(shù)的發(fā)展歷史
語(yǔ)言交流是人類最直接最簡(jiǎn)潔的交流方式。長(zhǎng)久以來(lái),讓機(jī)器學(xué)會(huì)“聽(tīng)”和“說(shuō)”,實(shí)現(xiàn)與人類間的無(wú)障礙交流一直是人工智能、人機(jī)交互領(lǐng)域的一大夢(mèng)想。
早在電子計(jì)算機(jī)出現(xiàn)之前,人們就有了讓機(jī)器識(shí)別語(yǔ)音的夢(mèng)想。1920年生產(chǎn)的“Radio Rex”玩具狗可能是世界上最早的語(yǔ)音識(shí)別器,當(dāng)有人喊“Rex”的時(shí)候,這只狗能夠從底座上彈出來(lái)。
但實(shí)際上它所用到的技術(shù)并不是真正的語(yǔ)音識(shí)別,而是通過(guò)一個(gè)彈簧,這個(gè)彈簧在接收到500赫茲的聲音時(shí)會(huì)自動(dòng)釋放,而500赫茲恰好是人們喊出“Rex”中元音的第一個(gè)共振峰。
第一個(gè)真正基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)出現(xiàn)在1952年,AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)了一款名為Audrey的語(yǔ)音識(shí)別系統(tǒng),能夠識(shí)別10個(gè)英文數(shù)字,正確率高達(dá)98%。
70年代開(kāi)始出現(xiàn)了大規(guī)模的語(yǔ)音識(shí)別研究,但當(dāng)時(shí)的技術(shù)還處于萌芽階段,停留在對(duì)孤立詞、小詞匯量句子的識(shí)別上。
上世紀(jì)80年代是技術(shù)取得突破的時(shí)代,一個(gè)重要原因是全球性的電傳業(yè)務(wù)積累了大量文本,這些文本可作為機(jī)讀語(yǔ)料用于模型的訓(xùn)練和統(tǒng)計(jì)。研究的重點(diǎn)也逐漸轉(zhuǎn)向大詞匯量、非特定人的連續(xù)語(yǔ)音識(shí)別。
那時(shí)最主要的變化來(lái)自用基于統(tǒng)計(jì)的思路替代傳統(tǒng)基于匹配的思路,其中的一個(gè)關(guān)鍵進(jìn)展是隱馬爾科夫模型(HMM)的理論和應(yīng)用都趨于完善。
工業(yè)界也出現(xiàn)了廣泛的應(yīng)用,德州儀器研發(fā)了名為Speak& Spell語(yǔ)音學(xué)習(xí)機(jī),語(yǔ)音識(shí)別服務(wù)商Speech Works成立,美國(guó)國(guó)防部高級(jí)研究計(jì)劃局(DARPA)也贊助支持了一系列語(yǔ)音相關(guān)的項(xiàng)目。
90年代是語(yǔ)音識(shí)別基本成熟的時(shí)期,主流的高斯混合模型GMM-HMM框架逐漸趨于穩(wěn)定,但識(shí)別效果與真正實(shí)用還有一定距離,語(yǔ)音識(shí)別研究的進(jìn)展也逐漸趨緩。
由于80年代末、90年代初神經(jīng)網(wǎng)絡(luò)技術(shù)的熱潮,神經(jīng)網(wǎng)絡(luò)技術(shù)也被用于語(yǔ)音識(shí)別,提出了多層感知器-隱馬爾科夫模型(MLP-HMM)混合模型。但是性能上無(wú)法超越GMM-HMM框架。
突破的產(chǎn)生始于深度學(xué)習(xí)的出現(xiàn)。隨著深度神經(jīng)網(wǎng)絡(luò)(DNN)被應(yīng)用到語(yǔ)音的聲學(xué)建模中,人們陸續(xù)在音素識(shí)別任務(wù)和大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上取得突破。
基于GMM-HMM的語(yǔ)音識(shí)別框架被基于DNN-HMM的語(yǔ)音識(shí)別系統(tǒng)所替代,而隨著系統(tǒng)的持續(xù)改進(jìn),又出現(xiàn)了深層卷積神經(jīng)網(wǎng)絡(luò)和引入長(zhǎng)短時(shí)記憶模塊(LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),識(shí)別效果得到了進(jìn)一步提升,在許多(尤其是近場(chǎng))語(yǔ)音識(shí)別任務(wù)上達(dá)到了可以進(jìn)入人們?nèi)粘I畹臉?biāo)準(zhǔn)。
于是我們看到以Apple Siri為首的智能語(yǔ)音助手、以Echo為首的智能硬件入口等等。
而這些應(yīng)用的普及,又進(jìn)一步擴(kuò)充了語(yǔ)料資源的收集渠道,為語(yǔ)言和聲學(xué)模型的訓(xùn)練儲(chǔ)備了豐富的燃料,使得構(gòu)建大規(guī)模通用語(yǔ)言模型和聲學(xué)模型成為可能。
3. 自然語(yǔ)言處理的發(fā)展歷史
人類的日常社會(huì)活動(dòng)中,語(yǔ)言交流是不同個(gè)體間信息交換和溝通的重要途徑。因此,對(duì)機(jī)器而言,能否自然地與人類進(jìn)行交流、理解人們表達(dá)的意思并作出合適的回應(yīng),被認(rèn)為是衡量其智能程度的一個(gè)重要參照,自然語(yǔ)言處理也因此成為了繞不開(kāi)的議題。
早在上世紀(jì)50年代,隨著電子計(jì)算機(jī)的出現(xiàn),出現(xiàn)了許多自然語(yǔ)言處理的任務(wù)需求,其中最典型的就是機(jī)器翻譯。
當(dāng)時(shí)存在兩派不同的自然語(yǔ)言處理方法:基于規(guī)則方法的符號(hào)派和基于概率方法的隨機(jī)派。受限于當(dāng)時(shí)的數(shù)據(jù)和算力,隨機(jī)派無(wú)法發(fā)揮出全部的功力,使得規(guī)則派的研究略占上風(fēng)。
體現(xiàn)到翻譯上,人們認(rèn)為機(jī)器翻譯的過(guò)程是在解讀密碼,試圖通過(guò)查詢?cè)~典來(lái)實(shí)現(xiàn)逐詞翻譯,這種方式產(chǎn)出的翻譯效果不佳、難以實(shí)用。
當(dāng)時(shí)的一些成果包括1959年賓夕法尼亞大學(xué)研制成功的TDAP系統(tǒng)(Transformation and Discourse Analysis Project,最早的、完整的英語(yǔ)自動(dòng)剖析系統(tǒng))、布朗美國(guó)英語(yǔ)語(yǔ)料庫(kù)的建立等。
IBM-701計(jì)算機(jī)進(jìn)行了世界上第一次機(jī)器翻譯試驗(yàn),將幾個(gè)簡(jiǎn)單的俄語(yǔ)句子翻譯成了英文。這之后蘇聯(lián)、英國(guó)、日本等國(guó)家也陸續(xù)進(jìn)行了機(jī)器翻譯試驗(yàn)。
1966年,美國(guó)科學(xué)院的語(yǔ)言自動(dòng)處理咨詢委員會(huì)(ALPAC),發(fā)布了一篇題為《語(yǔ)言與機(jī)器》的研究報(bào)告,報(bào)告全面否定了機(jī)器翻譯的可行性,認(rèn)為機(jī)器翻譯不足以克服現(xiàn)有困難、投入實(shí)用。
這篇報(bào)告澆滅了之前的機(jī)器翻譯熱潮,許多國(guó)家開(kāi)始消減在這方面的經(jīng)費(fèi)投入,許多相關(guān)研究被迫暫停,自然語(yǔ)言研究陷入低谷。
許多研究者痛定思痛,意識(shí)到兩種語(yǔ)言間的差異不僅體現(xiàn)在詞匯上,還體現(xiàn)在句法結(jié)構(gòu)的差異上,為了提升譯文的可讀性,應(yīng)該加強(qiáng)語(yǔ)言模型和語(yǔ)義分析的研究。
里程碑事件出現(xiàn)在1976 年,加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開(kāi)發(fā)
了名為TAUM-METEO的機(jī)器翻譯系統(tǒng),提供天氣預(yù)報(bào)服務(wù)。這個(gè)系統(tǒng)每小時(shí)可以翻譯6-30萬(wàn)個(gè)詞,每天可翻譯1-2千篇?dú)庀筚Y料,并能夠通過(guò)電視、報(bào)紙立即公布。
在這之后,歐盟、日本也紛紛開(kāi)始研究多語(yǔ)言機(jī)器翻譯系統(tǒng),但并未取得預(yù)期的成效。
到了90年代時(shí),自然語(yǔ)言處理進(jìn)入了發(fā)展繁榮期。隨著計(jì)算機(jī)的計(jì)算速度和存儲(chǔ)量大幅增加、大規(guī)模真實(shí)文本的積累產(chǎn)生,以及被互聯(lián)網(wǎng)發(fā)展激發(fā)出的、以網(wǎng)頁(yè)搜索為代表的基于自然語(yǔ)言的信息檢索和抽取需求出現(xiàn),人們對(duì)自然語(yǔ)言處理的熱情空前高漲。
在傳統(tǒng)基于規(guī)則的處理技術(shù)中,人們引入了更多數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)方法,將自然語(yǔ)言處理的研究推向了一個(gè)新高度。除了機(jī)器翻譯之外,網(wǎng)頁(yè)搜索、語(yǔ)音交互、對(duì)話機(jī)器人等領(lǐng)域都有自然語(yǔ)言處理的功勞。
進(jìn)入2010年以后,基于大數(shù)據(jù)和淺層、深層學(xué)習(xí)技術(shù),自然語(yǔ)言處理的效果得到了進(jìn)一步優(yōu)化。機(jī)器翻譯的效果進(jìn)一步提升,出現(xiàn)了專門的智能翻譯產(chǎn)品。對(duì)話交互能力被應(yīng)用在客服機(jī)器人、智能助手等產(chǎn)品中。
這一時(shí)期的一個(gè)重要里程碑事件是IBM研發(fā)的Watson系統(tǒng)參加綜藝問(wèn)答節(jié)目Jeopardy。比賽中Watson沒(méi)有聯(lián)網(wǎng),但依靠4TB磁盤內(nèi)200萬(wàn)頁(yè)結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,Watson成功戰(zhàn)勝人類選手取得冠軍,向世界展現(xiàn)了自然語(yǔ)言處理技術(shù)所能達(dá)到的實(shí)力。
機(jī)器翻譯方面,谷歌推出的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(GNMT)相比傳統(tǒng)的基于詞組的機(jī)器翻譯(PBMT),英語(yǔ)到西班牙語(yǔ)的錯(cuò)誤率下降了87%,英文到中文的錯(cuò)誤率下降了58%,取得了非常強(qiáng)勁的提升。
4. 規(guī)劃決策系統(tǒng)的發(fā)展歷史
人工智能規(guī)劃決策系統(tǒng)的發(fā)展,一度是以棋類游戲?yàn)檩d體的。最早在18世紀(jì)的時(shí)候,就出現(xiàn)過(guò)一臺(tái)可以下棋的機(jī)器,擊敗了當(dāng)時(shí)幾乎所有的人類棋手,包括拿破侖和富蘭克林等。不過(guò)最終被發(fā)現(xiàn)機(jī)器里藏著一個(gè)人類高手,通過(guò)復(fù)雜的機(jī)器結(jié)構(gòu)以混淆觀眾的視線,只是一場(chǎng)騙局而已。
真正基于人工智能的規(guī)劃決策系統(tǒng)出現(xiàn)在電子計(jì)算機(jī)誕生之后,1962年,Arthur Samuel制作的西洋跳棋程序Checkers經(jīng)過(guò)屢次改進(jìn)后,終于戰(zhàn)勝了州冠軍。
當(dāng)時(shí)的程序雖然還算不上智能,但也已經(jīng)具備了初步的自我學(xué)習(xí)能力,這場(chǎng)勝利在當(dāng)時(shí)還是引起了巨大的轟動(dòng),畢竟是機(jī)器首次在智力的角逐中戰(zhàn)勝人類。這也讓人們發(fā)出了樂(lè)觀的預(yù)言:“機(jī)器將在十年內(nèi)戰(zhàn)勝人類象棋冠軍”。
但人工智能所面臨的困難比人們想象得要大很多,跳棋程序在此之后也敗給了國(guó)家冠軍,未能更上一層樓。而國(guó)際象棋相比跳棋要復(fù)雜得多,在當(dāng)時(shí)的計(jì)算能力下,機(jī)器若想通過(guò)暴力計(jì)算戰(zhàn)勝人類象棋棋手,每步棋的平均計(jì)算時(shí)長(zhǎng)是以年為單位的。人們也意識(shí)到,只有盡可能減少計(jì)算復(fù)雜度,才可能與人類一決高下。
于是,“剪枝法”被應(yīng)用到了估值函數(shù)中,通過(guò)剔除掉低可能性的走法,優(yōu)化最終的估值函數(shù)計(jì)算。在“剪枝法”的作用下,西北大學(xué)開(kāi)發(fā)的象棋程序Chess 4.5在1976年首次擊敗了頂尖人類棋手。
進(jìn)入80年代,隨著算法上的不斷優(yōu)化,機(jī)器象棋程序在關(guān)鍵勝負(fù)手上的判斷能力和計(jì)算速度大幅提升,已經(jīng)能夠擊敗幾乎所有的頂尖人類棋手。
到了90年代,硬件性能、算法能力等都得到了大幅提升,在1997年那場(chǎng)著名的人機(jī)大戰(zhàn)中,IBM研發(fā)的深藍(lán)(Deep Blue)戰(zhàn)勝國(guó)際象棋大師卡斯帕羅夫,人類意識(shí)到在象棋游戲中已經(jīng)很難戰(zhàn)勝機(jī)器了。
到了2016年,硬件層面出現(xiàn)了基于GPU、TPU的并行計(jì)算,算法層面出現(xiàn)了蒙特卡洛決策樹(shù)與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合。
4:1戰(zhàn)勝李世石、在野狐圍棋對(duì)戰(zhàn)頂尖棋手60連勝、3:0戰(zhàn)勝世界排名第一的圍棋選手柯潔,隨著棋類游戲最后的堡壘——圍棋也被Alpha Go所攻克,人類在完美信息博弈的游戲中已徹底輸給機(jī)器,只能在不完美信息的德州撲克和麻將中茍延殘喘。
人們從棋類游戲中積累的知識(shí)和經(jīng)驗(yàn),也被應(yīng)用在更廣泛的需要決策規(guī)劃的領(lǐng)域,包括機(jī)器人控制、無(wú)人車等等。棋類游戲完成了它的歷史使命,帶領(lǐng)人工智能到達(dá)了一個(gè)新的歷史起點(diǎn)。
5. 人工智能的現(xiàn)在
時(shí)至今日,人工智能的發(fā)展已經(jīng)突破了一定的“閾值”。與前幾次的熱潮相比,這一次的人工智能來(lái)得更“實(shí)在”了,這種“實(shí)在”體現(xiàn)在不同垂直領(lǐng)域的性能提升、效率優(yōu)化。計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理的準(zhǔn)確率都已不再停留在“過(guò)家家”的水平,應(yīng)用場(chǎng)景也不再只是一個(gè)新奇的“玩具”,而是逐漸在真實(shí)的商業(yè)世界中扮演起重要的支持角色。
6. 語(yǔ)音處理的現(xiàn)在
一個(gè)完整的語(yǔ)音處理系統(tǒng),包括前端的信號(hào)處理、中間的語(yǔ)音語(yǔ)義識(shí)別和對(duì)話管理(更多涉及自然語(yǔ)言處理)、以及后期的語(yǔ)音合成。
總體來(lái)說(shuō),隨著語(yǔ)音技術(shù)的快速發(fā)展,之前的限定條件正在不斷減少:包括從小詞匯量到大詞匯量再到超大詞匯量、從限定語(yǔ)境到彈性語(yǔ)境再到任意語(yǔ)境、從安靜環(huán)境到近場(chǎng)環(huán)境再到遠(yuǎn)場(chǎng)嘈雜環(huán)境、從朗讀環(huán)境到口語(yǔ)環(huán)境再到任意對(duì)話環(huán)境、從單語(yǔ)種到多語(yǔ)種再到多語(yǔ)種混雜,但這給語(yǔ)音處理提出了更高的要求。
語(yǔ)音的前端處理中包含幾個(gè)模塊。
- 說(shuō)話人聲檢測(cè):有效地檢測(cè)說(shuō)話人聲開(kāi)始和結(jié)束時(shí)刻, 區(qū)分說(shuō)話人聲與背景聲;
- 回聲消除:當(dāng)音箱在播放音樂(lè)時(shí),為了不暫停音樂(lè)而進(jìn)行有效的語(yǔ)音識(shí)別,需要消除來(lái)自揚(yáng)聲器的音樂(lè)干擾;
- 喚醒詞識(shí)別:人類與機(jī)器交流的觸發(fā)方式,就像日常生活中需要與其他人說(shuō)話時(shí),你會(huì)先喊一下那個(gè)人的名字;
- 麥克風(fēng)陣列處理:對(duì)聲源進(jìn)行定位,增強(qiáng)說(shuō)話人方向的信號(hào)、抑制其他方向的噪音信號(hào);
- 語(yǔ)音增強(qiáng):對(duì)說(shuō)話人語(yǔ)音區(qū)域進(jìn)一步增強(qiáng),、環(huán)境噪聲區(qū)域進(jìn)一步抑制,有效降低遠(yuǎn)場(chǎng)語(yǔ)音的衰減。
除了手持設(shè)備是近場(chǎng)交互外,其他許多場(chǎng)景——車載、智能家居等——都是遠(yuǎn)場(chǎng)環(huán)境。
在遠(yuǎn)場(chǎng)環(huán)境下,聲音傳達(dá)到麥克風(fēng)時(shí)會(huì)衰減得非常厲害,導(dǎo)致一些在近場(chǎng)環(huán)境下不值一提的問(wèn)題被顯著放大。這就需要前端處理技術(shù)能夠克服噪聲、混響、回聲等問(wèn)題、較好地實(shí)現(xiàn)遠(yuǎn)場(chǎng)拾音。
同時(shí),也需要更多遠(yuǎn)場(chǎng)環(huán)境下的訓(xùn)練數(shù)據(jù),持續(xù)對(duì)模型進(jìn)行優(yōu)化,提升效果。
語(yǔ)音識(shí)別的過(guò)程需要經(jīng)歷特征提取、模型自適應(yīng)、聲學(xué)模型、語(yǔ)言模型、動(dòng)態(tài)解碼等多個(gè)過(guò)程。除了前面提到的遠(yuǎn)場(chǎng)識(shí)別問(wèn)題之外,還有許多前沿研究集中在解決“雞尾酒會(huì)問(wèn)題”。
“雞尾酒會(huì)問(wèn)題”顯示的是人類的一種聽(tīng)覺(jué)能力,能在多人場(chǎng)景的語(yǔ)音/噪聲混合中,追蹤并識(shí)別至少一個(gè)聲音,在嘈雜環(huán)境下也不會(huì)影響正常交流。
這種能力體現(xiàn)在兩種場(chǎng)景下:
- 一是人們將注意力集中在某個(gè)聲音上時(shí),比如在雞尾酒會(huì)上與朋友交談時(shí),即使周圍環(huán)境非常嘈雜、音量甚至超過(guò)了朋友的聲音,我們也能清晰地聽(tīng)到朋友說(shuō)的內(nèi)容;
- 二是人們的聽(tīng)覺(jué)器官突然受到某個(gè)刺激的時(shí)候,比如遠(yuǎn)處突然有人喊了自己的名字,或者在非母語(yǔ)環(huán)境下突然聽(tīng)到母語(yǔ)的時(shí)候,即使聲音出現(xiàn)在遠(yuǎn)處、音量很小,我們的耳朵也能立刻捕捉到。
而機(jī)器就缺乏這種能力,雖然當(dāng)前的語(yǔ)音技術(shù)在識(shí)別一個(gè)人所講的內(nèi)容時(shí)能夠體現(xiàn)出較高的精度,當(dāng)說(shuō)話人數(shù)為二人或更多時(shí),識(shí)別精度就會(huì)大打折扣。
如果用技術(shù)的語(yǔ)言來(lái)描述,問(wèn)題的本質(zhì)其實(shí)是給定多人混合語(yǔ)音信號(hào),一個(gè)簡(jiǎn)單的任務(wù)是如何從中分離出特定說(shuō)話人的信號(hào)和其他噪音,而復(fù)雜的任務(wù)則是分離出同時(shí)說(shuō)話的每個(gè)人的獨(dú)立語(yǔ)音信號(hào)。
在這些任務(wù)上,研究者已經(jīng)提出了一些方案,但還需要更多訓(xùn)練數(shù)據(jù)的積累、訓(xùn)練過(guò)程的打磨,逐漸取得突破,最終解決雞尾酒會(huì)問(wèn)題。
考慮到語(yǔ)義識(shí)別和對(duì)話管理環(huán)節(jié)更多是屬于自然語(yǔ)言處理的范疇,剩下的就是語(yǔ)音合成環(huán)節(jié)。
語(yǔ)音合成的幾個(gè)步驟包括:文本分析、語(yǔ)言學(xué)分析、音長(zhǎng)估算、發(fā)音參數(shù)估計(jì)等。
基于現(xiàn)有技術(shù)合成的語(yǔ)音在清晰度和可懂度上已經(jīng)達(dá)到了較好的水平,但機(jī)器口音還是比較明顯。
目前的幾個(gè)研究方向包括:如何使合成語(yǔ)音聽(tīng)起來(lái)更自然、如何使合成語(yǔ)音的表現(xiàn)力更豐富、如何實(shí)現(xiàn)自然流暢的多語(yǔ)言混合合成。只有在這些方向有所突破,才能使合成的語(yǔ)音真正與人類聲音無(wú)異。
可以看到,在一些限制條件下,機(jī)器確實(shí)能具備一定的“聽(tīng)說(shuō)”能力。因此在一些具體的場(chǎng)景下,比如語(yǔ)音搜索、語(yǔ)音翻譯、機(jī)器朗讀等,確實(shí)能有用武之地。
但真正做到像正常人類一樣,與其他人流暢溝通、自由交流,還有待時(shí)日。
7. 計(jì)算機(jī)視覺(jué)的現(xiàn)在
計(jì)算機(jī)視覺(jué)的研究方向,按技術(shù)難度的從易到難、商業(yè)化程度的從高到低,依次是處理、識(shí)別檢測(cè)、分析理解。
圖像處理是指不涉及高層語(yǔ)義,僅針對(duì)底層像素的處理;圖像識(shí)別檢測(cè)則包含了語(yǔ)音信息的簡(jiǎn)單探索;圖像理解則更上一層樓,包含了更豐富、更廣泛、更深層次的語(yǔ)義探索。
目前在處理和識(shí)別檢測(cè)層面,機(jī)器的表現(xiàn)已經(jīng)可以讓人滿意。但在理解層面,還有許多值得研究的地方。
圖像處理以大量的訓(xùn)練數(shù)據(jù)為基礎(chǔ)(例如通過(guò)有噪聲和無(wú)噪聲的圖像配對(duì)),通過(guò)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)端到端的解決方案。有幾種典型任務(wù):去噪聲、去模糊、超分辨率處理、濾鏡處理等。
運(yùn)用到視頻上,主要是對(duì)視頻進(jìn)行濾鏡處理。這些技術(shù)目前已經(jīng)相對(duì)成熟,在各類P圖軟件、視頻處理軟件中隨處可見(jiàn)。
圖像識(shí)別檢測(cè)的過(guò)程包括圖像預(yù)處理、圖像分割、特征提取和判斷匹配,也是基于深度學(xué)習(xí)的端到端方案。可以用來(lái)處理分類問(wèn)題(如識(shí)別圖片的內(nèi)容是不是貓)、定位問(wèn)題(如識(shí)別圖片中的貓?jiān)谀睦铮z測(cè)問(wèn)題(如識(shí)別圖片中有哪些動(dòng)物、分別在哪
里)、分割問(wèn)題(如圖片中的哪些像素區(qū)域是貓)等。
這些技術(shù)也已比較成熟,圖像上的應(yīng)用包括人臉檢測(cè)識(shí)別、OCR(Optical Character Recognition,光學(xué)字符識(shí)別)等,視頻上可用來(lái)識(shí)別影片中的明星等。
當(dāng)然,深度學(xué)習(xí)在這些任務(wù)中都扮演了重要角色。
傳統(tǒng)的人臉識(shí)別算法,即使綜合考慮顏色、形狀、紋理等特征,也只能做到95%左右的準(zhǔn)確率。而有了深度學(xué)習(xí)的加持,準(zhǔn)確率可以達(dá)到99.5%,錯(cuò)誤率下降了10倍,從而使得在金融、安防等領(lǐng)域的廣泛商業(yè)化應(yīng)用成為可能。
OCR領(lǐng)域,傳統(tǒng)的識(shí)別方法要經(jīng)過(guò)清晰度判斷、直方圖均衡、灰度化、傾斜矯正、字符切割等多項(xiàng)預(yù)處理工作,得到清晰且端正的字符圖像,再對(duì)文字進(jìn)行識(shí)別和輸出。
而深度學(xué)習(xí)的出現(xiàn)不僅省去了復(fù)雜且耗時(shí)的預(yù)處理和后處理工作,更將字準(zhǔn)確率從60%提高到90%以上。
圖像理解本質(zhì)上是圖像與文本間的交互??捎脕?lái)執(zhí)行基于文本的圖像搜索、圖像描述生成、圖像問(wèn)答(給定圖像和問(wèn)題,輸出答案)等。
在傳統(tǒng)的方法下:基于文本的圖像搜索是針對(duì)文本搜索最相似的文本后,返回相應(yīng)的文本圖像對(duì);圖像描述生成是根據(jù)從圖像中識(shí)別出的物體,基于規(guī)則模板產(chǎn)生描述文本;圖像問(wèn)答是分別對(duì)圖像與文本獲取數(shù)字化表示,然后分類得到答案。
而有了深度學(xué)習(xí),就可以直接在圖像與文本之間建立端到端的模型,提升效果。圖像理解任務(wù)目前還沒(méi)有取得非常成熟的結(jié)果,商業(yè)化場(chǎng)景也正在探索之中。
可以看到,計(jì)算機(jī)視覺(jué)已經(jīng)達(dá)到了娛樂(lè)用、工具用的初級(jí)階段。
照片自動(dòng)分類、以圖搜圖、圖像描述生成等等這些功能,都可作為人類視覺(jué)的輔助工具。人們不再需要靠肉眼捕捉信息、大腦處理信息、進(jìn)而分析理解,而是可以交由機(jī)器來(lái)捕捉、處理和分析,再將結(jié)果返回給人類。
而往未來(lái)看,計(jì)算機(jī)視覺(jué)有希望進(jìn)入自主理解、甚至分析決策的高級(jí)階段,真正賦予機(jī)器“看”的能力,從而在智能家居、無(wú)人車等應(yīng)用場(chǎng)景發(fā)揮更大的價(jià)值。
8. 自然語(yǔ)言處理的現(xiàn)在
自然語(yǔ)言處理中的幾個(gè)核心環(huán)節(jié)包括知識(shí)的獲取與表達(dá)、自然語(yǔ)言理解、自然語(yǔ)言生成等等,也相應(yīng)出現(xiàn)了知識(shí)圖譜、對(duì)話管理、機(jī)器翻譯等研究方向,與前述的處理環(huán)節(jié)形成多對(duì)多的映射關(guān)系。
由于自然語(yǔ)言處理要求機(jī)器具備的是比“感知”更難的“理解”能力,因此其中的許多問(wèn)題直到今天也未能得到較好的解決。
知識(shí)圖譜是基于語(yǔ)義層面對(duì)知識(shí)進(jìn)行組織后得到的結(jié)構(gòu)化結(jié)果,可以用來(lái)回答簡(jiǎn)單事實(shí)類的問(wèn)題。
包括語(yǔ)言知識(shí)圖譜(詞義上下位、同義詞等)、常識(shí)知識(shí)圖譜(“鳥會(huì)飛但兔子不會(huì)飛”)、實(shí)體關(guān)系圖譜(“劉德華的妻子是朱麗倩”)。
知識(shí)圖譜的構(gòu)建過(guò)程其實(shí)就是獲取知識(shí)、表示知識(shí)、應(yīng)用知識(shí)的過(guò)程。
舉例來(lái)說(shuō),針對(duì)互聯(lián)網(wǎng)上的一句文本“劉德華攜妻子朱麗倩出席了電影節(jié)”,我們可以從中取出“劉德華”、“妻子”、“朱麗倩”這幾個(gè)關(guān)鍵詞,然后得到“劉德華-妻子-朱麗倩”這樣的三元表示。
同樣地,我們也可以得到“劉德華-身高-174cm”這樣的三元表示。將不同領(lǐng)域不同實(shí)體的這些三元表示組織在一起,就構(gòu)成了知識(shí)圖譜系統(tǒng)。
語(yǔ)義理解是自然語(yǔ)言處理中的最大難題,這個(gè)難題的核心問(wèn)題是如何從形式與意義的多對(duì)多映射中,根據(jù)當(dāng)前語(yǔ)境找到一種最合適的映射。
以中文為例,這里面需要解決4個(gè)困難:
- 首先是歧義消除,包括詞語(yǔ)的歧義(例如“潛水”可以指一種水下運(yùn)動(dòng),也可以指在論壇中不發(fā)言)、短語(yǔ)的歧義(例如“進(jìn)口彩電”可以指進(jìn)口的彩電,也可以指一個(gè)行動(dòng)動(dòng)作)、句子的歧義(例如“做手術(shù)的是他父親”可以指他父親在接受手術(shù),也可以指他父親是手術(shù)醫(yī)生);
- 其次是上下文關(guān)聯(lián)性,包括指代消解(例如“小明欺負(fù)小李,所以我批評(píng)了他。”,需要依靠上下文才知道我批評(píng)的是調(diào)皮的小明)、省略恢復(fù)(例如“老王的兒子學(xué)習(xí)不錯(cuò),比老張的好。”其實(shí)是指“比老張的兒子的學(xué)習(xí)好”);
- 第三是意圖識(shí)別,包括名詞與內(nèi)容的意圖識(shí)別(“晴天”可以指天氣也可以指周杰倫的歌)、閑聊與問(wèn)答的意圖識(shí)別(“今天下雨了”是一句閑聊,而“今天下雨嗎”則是有關(guān)天氣的一次查詢)、顯性與隱性的意圖識(shí)別(“我要買個(gè)手機(jī)”和“這手機(jī)用得太久了”都是用戶想買新手機(jī)的意圖);
- 最后一塊是情感識(shí)別,包括顯性與隱性的情感識(shí)別(“我不高興”和“我考試沒(méi)考好”都是用戶在表示心情低落)、基于先驗(yàn)常識(shí)的情感識(shí)別(“續(xù)航時(shí)間長(zhǎng)”是褒義的,而“等待時(shí)間長(zhǎng)”則是貶義的)。
鑒于以上的這種種困難,語(yǔ)義理解可能的解決方案是利用知識(shí)進(jìn)行約束,來(lái)破解多對(duì)多映射的困局,通過(guò)知識(shí)圖譜來(lái)補(bǔ)充機(jī)器的知識(shí)。
然而,即使克服了語(yǔ)義理解上的困難,距離讓機(jī)器顯得不那么智障還是遠(yuǎn)遠(yuǎn)不夠的,還需要在對(duì)話管理上有所突破。
目前對(duì)話管理主要包含三種情形,按照涉及知識(shí)的通用到專業(yè),依次是閑聊、問(wèn)答、任務(wù)驅(qū)動(dòng)型對(duì)話。
閑聊是開(kāi)放域的、存在情感聯(lián)系和聊天個(gè)性的對(duì)話,比如“ 今天天氣真不錯(cuò)。”“是呀,要不要出去走走?”閑聊的難點(diǎn)在于如何通過(guò)巧妙的回答激發(fā)興趣/降低不滿,從而延長(zhǎng)對(duì)話時(shí)間、提高粘性;
問(wèn)答是基于問(wèn)答模型和信息檢索的對(duì)話,一般是單一輪次,比如“劉德華的老婆是誰(shuí)?”“劉德華的妻子朱麗倩,1966年4月6日出生于馬來(lái)西亞檳城…”。問(wèn)答不僅要求有較為完善的知識(shí)圖譜,還需要在沒(méi)有直接答案的情況下運(yùn)用推理得到答案;
任務(wù)驅(qū)動(dòng)型對(duì)話涉及到槽位填充、智能決策,一般是多輪次,比如“放一首跑步聽(tīng)的歌吧”“為您推薦羽泉的《奔跑》”“我想聽(tīng)英文歌”“為您推薦Eminem的《Notafraid》”簡(jiǎn)單任務(wù)驅(qū)動(dòng)型對(duì)話已經(jīng)比較成熟,未來(lái)的攻克方向是如何不依賴人工的槽位定義,建立通用領(lǐng)域的對(duì)話管理。
歷史上自然語(yǔ)言生成的典型應(yīng)用一直是機(jī)器翻譯。傳統(tǒng)方法是一種名為Phrased-Based Machine Translation(PBMT)的方法:先將完整的一句話打散成若干個(gè)詞組,對(duì)這些詞組分別進(jìn)行翻譯,然后再按照語(yǔ)法規(guī)則進(jìn)行調(diào)序,恢復(fù)成一句通順的譯文。
整個(gè)過(guò)程看起來(lái)并不復(fù)雜,但其中涉及到了多個(gè)自然語(yǔ)言處理算法,包括中文分詞、詞性標(biāo)注、句法結(jié)構(gòu)等等,環(huán)環(huán)相扣,其中任一環(huán)節(jié)出現(xiàn)的差錯(cuò)都會(huì)傳導(dǎo)下去,影響最終結(jié)果。
而深度學(xué)習(xí)則依靠大量的訓(xùn)練數(shù)據(jù),通過(guò)端到端的學(xué)習(xí)方式,直接建立源語(yǔ)言與目標(biāo)語(yǔ)言之間的映射關(guān)系,跳過(guò)了中間復(fù)雜的特征選擇、人工調(diào)參等步驟。
在這樣的思想下,人們對(duì)早在90年代就提出了的“編碼器-解碼器”神經(jīng)機(jī)器翻譯結(jié)構(gòu)進(jìn)行了不斷完善,并引入了注意力機(jī)制(attention mechanism),使系統(tǒng)性能得到顯著提高。
之后谷歌團(tuán)隊(duì)通過(guò)強(qiáng)大的工程實(shí)現(xiàn)能力,用全新的機(jī)器翻譯系統(tǒng)GNMT(Google Neural Machine Translation)替代了之前的SMT(Statistical machine translation),相比之前的系統(tǒng)更為通順流暢,錯(cuò)誤率也大幅下降。
雖然仍有許多問(wèn)題有待解決,比如對(duì)生僻詞的翻譯、漏詞、重復(fù)翻譯等,但不可否認(rèn)神經(jīng)機(jī)器翻譯在性能上確實(shí)取得了巨大突破,未來(lái)在出境游、商務(wù)會(huì)議、跨國(guó)交流等場(chǎng)景的應(yīng)用前景也十分可觀。
隨著互聯(lián)網(wǎng)的普及,信息的電子化程度也日益提高。海量數(shù)據(jù)既是自然語(yǔ)言處理在訓(xùn)練過(guò)程中的燃料,也為其提供了廣闊的發(fā)展舞臺(tái)。搜索引擎、對(duì)話機(jī)器人、機(jī)器翻譯,甚至高考機(jī)器人、辦公智能秘書都開(kāi)始在人們的日常生活中扮演越來(lái)越重要的角色。
9. 機(jī)器學(xué)習(xí)的現(xiàn)在
按照人工智能的層次來(lái)看,機(jī)器學(xué)習(xí)是比計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音處理等技術(shù)層更底層的一個(gè)概念。近幾年來(lái)技術(shù)層的發(fā)展風(fēng)生水起,處在算法層的機(jī)器學(xué)習(xí)也產(chǎn)生了幾個(gè)重要的研究方向。
首先是在垂直領(lǐng)域的廣泛應(yīng)用。
鑒于機(jī)器學(xué)習(xí)還存在不少的局限、不具備通用性,在一個(gè)比較狹窄的垂直領(lǐng)域的應(yīng)用就成為了較好的切入口。
因?yàn)樵谙薅ǖ念I(lǐng)域內(nèi),一是問(wèn)題空間變得足夠小,模型的效果能夠做到更好;二是具體場(chǎng)景下的訓(xùn)練數(shù)據(jù)更容易積累,模型訓(xùn)練更高效、更有針對(duì)性;三是人們對(duì)機(jī)器的期望是特定的、具體的,期望值不高。
這三點(diǎn)導(dǎo)致機(jī)器在這個(gè)限定領(lǐng)域內(nèi)表現(xiàn)出足夠的智能性,從而使最終的用戶體驗(yàn)也相對(duì)更好。
因此,在金融、律政、醫(yī)療等等垂直領(lǐng)域,我們都看到了一些成熟應(yīng)用,且已經(jīng)實(shí)現(xiàn)了一定的商業(yè)化??梢灶A(yù)見(jiàn),在垂直領(lǐng)域內(nèi)的重復(fù)性勞動(dòng),未來(lái)將有很大比例會(huì)被人工智能所取代。
其次是從解決簡(jiǎn)單的凸優(yōu)化問(wèn)題到解決非凸優(yōu)化問(wèn)題。
優(yōu)化問(wèn)題,是指將所有的考慮因素表示為一組函數(shù),然后從中選出一個(gè)最優(yōu)解。而凸優(yōu)化問(wèn)題的一個(gè)很好的特性是——局部最優(yōu)就是全局最優(yōu)。
目前機(jī)器學(xué)習(xí)中的大部分問(wèn)題,都可以通過(guò)加上一定的約束條件,轉(zhuǎn)化或近似為一個(gè)凸優(yōu)化問(wèn)題。
雖然任何的優(yōu)化問(wèn)題通過(guò)遍歷函數(shù)上的所有點(diǎn),一定能夠找到最優(yōu)值,但這樣的計(jì)算量十分龐大。
尤其當(dāng)特征維度較多的時(shí)候,會(huì)產(chǎn)生維度災(zāi)難(特征數(shù)超過(guò)已知樣本數(shù)可存在的特征數(shù)上限,導(dǎo)致分類器的性能反而退化)。而凸優(yōu)化的特性,使得人們能通過(guò)梯度下降法尋找到下降的方向,找到的局部最優(yōu)解就會(huì)是全局最優(yōu)解。
但在現(xiàn)實(shí)生活中,真正符合凸優(yōu)化性質(zhì)的問(wèn)題其實(shí)并不多,目前對(duì)凸優(yōu)化問(wèn)題的關(guān)注僅僅是因?yàn)檫@類問(wèn)題更容易解決。
就像在夜晚的街道上丟了鑰匙,人們會(huì)優(yōu)先在燈光下尋找一樣。因此,換一種說(shuō)法,人們現(xiàn)在還缺乏針對(duì)非凸優(yōu)化問(wèn)題的行之有效的算法,這也是人們的努力方向。
第三點(diǎn)是從監(jiān)督學(xué)習(xí)向非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的演進(jìn)。
目前來(lái)看,大部分的AI應(yīng)用都是通過(guò)監(jiān)督學(xué)習(xí),利用一組已標(biāo)注的訓(xùn)練數(shù)據(jù),對(duì)分類器的參數(shù)進(jìn)行調(diào)整,使其達(dá)到所要求的性能。但在現(xiàn)實(shí)生活中,監(jiān)督學(xué)習(xí)不足以被稱為“智能”。
對(duì)照人類的學(xué)習(xí)過(guò)程,許多都是建立在與事物的交互中,通過(guò)人類自身的體會(huì)、領(lǐng)悟,得到對(duì)事物的理解,并將之應(yīng)用于未來(lái)的生活中。而機(jī)器的局限就在于缺乏這些“常識(shí)”。
卷積神經(jīng)網(wǎng)絡(luò)之父、Facebook AI 研究院院長(zhǎng)Yann LeCun曾通過(guò)一個(gè)“黑森林蛋糕”的比喻來(lái)形容他所理解的監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)間的關(guān)系:
如果將機(jī)器學(xué)習(xí)視作一個(gè)黑森林蛋糕,那(純粹的)強(qiáng)化學(xué)習(xí)是蛋糕上不可或缺的櫻桃,需要的樣本量只有幾個(gè)Bits;監(jiān)督學(xué)習(xí)是蛋糕外層的糖衣,需要10到10000個(gè)Bits的樣本量;無(wú)監(jiān)督學(xué)習(xí)則是蛋糕的主體,需要數(shù)百萬(wàn)Bits的樣本量,具備強(qiáng)大的預(yù)測(cè)能力。
但他也強(qiáng)調(diào),櫻桃是必須出現(xiàn)的配料,意味著強(qiáng)化學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)是相輔相成、缺一不可的。
無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域近期的研究重點(diǎn)在于“生成對(duì)抗網(wǎng)絡(luò)”(GANs),其實(shí)現(xiàn)方式是讓生成器(Generator)和判別器(Discriminator)這兩個(gè)網(wǎng)絡(luò)互相博弈,生成器隨機(jī)從訓(xùn)練集中選取真實(shí)數(shù)據(jù)和干擾噪音,產(chǎn)生新的訓(xùn)練樣本,判別器通過(guò)與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比,判斷數(shù)據(jù)的真實(shí)性。
在這個(gè)過(guò)程中,生成器與判別器交互學(xué)習(xí)、自動(dòng)優(yōu)化預(yù)測(cè)能力,從而創(chuàng)造最佳的預(yù)測(cè)模型。
自2014由Ian Goodfellow提出后,GANs席卷各大頂級(jí)會(huì)議,被Yann LeCun 評(píng)價(jià)為是“20年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域最酷的想法”。
而強(qiáng)化學(xué)習(xí)這邊,則更接近于自然界生物學(xué)習(xí)過(guò)程的本源:如果把自己想象成是環(huán)境(environment)中一個(gè)代理(agent),一方面你需要不斷探索以發(fā)現(xiàn)新的可能性(exploration),一方面又要在現(xiàn)有條件下做到極致(exploitation)。
正確的決定或早或晚一定會(huì)為你帶來(lái)獎(jiǎng)勵(lì)(positive reward),反之則會(huì)帶來(lái)懲罰(negative reward),知道最終徹底掌握問(wèn)題的答案(optimal policy)。
強(qiáng)化學(xué)習(xí)的一個(gè)重要研究方向在于建立一個(gè)有效的、與真實(shí)世界存在交互的仿真模擬環(huán)境,不斷訓(xùn)練,模擬采取各種動(dòng)作、接受各種反饋,以此對(duì)模型進(jìn)行訓(xùn)練。
10. 人工智能的未來(lái)
隨著技術(shù)水平的突飛猛進(jìn),人工智能終于迎來(lái)它的黃金時(shí)代?;仡櫲斯ぶ悄芰陙?lái)的風(fēng)風(fēng)雨雨,歷史告訴了我們這些經(jīng)驗(yàn):
- 首先,基礎(chǔ)設(shè)施帶來(lái)的推動(dòng)作用是巨大的,人工智能屢次因數(shù)據(jù)、運(yùn)算力、算法的局限而遇冷,突破的方式則是由基礎(chǔ)設(shè)施逐層向上推動(dòng)至行業(yè)應(yīng)用;
- 其次,游戲AI在發(fā)展過(guò)程中扮演了重要的角色,因?yàn)橛螒蛑袪可娴饺藱C(jī)對(duì)抗,能幫助人們更直觀地理解AI、感受到觸動(dòng),從而起到推動(dòng)作用;
- 最后,我們也必須清醒地意識(shí)到,雖然在許多任務(wù)上,人工智能都取得了匹敵甚至超越人類的結(jié)果,但瓶頸還是非常明顯的。
比如計(jì)算機(jī)視覺(jué)方面,存在自然條件的影響(光線、遮擋等)、主體的識(shí)別判斷問(wèn)題(從一幅結(jié)構(gòu)復(fù)雜的圖片中找到關(guān)注重點(diǎn));語(yǔ)音技術(shù)方面,存在特定場(chǎng)合的噪音問(wèn)題(車載、家居等)、遠(yuǎn)場(chǎng)識(shí)別問(wèn)題、長(zhǎng)尾內(nèi)容識(shí)別問(wèn)題(口語(yǔ)化、方言等);自然語(yǔ)言處理方面,存在理解能力缺失、與物理世界缺少對(duì)應(yīng)(“常識(shí)”的缺乏)、長(zhǎng)尾內(nèi)容識(shí)別等問(wèn)題。
總的來(lái)說(shuō),我們看到,現(xiàn)有的人工智能技術(shù),一是依賴大量高質(zhì)量的訓(xùn)練數(shù)據(jù),二是對(duì)長(zhǎng)尾問(wèn)題的處理效果不好,三是依賴于獨(dú)立的、具體的應(yīng)用場(chǎng)景、通用性很低。
而往未來(lái)看,人們對(duì)人工智能的定位絕不僅僅只是用來(lái)解決狹窄的、特定領(lǐng)域的某個(gè)簡(jiǎn)單具體的小任務(wù),而是真正成為和人類一樣,能同時(shí)解決不同領(lǐng)域、不同類型的問(wèn)題,像人類一樣進(jìn)行判斷和決策,也就是所謂的通用人工智能(Artificial General Intelligence, AGI)。
具體來(lái)說(shuō),需要機(jī)器一方面能夠通過(guò)感知學(xué)習(xí)、認(rèn)知學(xué)習(xí)去理解世界,另一方面通過(guò)強(qiáng)化學(xué)習(xí)去模擬世界。
前者讓機(jī)器能感知信息,并通過(guò)注意、記憶、理解等方式將感知信息轉(zhuǎn)化為抽象知識(shí),快速學(xué)習(xí)人類積累的知識(shí);后者通過(guò)創(chuàng)造一個(gè)模擬環(huán)境,讓機(jī)器通過(guò)與環(huán)境交互試錯(cuò)來(lái)獲得知識(shí)、持續(xù)優(yōu)化知識(shí)。
人們希望通過(guò)算法上、學(xué)科上的交叉、融合和優(yōu)化,整體解決人工智能在創(chuàng)造力、通用性、對(duì)物理世界理解能力上的問(wèn)題。
在未來(lái),底層的基礎(chǔ)設(shè)施將會(huì)是由互聯(lián)網(wǎng)、物聯(lián)網(wǎng)提供的現(xiàn)代人工智能場(chǎng)景和數(shù)據(jù),這些是生產(chǎn)的原料;
算法層將會(huì)是由深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)提供的現(xiàn)代人工智能核心模型,輔以云計(jì)算提供的核心算力,這些是生產(chǎn)的引擎;
在這些的基礎(chǔ)之上,不管是計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音技術(shù),還是游戲AI、機(jī)器人等,都是基于同樣的數(shù)據(jù)、模型、算法之上的不同的應(yīng)用場(chǎng)景。
這其中還存在著一些亟待攻克的問(wèn)題,如何解決這些問(wèn)題正是人們一步一個(gè)腳印走向AGI的必經(jīng)之路。
首先是從大數(shù)據(jù)到小數(shù)據(jù)。
深度學(xué)習(xí)的訓(xùn)練過(guò)程需要大量經(jīng)過(guò)人工標(biāo)注的數(shù)據(jù),例如無(wú)人車研究需要大量標(biāo)注了車、人、建筑物的街景照片,語(yǔ)音識(shí)別研究需要文本到語(yǔ)音的播報(bào)和語(yǔ)音到文本的聽(tīng)寫,機(jī)器翻譯需要雙語(yǔ)的句對(duì),圍棋需要人類高手的走子記錄等。
但針對(duì)大規(guī)模數(shù)據(jù)的標(biāo)注工作是一件費(fèi)時(shí)費(fèi)力的工作,尤其對(duì)于一些長(zhǎng)尾的場(chǎng)景來(lái)說(shuō),連基礎(chǔ)數(shù)據(jù)的收集都成問(wèn)題。
因此,一個(gè)研究方向就是如何在數(shù)據(jù)缺失的條件下進(jìn)行訓(xùn)練,從無(wú)標(biāo)注的數(shù)據(jù)里進(jìn)行學(xué)習(xí),或者自動(dòng)模擬(生成)數(shù)據(jù)進(jìn)行訓(xùn)練,目前特別火熱的GANs就是一種數(shù)據(jù)生成模型。
其次是從大模型到小模型。
目前深度學(xué)習(xí)的模型都非常大,動(dòng)輒幾百兆字節(jié)(MB)、大的甚至可以到幾千兆字節(jié)(GB)甚至幾十千兆字節(jié)(GB)。
雖然模型在PC端運(yùn)算不成問(wèn)題,但如果要在移動(dòng)設(shè)備上使用就會(huì)非常麻煩。這就造成語(yǔ)音輸入法、語(yǔ)音翻譯、圖像濾鏡等基于移動(dòng)端的APP無(wú)法取得較好的效果。
這塊的研究方向在于如何精簡(jiǎn)模型的大小,通過(guò)直接壓縮或是更精巧的模型設(shè)計(jì),通過(guò)移動(dòng)終端的低功耗計(jì)算與云計(jì)算之間的結(jié)合,使得在小模型上也能跑出大模型的效果。
最后是從感知認(rèn)知到理解決策。
人類智能在感知和認(rèn)知的部分,比如視覺(jué)、聽(tīng)覺(jué),機(jī)器在一定限定條件下已經(jīng)能夠做到足夠好了。當(dāng)然這些任務(wù)本來(lái)也不難,機(jī)器的價(jià)值在于可以比人做得更快、更準(zhǔn)、成本更低。
但這些任務(wù)基本都是靜態(tài)的,即在給定輸入的情況下,輸出結(jié)果是一定的。而在一些動(dòng)態(tài)的任務(wù)中,比如如何下贏一盤圍棋、如何開(kāi)車從一個(gè)路口到另一個(gè)路口、如何在一支股票上投資并賺到錢,這類不完全信息的決策型的問(wèn)題,需要持續(xù)地與環(huán)境進(jìn)行交互、收集反饋、優(yōu)化策略,這些也正是強(qiáng)化學(xué)習(xí)的強(qiáng)項(xiàng)。而模擬環(huán)境(模擬器)作為強(qiáng)化學(xué)習(xí)生根發(fā)芽的土壤,也是一個(gè)重要的研究方向。