為什么說自然語言處理是人工智能的核心
如果一臺計算機能夠欺騙人類,讓人相信它是人類,那么該計算機就應(yīng)當(dāng)被認為是智能的。——阿蘭·圖靈
機器能跟我們?nèi)祟惤涣鲉?,能像我們?nèi)祟愐粯永斫馕谋締?,這是大家對人工智能最初的幻想。如今,它已成為人工智能的核心領(lǐng)域——自然語言處理(簡稱:NLP)。自然語言處理是一門融語言學(xué)、計算機科學(xué)、人工智能于一體的科學(xué),解決的是“讓機器可以理解自然語言”——這一到目前為止都還只是人類獨有的特權(quán),因此,被譽為人工智能皇冠上的明珠。
如今,這門學(xué)科受到了國家政府、各大企業(yè)的普遍關(guān)注。國務(wù)院《新一代人工智能發(fā)展規(guī)劃》,明確指出建立新一代人工智能關(guān)鍵共性技術(shù)體系,自然語言處理技術(shù)作為八大共性技術(shù)之一,被重點強調(diào)和扶持。
無處不在的自然語言處理
我們每天都在使用或受益于“自然語言處理”的技術(shù),舉個例子,微軟小冰是中國微博上的一款將對話帶入我們?nèi)粘I畹牧奶鞕C器人。百萬年輕中國用戶通過小冰交換信息,與他人分手、丟了工作或感覺沮喪時,人們經(jīng)常會和小冰聊天。到目前,小冰已經(jīng)累積了上億用戶,平均聊天的回數(shù)23輪,平時聊天時長大概是25分鐘左右。自然語言處理技術(shù)更廣泛使用,可見下面的案例:
機器翻譯
去年秋天,谷歌翻譯推出了一個全新升級的人工智能翻譯引擎。這樣一來,曾以產(chǎn)出語言生硬但又可用的翻譯而聞名的谷歌翻譯,已開始產(chǎn)出語言流暢、精確度高的翻譯文本。對未經(jīng)專業(yè)翻譯訓(xùn)練的人來說,這種文本輸出幾乎與人工翻譯并未有區(qū)別。我們將上面這段文字輸入到谷歌翻譯中(中譯英),輸出的英文句子,讓人驚嘆!
垃圾郵件檢測
在自動垃圾郵件檢測等一些應(yīng)用中,分類只有兩個:垃圾郵件和非垃圾郵件。在其它情況下,分類器可以有多個分類,比如按主題組織新聞報道或按領(lǐng)域組織學(xué)術(shù)論文。而要是一篇博客文章談?wù)摰氖求w育和娛樂又會怎樣?一個分類器如何在多個選項之間選擇正確的分類?那依賴于具體應(yīng)用:它可以簡單地選擇最有可能的選項,但有時候為一個文本分配多個分類是有意義的。
問答系統(tǒng)
從2011年Siri誕生,到Google Now,再到Cortana和Alexa,作為語音助手,其實它們本質(zhì)上都是問答系統(tǒng)。這幾個都是面向公開領(lǐng)域的問答系統(tǒng),在我們的日常生活中幫忙定鬧鐘、打電話、導(dǎo)航、搜索問題,偶爾還能講講笑話,也正讓我們的生活越來越方便。
尤其是2010年后,深度學(xué)習(xí)應(yīng)用于自然語言處理領(lǐng)域,一系列的產(chǎn)品功能逐漸走進我們的生活。各大企業(yè)也在紛紛布局相關(guān)產(chǎn)業(yè),重金招攬相關(guān)領(lǐng)域人才。我國在語言文字信息處理方面就誕生了三家上市公司,從上市的順序來說,最早是漢王,做模式識別,后來科大訊飛做語音識別,然后是拓而思的信息檢索和文本挖掘。
圖四 知名招聘網(wǎng)站崗位圖