很遺憾,自然語言理解是AI尚未攻克的領(lǐng)域
短短幾年之內(nèi),深度學(xué)習(xí)算法得到了長足發(fā)展,不僅在棋類游戲中擊敗了全球很優(yōu)秀的選手,也能夠以等同于、甚至超越人類的準(zhǔn)確率識別人臉。但事實證明,人類語言仍是一項獨特且深邃的難題,亦是AI技術(shù)所面對的最為艱巨的挑戰(zhàn)之一。
但是,突破能否如期而至?
一旦計算機(jī)可以有效理解人類語言內(nèi)容,則必將徹底顛覆全球各品牌、企業(yè)與組織之間的交互方式。如今,大多數(shù)企業(yè)拿不出充裕的資源為每位客戶提供一對一解答服務(wù)。但在語言AI真正成熟之后,企業(yè)將能夠在任意時間通過任意渠道聽取、理解并回應(yīng)每一個問題。這是一項激動人心的發(fā)展愿景,但距離達(dá)成目標(biāo)仍有漫長的道路要走。
直到2015年,人們才構(gòu)建出一種足以在準(zhǔn)確率方面與他類相匹敵的人臉識別算法。Facebook的DeepFace準(zhǔn)確率為97.4%,僅略低于人類的97.5%。作為參考,F(xiàn)BI以往的人臉識別算法準(zhǔn)確率僅為85%,意味著其做出的判斷有超過七分之一概率是錯的。
FBI算法是由一組工程師手工開發(fā)而成。其中每項特征(例如鼻子大小以及眼睛的相對位置)皆由手動編程而來。Facebook算法則真正實現(xiàn)了特征學(xué)習(xí),其利用一種被稱為卷積神經(jīng)網(wǎng)絡(luò)的特殊深度學(xué)習(xí)架構(gòu),模擬出人類視覺皮層通過復(fù)雜的多層結(jié)構(gòu)處理圖像內(nèi)容。事實上,我們并不清楚這些皮層之間是如何聯(lián)系的,因此一切“奧秘”都由算法自主探索得來。
Facebook之所以能夠達(dá)成這一成就,依靠的正是實現(xiàn)類人級人工智能的兩個基本思路:首先建立一套能夠?qū)W習(xí)特征的架構(gòu),再將數(shù)百萬張經(jīng)過標(biāo)記的高質(zhì)量圖像作為訓(xùn)練素材供其學(xué)習(xí)。
語言難關(guān)就在眼前
視覺的誕生雖然困難,但已經(jīng)有數(shù)百萬種物種在進(jìn)化過程中攻克了這道難關(guān)。相比之下,語言似乎更為復(fù)雜。據(jù)我們所知,人類是目前唯一能夠使用復(fù)雜語言交流想法的物種。
不到十年之前,出現(xiàn)了單憑某些詞匯的出現(xiàn)頻率即可大致推理出語義的AI算法。但這種方法顯然忽視了同義詞元素的存在,也無法應(yīng)對某些表達(dá)在不同上下文中具有不同表意的問題。
2013年,Tomas Mikolov和他的谷歌團(tuán)隊創(chuàng)造出一種能夠?qū)W習(xí)單詞含義的架構(gòu)。他們的word2vec算法能夠?qū)⑼x詞相互映射,借此對大小、性別、速度等語義進(jìn)行建模,甚至能夠?qū)遗c首都等特征關(guān)聯(lián)起來。
但其中仍然缺少至關(guān)重要的一環(huán)——理解上下文。語言理解領(lǐng)域的真正突破誕生于2018年,谷歌公司在這時推出了BERT模型。Jacob Devlin和他的團(tuán)隊仍然沿用傳統(tǒng)機(jī)器翻譯中的架構(gòu),但向其中引入了學(xué)習(xí)句子內(nèi)上下文信息的能力。
通過教育該模型填補(bǔ)維基百科文章中的遺漏單詞,該團(tuán)隊得以將語言結(jié)構(gòu)嵌入BERT模型。只需要使用數(shù)量有限的高質(zhì)量標(biāo)記數(shù)據(jù),他們就成功完成了對BERT的調(diào)優(yōu),借此完成從為問題找到正確答案、到真正理解句子表意的多種任務(wù)。也憑借這一壯舉,他們成為破解語言理解謎題的先驅(qū):正確架構(gòu),加上大量可供學(xué)習(xí)的高質(zhì)量數(shù)據(jù)。
2019年,F(xiàn)acebook的研究人員在此基礎(chǔ)上又更進(jìn)了一步。他們同時使用100種語言訓(xùn)練出類似的BERT模型。此模型能夠以一種語言(例如英語)進(jìn)行特征學(xué)習(xí),再將成果應(yīng)用于其他任意一種語言(例如阿拉伯語、漢語及北印度語)。這種具有語言中立性的模型能夠在實際訓(xùn)練所選定的語種上實現(xiàn)與BERT完全一致的性能,并在遷移至另一種語言時將影響控制在較低程度。
這些技術(shù)本身確實給人留下了深刻印象。但在2020年初,谷歌研究人員最終得以在廣泛的語言理解任務(wù)上超越了人類的表現(xiàn)。谷歌引入規(guī)模更大的網(wǎng)絡(luò)架構(gòu)與更多訓(xùn)練數(shù)據(jù),終于將BERT架構(gòu)推向了極限。如今,這套被命名為T5的架構(gòu)在標(biāo)記句子與尋找答案方面的表現(xiàn)已經(jīng)超越人類。去年10月發(fā)布的多語種mT5模型已經(jīng)能夠在雙語種間互譯方面實現(xiàn)與人類相近的表現(xiàn),更恐怖的是它能夠支持多達(dá)100種語言。谷歌本周又公布了新的萬億級參數(shù)模型,整體架構(gòu)規(guī)模更上一層樓,性能也進(jìn)一步提升。
可能性
設(shè)想一下,未來的聊天機(jī)器人也許能夠理解您用任何一種語言書寫的內(nèi)容,真正理解上下文并記住之前聊過的內(nèi)容。這意味著我們得到的不再只是幾條簡單粗暴的預(yù)定義回應(yīng),而是真正的關(guān)切與解答。
搜索引擎也將能夠理解您的問題,給出正確答案,而且不再糾結(jié)于您的用詞是否嚴(yán)格準(zhǔn)確。您可能還會迎來一位AI同事,它了解關(guān)于業(yè)務(wù)流程的所有知識。更重要的,如果能夠使用正確的術(shù)語,那么單靠谷歌搜索沒準(zhǔn)就能解決客戶的具體問題。連篇累牘的內(nèi)部文檔終將成為過去,留給AI模型快速瀏覽即可。
數(shù)據(jù)庫的新時代即將來臨。我們將徹底告別構(gòu)造數(shù)據(jù)的繁瑣工作——一切備忘錄、電子郵件、報告都將由AI模型自動解釋、存儲與索引。由于數(shù)據(jù)庫能夠理解人類表達(dá),您不需要求助于IT部門即可直接查詢并創(chuàng)建報告。
這一切還只是冰山一角。目前一切依賴于人類語言理解能力的流程,都有可能被自動化功能所徹底顛覆。
沒那么簡單
但這里還有個問題。既然這么出色了,為什么這些算法還沒得到普遍應(yīng)用?因為單靠云計算資源訓(xùn)練T5算法,就花掉了谷歌約130萬美元。幸運的是,谷歌研究人員慷慨地分享了這些模型。但如果要對當(dāng)前任務(wù)進(jìn)行調(diào)優(yōu),還需要額外承擔(dān)一大筆資源開銷,外加漫長的訓(xùn)練周期。
不過隨著時間的推移,企業(yè)對于調(diào)優(yōu)工作的不斷探索,相信未來會有更多應(yīng)用方案陸續(xù)涌現(xiàn)。另外,如果大家相信摩爾定律,那么五年左右之后我們就會迎來更復(fù)雜的語言AI應(yīng)用,屆時也會有新的模型全面超越T5算法。
2021年,我們距離AI技術(shù)的轉(zhuǎn)折性突破還有遙遠(yuǎn)的距離。但只要能夠邁過這道難關(guān),AI技術(shù)必將釋放出無窮的可能性。