一文看懂NLP落地難在哪兒
原創(chuàng)【51CTO.com原創(chuàng)稿件】近年來,自然語言處理技術(shù)逐漸成為應(yīng)用范圍最為廣泛的人工智能技術(shù)之一。尤其是在深度學(xué)習(xí)浪潮的推動(dòng)下,AI的這一分支取得了長足進(jìn)步。日常生活中,我們經(jīng)常接觸的搜索引擎、個(gè)性化推薦、智能音箱、機(jī)器的實(shí)時(shí)翻譯等場景,都滲透著自然語言處理技術(shù)的應(yīng)用。不過總體而言,NLP在商業(yè)化上其實(shí)受限頗多,相關(guān)產(chǎn)品基本屬于“可用”,但離實(shí)際意義上的“好用”還有較長的距離。
放眼市場,很多智能交互系統(tǒng)針對(duì)的往往是單一領(lǐng)域里某個(gè)單一任務(wù),因此應(yīng)用非常受限,要出現(xiàn)爆款產(chǎn)品還需突破技術(shù)藩籬。此外,自然語言處理技術(shù)要實(shí)現(xiàn)突破性進(jìn)展,模型的迭代和訓(xùn)練都非常燒錢,在應(yīng)用早期基本屬于頭部玩家的游戲,很難出現(xiàn)有代表性的標(biāo)桿企業(yè)。本文將從自然語言本身、多模態(tài)的學(xué)習(xí)、訓(xùn)練數(shù)據(jù)的獲取、工業(yè)化設(shè)計(jì)的要求四個(gè)方面解析NLP技術(shù)的落地難點(diǎn),希望能夠?qū)ν黄飘?dāng)前瓶頸有所啟發(fā)。
難點(diǎn)之一:自然語言是不斷進(jìn)化的
“自然語言處理”解決的是人機(jī)交流的問題,通俗來說包括兩個(gè)部分,自然語言理解(NLU)和自然語言生成(NLG)。常用的自然語言處理的方法包括分詞標(biāo)注、文本分類、關(guān)鍵詞分析、敏感用語識(shí)別、詞頻統(tǒng)計(jì)、觀點(diǎn)歸納,情感分析等。究其實(shí)質(zhì),這些方法都是在文本挖掘中進(jìn)行特征提取,從而推進(jìn)對(duì)文本的理解。
為了使計(jì)算機(jī)理解自然語言所構(gòu)建的模型被稱為語言模型。常見的自然語言模型有詞袋模型、N-Gram模型和神經(jīng)網(wǎng)絡(luò)語言模型。詞袋模型(bag of words)將每個(gè)詞視作互相獨(dú)立的符號(hào),但忽略詞序信息,顯然對(duì)語義的理解會(huì)失之粗略;N-Gram語言模型雖然考慮了詞序,但受到數(shù)據(jù)稀疏問題的影響,無法處理集外詞(out of vocabulary words);神經(jīng)網(wǎng)絡(luò)語言模型基于分布式表示,雖然能夠提高模型泛化能力,但模型訓(xùn)練時(shí)間長,而且可解釋性不夠。
一定程度上,各種自然語言模型的局限性可以說是自然語言本身的一些特性導(dǎo)致的。自然語言可以說是現(xiàn)存人類使用過的最龐雜的符號(hào)系統(tǒng),這一系統(tǒng)還隨著社會(huì)進(jìn)步不斷進(jìn)化,展現(xiàn)出了十分鮮明的個(gè)性。
多樣性:基于人類的創(chuàng)造力,語言作為一個(gè)開放的集合不斷吸收引入新的表達(dá)方式。生活中比較常見的就是舊詞新意現(xiàn)象。比如“硬核”,本來指的是朋克音樂中的一個(gè)分支,而如今在使用中基本被認(rèn)為是“很酷、很彪悍、很剛”的意思。網(wǎng)絡(luò)用語中,這種創(chuàng)新性得到了很大釋放。“真情實(shí)感”的拼音梗“zgsq”,“與你無關(guān)”的諧音梗“雨女無瓜”。這些詞語充分?jǐn)U展了語言的表意空間,但帶有極大的偶然性和隨意性,很難找到規(guī)律也缺乏足夠的數(shù)據(jù)支持,對(duì)于自然語言理解來說就是一大難度。
歧義性:語言中存在大量一詞多義的現(xiàn)象,如果不聯(lián)系上下文或者結(jié)合說話雙方的語境就很容易造成歧義??催@樣一句話:Marriage is an institution in which a man loses his bachelor's degree and the woman gets her master's ! 這句話有意思的點(diǎn)在于,其中三個(gè)單詞都有雙關(guān)義。institution既可以表示“學(xué)院”又可以表示“制度”,bachelor 既指“學(xué)士”,也指“單身”。master既指“碩士”,又指“主人”。在這個(gè)層面上看,“學(xué)院、學(xué)士、碩士”是一個(gè)體系的用詞,““制度、單身、主人”又是另一個(gè)體系。比較通順的翻譯是:婚姻是一種制度,男人不再是單身,而女人有了“主人” 。但對(duì)機(jī)器來說,要理解這種一詞多義其實(shí)是一大挑戰(zhàn)。
社會(huì)性:人類的社會(huì)生產(chǎn)和生活深刻反映在語言中,不同地區(qū)的社會(huì)形態(tài)和地域特點(diǎn)也產(chǎn)生了形態(tài)各異的語言體系。因此成長背景不同、社會(huì)經(jīng)歷不同、知識(shí)體系不同的人所運(yùn)用的語言是有其差異性的。比如7-11,有些人覺得是數(shù)字,有些人覺得是日期,有些人覺得是便利店。語言的使用不僅因人而異,在不同的場合,同一個(gè)人也會(huì)切換不同的風(fēng)格。比如公開演講和朋友聚會(huì)時(shí)用詞肯定有所區(qū)別。不考慮社會(huì)性的自然語言理解很可能差之毫厘、謬以千里。
主觀性:在中國的傳統(tǒng)文化里,“意在言外”、“弦外之音”也是很常見的表達(dá)。語言在說者口中是一個(gè)意思,但聽者可能會(huì)有很多角度和層次的解讀。在人們?nèi)粘?duì)話交流中,這種主觀性比比皆是,有時(shí)候必須結(jié)合上下文來洞察個(gè)中區(qū)別,否則就容易踩到“雷區(qū)”。比如有個(gè)鄰居跟李阿姨說:“你家小明真刻苦,每天晚上十二點(diǎn),還能聽見他練琴呢。”顯然,言外之意就是小明練琴影響鄰居休息了。
正是由于自然語言的多樣性、歧義性、社會(huì)性、主觀性等特點(diǎn),自然語言呈現(xiàn)出錯(cuò)綜復(fù)雜的圖景。目前來看,現(xiàn)有的語義表示方案只能通過特定任務(wù)下的數(shù)據(jù)進(jìn)行學(xué)習(xí),通用性和遷移性都遠(yuǎn)遠(yuǎn)不足。面對(duì)這一問題,需要研究一個(gè)相對(duì)通用的、泛化能力較強(qiáng)的語義模型。設(shè)計(jì)這類模型的前提是要解決無監(jiān)督語義學(xué)習(xí)的問題。目前NLP領(lǐng)域表現(xiàn)比較搶眼的模型有谷歌的BERT、Facebook的RoBERTa等。
難點(diǎn)之二:多模態(tài)的語義理解
基于多模態(tài)信息融合的自然語言處理是NLP領(lǐng)域的一大課題,也是很多研發(fā)團(tuán)隊(duì)主攻的方向。多模態(tài)比較通俗的理解是:多種感官、多種信息來源相融合。因?yàn)槿祟惐旧砭褪峭ㄟ^“看”、“聽”、“聞”、“觸”等感知方式相結(jié)合來理解世界的,如果機(jī)器能更“聰明”地像人一樣利用多維度信息,同時(shí)結(jié)合圖像、音頻、視頻來理解用戶意圖,那么可能更有利于解決實(shí)際場景中的需要。
基于多模態(tài)的自然語言處理技術(shù)難度主要集中在三點(diǎn):其一,語義鴻溝是普遍存在的,單模態(tài)尚且如此,多模態(tài)要融合時(shí)無疑難上加難;其二,多模態(tài)數(shù)據(jù)間存在特征異構(gòu)性,跨模態(tài)相關(guān)算法要有質(zhì)的飛躍;其三,建立多模態(tài)的數(shù)據(jù)集面臨極大地挑戰(zhàn)。
目前市面上大部分打著“多模態(tài)AI交互”旗號(hào)的產(chǎn)品,實(shí)際上還不是真正的多模態(tài)交互產(chǎn)品。操作中,不同來源的信息輸入到設(shè)備處理中心后依舊是各自分離的,實(shí)質(zhì)上還是不同的算法啟動(dòng)不同的開關(guān)。即使這個(gè)機(jī)器能“看”又能“聽”,實(shí)際上兩個(gè)功能彼此間割裂的,信息并不發(fā)生交互。
為了真正實(shí)現(xiàn)多模態(tài)的協(xié)同,近年來,“多模態(tài)深度學(xué)習(xí)”技術(shù)開始成為業(yè)界熱點(diǎn),也就是
指建立可以完成多模態(tài)學(xué)習(xí)任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。通過這一技術(shù)達(dá)成模態(tài)轉(zhuǎn)化、模態(tài)對(duì)齊、模態(tài)融合等等,讓智能體能夠理解多模態(tài)信號(hào),能夠?qū)⒁曈X、聽覺、傳感信號(hào)綜合起來統(tǒng)一“思考”。
難點(diǎn)之三:訓(xùn)練數(shù)據(jù)的匱乏
本身數(shù)據(jù)的匱乏就是NLP領(lǐng)域里一個(gè)永恒的問題,缺乏標(biāo)注數(shù)據(jù)、樣本存在大量噪聲、數(shù)據(jù)存在偏差都是很常見的現(xiàn)象。在AI研發(fā)中,算力是基礎(chǔ),算法基本開源,數(shù)據(jù)自然而然就成為了各家研究機(jī)構(gòu)和企業(yè)角力的核心。尤其是當(dāng)你需要一些特定的數(shù)據(jù)時(shí),僅僅采集數(shù)據(jù)的代價(jià)就可能超出預(yù)估。
另外,在自然語言處理領(lǐng)域,標(biāo)注數(shù)據(jù)的規(guī)模遠(yuǎn)遠(yuǎn)跟不上應(yīng)用需求,人工標(biāo)注成本極高。數(shù)據(jù)標(biāo)注,即對(duì)數(shù)據(jù)集,通過貼標(biāo)簽、做記號(hào)、標(biāo)顏色或劃重點(diǎn)的方式,來標(biāo)注出其中目標(biāo)數(shù)據(jù)的相同點(diǎn)、不同點(diǎn)或類別。有了標(biāo)注數(shù)據(jù),算法才能在基礎(chǔ)上進(jìn)行訓(xùn)練,數(shù)據(jù)標(biāo)注的質(zhì)量越高,學(xué)習(xí)結(jié)果越精確,NLP邁入實(shí)用階段的可能性越大。但是數(shù)據(jù)標(biāo)注本就是屬于做“冷板凳”的活兒,工作量大且非常枯燥,愿意做的人本來就少。而且在人工操作下,標(biāo)注的質(zhì)量確實(shí)也無法保證。
在這種情況下,成品數(shù)據(jù)庫開始變成很多人和企業(yè)的選擇。成品數(shù)據(jù)庫的優(yōu)勢(shì)是顯而易見的,成本低、效率高。數(shù)據(jù)庫并不是定制化的采集,完成后可以反復(fù)出售,因此價(jià)格肯定不會(huì)很高。再者,數(shù)據(jù)庫是拿來即用的,大大節(jié)省了研發(fā)周期,節(jié)約了人力、財(cái)力。但成品數(shù)據(jù)庫也有比較明顯的不足,那就是適應(yīng)性差。作為現(xiàn)成的工具,數(shù)據(jù)庫是不能改的,當(dāng)你的應(yīng)用場景發(fā)生了變化或者有更高的需求時(shí),成品數(shù)據(jù)庫肯定就不適配了。因此,對(duì)于起步階段的產(chǎn)品和公司來說,成品數(shù)據(jù)庫是非常實(shí)用的,但要進(jìn)階的話,肯定需要定制化的數(shù)據(jù)補(bǔ)充。
難點(diǎn)之四:實(shí)驗(yàn)室和市場之間的溝壑
NLP技術(shù)從實(shí)驗(yàn)室到市場有多遠(yuǎn)?相對(duì)學(xué)術(shù)界的訓(xùn)練模型,商用模型落地時(shí)考慮的因素通常更復(fù)雜一點(diǎn),另外在產(chǎn)品設(shè)計(jì)和產(chǎn)品體驗(yàn)方面也需要多加權(quán)衡。
首先要明確的是,優(yōu)化產(chǎn)品模型永無止境。因?yàn)橛?xùn)練模型的關(guān)注指標(biāo)和用戶想要的結(jié)果之間可能存在著一定差距。所以在實(shí)際操作過程中,不管研發(fā)階段效果多么無懈可擊,仍需要根據(jù)用戶反饋不斷調(diào)參,或者補(bǔ)充訓(xùn)練數(shù)據(jù),或者結(jié)合其他算法,來提升模型的可用性。即使在上線以后,也要根據(jù)運(yùn)營數(shù)據(jù)和用戶行為進(jìn)行模型的調(diào)優(yōu)迭代。
其此,選擇落地場景時(shí)要看到“突圍”的可能。我們可以參照一下AI界發(fā)展迅猛的人臉識(shí)別技術(shù)。這一領(lǐng)域的產(chǎn)品在目前的市場上應(yīng)用普及度相當(dāng)高,精度也有了一定的保證,覆蓋行業(yè)也在逐步拓寬。但最初在商業(yè)化方面,人臉識(shí)別是以“安防”為突破口,在這一行業(yè)將產(chǎn)品反復(fù)打磨,逐漸成熟后才開始“開疆辟土”。NLP技術(shù)除了繼續(xù)磨練硬功底以外,也需要找到類似這樣的經(jīng)典場景,在單點(diǎn)擊破后再多點(diǎn)開花。
再者,產(chǎn)品設(shè)計(jì)要更貼近用戶需求。這個(gè)需求包括實(shí)用需求和審美需求。NLP技術(shù)要大規(guī)模落地必須要讓產(chǎn)品更接近于人們?nèi)粘I畹某B(tài)。但一般來說,生活中的交流往往偏口語化,邏輯跳躍,語義多變,要建模進(jìn)行分析難度比較大,加之場景開放性大,需要足夠的常識(shí)背景輔助理解,所以在產(chǎn)品開發(fā)中必須針對(duì)這一點(diǎn)下功夫。另外,界面設(shè)計(jì)也是一個(gè)影響落地的重要因素。當(dāng)功能表現(xiàn)差不多時(shí),如果UI更勝一籌,用戶體驗(yàn)更佳,自然也可以建立起市場競爭力。
路漫漫其修遠(yuǎn)兮,吾將上下而求索
自然語言被普遍認(rèn)為是人類智慧和文明的集成,自然語言處理也因此成為皇冠上的明珠。為了不讓明珠蒙塵,我們需要跨越的問題還有很多:語義消歧、遷移學(xué)習(xí)、文摘提取、領(lǐng)域自適應(yīng)、任務(wù)導(dǎo)向型人機(jī)對(duì)話……技術(shù)的延展是沒有邊界的,當(dāng)感知智能和認(rèn)知智能繼續(xù)前行,當(dāng)圖、文、聲、象交叉融合,人機(jī)無障礙交流的群像自然會(huì)徐徐鋪開,延伸到繁花與荊棘交纏的無盡未來。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】