自然語言處理技術(shù)在商業(yè)領(lǐng)域可以支持哪些應(yīng)用?
譯文【51CTO.com快譯】人工智能和機(jī)器學(xué)習(xí)技術(shù)在很多領(lǐng)域已經(jīng)取得了重大進(jìn)展。就某些任務(wù)而言,人工智能已經(jīng)超越了人類的水平。在這波新的 AI 浪潮中,圖像識(shí)別和語音處理技術(shù)方面的突破給人的印象最深刻。相比較它們而言,自然語言處理 (NLP) 領(lǐng)域的進(jìn)展卻給我們一種很滯后的感覺。
NLP 領(lǐng)域中目前比較突出的一點(diǎn)是機(jī)器翻譯(MT)技術(shù):最近的基于神經(jīng)網(wǎng)絡(luò)的方法明顯優(yōu)于傳統(tǒng)的機(jī)器翻譯方法。但有人認(rèn)為,端到端的神經(jīng)網(wǎng)絡(luò)方法并不真正“理解”所處理的自然語言的含義。雖然我們可能會(huì)討論什么是“理解”,但機(jī)器翻譯的質(zhì)量,尤其是長句的質(zhì)量,確實(shí)還有很大的提升空間。
與此同時(shí),很多人對(duì) NLP 技術(shù)如何推動(dòng)各種新舊業(yè)務(wù)的發(fā)展抱有很大的熱情。我有一位非常聰明的炒股朋友,想知道 NLP 技術(shù)是否可以幫助他閱讀財(cái)經(jīng)新聞并提供貿(mào)易前景的建議,以便擴(kuò)大他的貿(mào)易規(guī)模。我的另一位朋友正在探尋制作聊天機(jī)器人的方法,他想讓這種機(jī)器人有足夠的知識(shí)與患者交談并進(jìn)行醫(yī)學(xué)診斷。還有一位朋友,他希望創(chuàng)建一個(gè)可以百分百信任的私人助理,每個(gè)人都可以與它分享自己的全部想法,這樣它可以為每個(gè)人提供一些私人的生活建議,讓用戶感覺更快樂,生活更積極。我們距離實(shí)現(xiàn)這些愿景還有多遠(yuǎn)呢?
NLP:The State-of-the-Art
在深度學(xué)習(xí)浪潮到來之前,傳統(tǒng)的 NLP 任務(wù),如詞性標(biāo)注 (POS tagging),句法分析 (syntactic parsing),實(shí)體鏈接 (entity linking),語義分析 (semantic parsing) 等任務(wù)一直在緩慢而穩(wěn)步地發(fā)展著。概括來說,這些任務(wù)都是文本標(biāo)注的任務(wù),可以用下面的圖片形象地描繪出來。
用深度學(xué)習(xí)的方法來處理這些任務(wù)并不一定能得到更好的效果,但深度學(xué)習(xí)能讓這些事情變得更加簡單。例如,以前,為了訓(xùn)練一個(gè)解析器,我們需要構(gòu)建數(shù)百萬個(gè)特征,現(xiàn)在我們可以從 word embeddings 開始,而將剩下的部分留給神經(jīng)網(wǎng)絡(luò)去做。
是什么讓 NLP 變得與眾不同和如此困難,為什么深度學(xué)習(xí)能為圖像識(shí)別和語音處理任務(wù)帶來顯著的改進(jìn),卻對(duì) NLP 任務(wù)沒有太大幫助?這里有兩個(gè)因素對(duì)于理解自然語言非常重要:先驗(yàn)和結(jié)構(gòu)。
2011 年,Tenenbaum 等人提出了一個(gè)非常有趣的問題:我們的大腦是怎樣從少量的知識(shí)中獲取到大量的信息的?我們的大腦構(gòu)建了非常豐富的世界模型,并且對(duì)輸入數(shù)據(jù)進(jìn)行了高度的概括,這些輸入數(shù)據(jù)可能是稀疏的,嘈雜的和模棱兩可的————這些信息在很多方面都遠(yuǎn)遠(yuǎn)不能支持我們所做的推論。那我們究竟是怎么做到的呢?
Tenenbaum 等人給出了令人信服的答案:貝葉斯推斷。貝葉斯推斷允許一個(gè)三歲的孩子在看到三匹馬的圖片后學(xué)會(huì)馬的概念。但是這種推斷可能依賴于經(jīng)過億萬年地進(jìn)化而悄悄植入我們大腦中先天的先驗(yàn)知識(shí)。
但是機(jī)器卻難以獲得這些用于貝葉斯推斷的正確先驗(yàn)知識(shí)。以下是一個(gè)簡單的例子(盡管不完全相關(guān)):搜索“Jordan 7 day weather forecast”,我們?nèi)绾未_定“Jordan”指的是什么?人類能立即知道它指的是國家“Jordan”。但一個(gè)不理解查詢語句結(jié)構(gòu)的簡單算法可能會(huì)將“Jordan”誤認(rèn)為是“Jordan 鞋”(一種 Nike 品牌)。
這可能是由于它在貝葉斯推斷中使用的先驗(yàn)是通過計(jì)算人們?cè)诰W(wǎng)上搜索喬丹鞋與約旦這個(gè)國家的頻率來估計(jì)的。這個(gè)估計(jì)是有偏差的,在我們當(dāng)前的情況下尤其如此:事實(shí)證明前者比后者的搜索頻率更高。有偏差的先驗(yàn)會(huì)導(dǎo)致錯(cuò)誤的推斷結(jié)果。我們是否應(yīng)該用更復(fù)雜的方式來估計(jì)先驗(yàn)?當(dāng)然。但是不能保證在所有情況下都采用更復(fù)雜的方法。
先驗(yàn)很重要,但更重要的是自然語言展現(xiàn)的遞歸結(jié)構(gòu)。查詢語句“jordan 7 day weather forecast”具有可以被映射到具有位置參數(shù)(時(shí)隙)和時(shí)間跨度參數(shù)(時(shí)隙)的“天氣預(yù)報(bào)”語義幀的結(jié)構(gòu)。如果算法識(shí)別到這種結(jié)構(gòu),那么它不會(huì)受到先驗(yàn)知識(shí)的困擾,而將 Jordan 誤認(rèn)為是喬丹鞋。這種方法可以更進(jìn)一步地理解這個(gè)查詢語句。
在最先進(jìn)的網(wǎng)頁搜索和問答/會(huì)話應(yīng)用程序中,工程師會(huì)寫一些規(guī)則用于捕捉自然語言輸入中的結(jié)構(gòu),這會(huì)大大減少推理中的錯(cuò)誤。但問題是,概括和擴(kuò)展這種解決方案是很困難的。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)促進(jìn)了自然語言處理中分布式方法的使用。
通過 word2vec 和 GloVe 等詞嵌入(word embeddings) 方法,可以將自然語言中的離散詞語映射到連續(xù)的空間中。在這個(gè)空間中,“貓”與 “狗”兩個(gè)詞很接近,這使得我們可以概括出我們?yōu)?ldquo;貓”和“狗”總結(jié)的結(jié)論。然而,分布式方法和先驗(yàn)和結(jié)構(gòu)的必要性并不沖突。事實(shí)上,我們沒有比單詞更好的表示語句的方法,比如用短語、句子或者是段落等其他表示方法,原因僅僅是我們不知道如何有效地去建模它們的結(jié)構(gòu)。此外,我們沒有很好的方法去表示知識(shí)和常識(shí),而這是解釋和推理不可或缺的兩樣?xùn)|西。
也許深度學(xué)習(xí)在圖像處理中更成功的原因是因?yàn)閳D像中的“結(jié)構(gòu)”更易于捕捉:允許平移不變性的卷積神經(jīng)網(wǎng)絡(luò)(CNN)符合要求。然而,對(duì)自然語言做同樣的事卻難得多。因此,我們沒有看到 NLP 的突破,除了在少數(shù)幾個(gè)孤立的領(lǐng)域中,我們碰巧有大量的訓(xùn)練數(shù)據(jù)可以隱式地學(xué)習(xí)先驗(yàn)和結(jié)構(gòu)(例如,Google 使用數(shù)十億的歷史搜索來訓(xùn)練 RankBrain 進(jìn)行搜索結(jié)果排序)。
NLP 技術(shù)很薄弱,在機(jī)器可以處理自然語言的開放域通信之前還有很長的路要走。但是在我們最終到達(dá)那里之前,現(xiàn)有的 NLP 技術(shù)如何幫助我們?cè)谏虡I(yè)領(lǐng)域中更進(jìn)一步呢?
The power of aggregation
NLP 在許多應(yīng)用中已經(jīng)發(fā)揮著關(guān)鍵作用。但都使用了一個(gè)小伎倆。通常,在這些應(yīng)用程序中,我們不依賴于 NLP 來理解自然語言中單個(gè)話語的含義。相反,我們使用 NLP 技術(shù)處理大型語料庫,并匯總其結(jié)果以支持應(yīng)用程序。
- 情感分析。特別是面向特定領(lǐng)域的情感分析,是評(píng)估企業(yè)和產(chǎn)品的有用工具。它對(duì)大量的用戶評(píng)論語料進(jìn)行信息提取,并向企業(yè)和產(chǎn)品輸出綜合情緒或意見。但是如果我們更深入地了解這項(xiàng)技術(shù),我們會(huì)看到它的缺陷:我們有時(shí)無法衡量情緒,因?yàn)槲覀儾涣私庾匀徽Z言的特定表達(dá)。例如,“the phone fits nicely in my pocket(這部手機(jī)與我的口袋很相稱)”是對(duì)手機(jī)尺寸的積極情緒,但要自動(dòng)將“fits nicely in my pocket”與“size”聯(lián)系起來并不容易。
- 摘要。有兩種類型的文本摘要:抽取和抽象??偨Y(jié)一篇文章,抽取的方法是在文章中選擇幾個(gè)句子,而抽象的方法則是產(chǎn)生新的句子。抽取的方法使用純粹的統(tǒng)計(jì)方法,例如,它通過研究句子間的共享單詞和主題來創(chuàng)建兩個(gè)句子之間的聯(lián)系。但這種方法一直無法產(chǎn)生好的結(jié)果,直到最近幾年深度學(xué)習(xí)可以派上用場(chǎng)。但即便使用了深度學(xué)習(xí)(例如,最近的工作有使用 sequence to sequence translation, attention mechanism, copy mechanism, coverage mechanism 等),摘要的質(zhì)量仍然達(dá)不到產(chǎn)品級(jí)別。那么,這項(xiàng)技術(shù)何時(shí)可以幫助我的朋友來閱讀財(cái)經(jīng)新聞并提供貿(mào)易建議呢?至少目前的方法需要多做些額外的工作,例如通過在摘要中考慮明確的目標(biāo)(例如提供貿(mào)易建議)。
- 知識(shí)庫。知識(shí)庫構(gòu)建是另一個(gè)依賴信息提?。↖E)聚合結(jié)果的領(lǐng)域。它還展示了聚合的優(yōu)勢(shì)和弱點(diǎn):為創(chuàng)建一個(gè)更完整的知識(shí)庫而付出的努力并不是非常成功,因?yàn)?
- – i)通過聚合大語料庫的信息抽取結(jié)果而獲得大部分開放域的知識(shí),通常已經(jīng)被 Freebase 或其他人工庫涵蓋了。
- – ii)從個(gè)人的話語中獲得的知識(shí)通常是不可靠的。
盡管如此,特定領(lǐng)域的知識(shí)庫依然可能會(huì)在商業(yè)領(lǐng)域發(fā)揮巨大作用。以兩個(gè)重要行業(yè)為例:電子商務(wù)和醫(yī)療保健。在電子商務(wù)網(wǎng)站上,用戶可以通過名稱或功能搜索產(chǎn)品,但他們不支持諸如“how to fight insomnia(如何與失眠做斗爭)”或“how to get rid of raccoons(如何擺脫浣熊)”等這樣的查詢,盡管他們有很多適用這類情況的產(chǎn)品出售。他們需要的是將任何名詞短語或動(dòng)詞短語映射到產(chǎn)品列表的知識(shí)庫。醫(yī)療保健領(lǐng)域也有類似的情況。我們需要一個(gè)能夠連接癥狀、環(huán)境、治療手段和藥物的知識(shí)庫。
- 搜索。許多人認(rèn)為搜索問題已經(jīng)解決。不是的。搜索依賴于搜集的用戶行為數(shù)據(jù),這意味著搜索主要在頭查詢時(shí)效果很好。但在網(wǎng)頁搜索以外的情景中,即使是頭查詢目前效果也并不好。
考慮一下這個(gè)問題:在 Facebook 上搜索“travel in Arizona(在亞利桑那州旅行)”。我的一位朋友在我的查詢前四個(gè)小時(shí)發(fā)了相關(guān)帖子,這本是一個(gè)完美的匹配。但是,在搜索時(shí)看到這篇文章是非常困難的,因?yàn)橛脩粜袨閿?shù)據(jù)還沒有導(dǎo)入它。
因此,對(duì)于社交搜索、電子郵件搜索、電子商務(wù)搜索、應(yīng)用搜索等,NLP 和語義匹配仍然扮演著重要角色。具體而言,在只有有限甚至是沒有用戶行為數(shù)據(jù)的情況下,知識(shí)圖、實(shí)體鏈接、語義分析技術(shù)可以更好地服務(wù)于搜索。
- 教育。一個(gè)非常有趣和有利可圖的業(yè)務(wù)是幫助用戶更有效地學(xué)習(xí)或使用一種語言。例如,幾個(gè)初創(chuàng)公司(例如,Grammarly,DeepGrammar 等)提供工具來糾正用戶的語法錯(cuò)誤。在高層次上,這是相當(dāng)可行的,因?yàn)樗惴☉?yīng)該能夠通過大型語料庫的離線學(xué)習(xí)獲得足夠的語法知識(shí)。這應(yīng)該使他們能夠捕捉文本中的大部分錯(cuò)誤,而不必理解文本的含義。但是,還有很多需要改進(jìn)的空間。例如,給出“I woke at 4 am in morning”的時(shí)候,Grammarly 或 DeepGrammar 都沒有建議將“woke”改為“woke up”或者將“in morning”改為“in the morning”。DeepGrammar 實(shí)際上建議將“woke” 改為“work”,這當(dāng)然是沒有意義的。當(dāng)然,識(shí)別某些錯(cuò)誤需要語義知識(shí),例如,這些工具何時(shí)能夠建議在下面的文字中“I woke up at 4 pm in the morning”,將“pm”改為“am”?
A little technical breakthrough plus a lot of dirty work
我們喜歡想象漂亮的 NLP 解決方案,但其中很多都是通用人工智能(Artificial General Intelligence, AGI),因?yàn)樗麄冃枰幚硭锌赡艿膱?chǎng)景。通用人工智能不會(huì)很快出現(xiàn)。盡管如此,技術(shù)突破仍然時(shí)刻在發(fā)生。有時(shí)候,只需要人工額外做一點(diǎn)苦活,我們就可以將它們變成商業(yè)上的成功。
自動(dòng)問答(QA)和聊天機(jī)器人現(xiàn)在已并不新鮮 — 第一個(gè)聊天機(jī)器人是在 60 年代開發(fā)的(ELIZA,1966),但它并沒有走得太遠(yuǎn)。50 年過去了,是什么讓 QA 和聊天機(jī)器人又變得如此火爆?發(fā)生了三件事:
1.(技術(shù))語音識(shí)別的突破,使得 Alexa,Google Assistant,Siri 成為可能; 大型知識(shí)庫的可用性,特別是開放領(lǐng)域的知識(shí)庫,如 Google 的知識(shí)圖譜。
2.(市場(chǎng))信息已經(jīng)成為商業(yè)和日常生活中不可或缺的元素,最近聰明的語音助手突然無處不在。
3.(實(shí)用性)人們已經(jīng)準(zhǔn)備好從關(guān)鍵字搜索切換到基于語音/自然語言的界面,以更直接的方式獲得更具體的答案。但技術(shù)突破 - 語音識(shí)別和知識(shí)庫 - 不會(huì)自動(dòng)導(dǎo)致問答系統(tǒng)的產(chǎn)生。我們?nèi)匀恍枰斫鈫栴},解釋和推理問題,但在過去的 50 年中,這種能力并沒有根本的改善。
盡管如此,QA 非常成功,我們都在 Google 上體驗(yàn)過。(它仍然犯了錯(cuò)誤,下文中,谷歌將婆婆錯(cuò)認(rèn)為是它創(chuàng)始人的母親,截圖產(chǎn)生于 2017 年 7 月)。只是成功不是來自于自然語言理解的新水平,相反,它是通過大量手工模板實(shí)現(xiàn)的。
這里我們觀察到一些現(xiàn)象。
1. 技術(shù)的進(jìn)步在很大程度上推動(dòng)著產(chǎn)品的影響力。因此,我們知道技術(shù)的局限性至關(guān)重要:畢竟,半個(gè)多世紀(jì)以來,問答系統(tǒng)和聊天機(jī)器人并沒有多少大事件發(fā)生。
2. 通常新技術(shù)并不能解決 100%的問題,但沒關(guān)系。我們很樂意去做一些苦活(例如,手工制作模板和寫規(guī)則等)以彌補(bǔ)技術(shù)上的不足。在很大程度上,QA 和數(shù)字助理(如 Siri,Alexa,Google Assistant 和 Cortana)的成功是由手工模板驅(qū)動(dòng)的。
但是最新的會(huì)話式 AI(例如,使用深度強(qiáng)化學(xué)習(xí)來構(gòu)建聊天機(jī)器人)怎么樣呢?它是使聊天機(jī)器人如此熱的動(dòng)力之一嗎?是,但它尚未產(chǎn)生真正的影響。在這里,我專注于以目標(biāo)為導(dǎo)向的對(duì)話系統(tǒng)(Siri,Alexa,Google Assistant),盡管我承認(rèn)漫無目標(biāo)的 smalltalk(Microsoft Tay) 可能會(huì)有趣。但我們應(yīng)該不斷研究技術(shù)進(jìn)步和應(yīng)用需求的交集,而不是回避使用低技術(shù)含量的苦活來實(shí)現(xiàn)目標(biāo)。
Narrowing the problem domain
讓我們重新審視我之前提到的朋友們的項(xiàng)目:
1. 與病人交談并進(jìn)行醫(yī)學(xué)診斷的聊天機(jī)器人。
2. 一種讀取財(cái)經(jīng)新聞并提供貿(mào)易建議的算法。
3. 個(gè)人助理,記錄你的日?;顒?dòng),并提供建議,讓你更快樂,更充實(shí)。
必勝客部署了一個(gè)聊天機(jī)器人來處理客戶的訂單,這非常成功。Facebook 的虛擬助理 M 已經(jīng)死了,因?yàn)?Facebook 沒有對(duì) M 能做或不能做的事施加限制。在討論朋友項(xiàng)目的可行性之前,讓我們重新回顧一下微軟 AI 總裁 Harry Shum 的這句話:
今天的電腦可以很好地執(zhí)行特定的任務(wù),但是當(dāng)涉及到一般任務(wù)時(shí),AI 甚至還無法與人類孩子競(jìng)爭。
- Harry Shum
斯坦福大學(xué)教授 Andrew Ng 的這句引述:
今天深度學(xué)習(xí)只能在一些可以獲得大量數(shù)據(jù)的狹小的領(lǐng)域內(nèi)發(fā)揮價(jià)值。下面是一個(gè)它不能做的事情的例子:進(jìn)行一次有意義的對(duì)話。在相關(guān)的 demo 中,如果你精心挑選對(duì)話,那么看起來它像是一個(gè)有意義的對(duì)話。但如果你實(shí)際去使用一下那些產(chǎn)品,它們通常會(huì)很快不知所云。
- Andrew Ng
當(dāng)談到讓機(jī)器人進(jìn)行醫(yī)學(xué)診斷時(shí),人們自然會(huì)產(chǎn)生很多懷疑和擔(dān)憂。但從技術(shù)上講,這并非不可能。要解決狹窄領(lǐng)域的問題,首要任務(wù)就是開發(fā)特定領(lǐng)域的知識(shí)庫,使我們的機(jī)器人成為領(lǐng)域的專家。
在這種情況下,我們需要模擬癥狀、病情、診斷、治療、藥物等之間關(guān)系的知識(shí)圖表。無論如何,人們都會(huì)收到非醫(yī)療機(jī)構(gòu)的健康建議:每 20 個(gè)谷歌搜索中就有一個(gè)與健康相關(guān)的信息搜索。聊天機(jī)器人僅提供比網(wǎng)絡(luò)搜索更直接的通信形式。另一方面,這個(gè)項(xiàng)目的真正難點(diǎn)可能是如何訪問用戶的病歷。事實(shí)上,一些初創(chuàng)公司(例如 doc.ai 和 eHealth First)已經(jīng)投資使用區(qū)塊鏈技術(shù)來解決這個(gè)問題。
閱讀金融新聞并提供貿(mào)易前景的任務(wù)涉及一個(gè)更廣泛的領(lǐng)域,因?yàn)楣善眱r(jià)格受到無數(shù)因素的影響:自然因素、政治因素,科學(xué)因素,技術(shù)因素,心理因素等等。了解某些事件如何導(dǎo)致股票價(jià)格變動(dòng)是困難的。但是,縮小這些領(lǐng)域并為他們開發(fā)專門的工具是可能的。
例如,我們可能并非監(jiān)測(cè)廣泛的股市,而是專注于商品期貨。然后,我們?cè)俅伍_發(fā)知識(shí)庫,其中可能包含如下規(guī)則:“如果像智利這樣的國家出現(xiàn)政治動(dòng)蕩或自然災(zāi)害,銅的價(jià)格會(huì)上漲”。最后,我們可以開發(fā)算法來讀取新聞和檢測(cè)某些國家的政治動(dòng)蕩或自然災(zāi)害的事件。由于機(jī)器讀新聞的速度遠(yuǎn)比人類快,它們提供的信息可能轉(zhuǎn)化為算法交易的優(yōu)勢(shì)。
創(chuàng)建個(gè)人助理是一個(gè)非常有趣的想法,個(gè)人助理可以記錄用戶的日常思考和活動(dòng),并提供反饋,讓用戶更快樂,更滿意。這讓我想起 Google Photos。Google 會(huì)不時(shí)挑選一些舊照片來創(chuàng)建一個(gè)標(biāo)題,例如“Rediscover this day 4 years ago(重新發(fā)現(xiàn) 4 年前的今天)”這樣的標(biāo)題。它從來都可以讓我笑容滿面。盡管如此,照片只能捕捉人們一生的一瞬間,而自然語言有可能以更全面的方式保存我們的想法和活動(dòng),并以更有創(chuàng)意的方式回放給用戶。
然而,這是一個(gè)開放的領(lǐng)域任務(wù):個(gè)人助理需要了解各種思想和活動(dòng),這使得它成為通用人工智能(AGI)。是否有可能縮小問題域?
我們?yōu)槭裁床粡?1000 個(gè)模板開始?1000 個(gè)模板將涵蓋令人驚訝的許多人類活動(dòng)(例如,“我今天在斯坦福大學(xué)校園跑步 3 英里”和“我在帕洛阿爾托市中心的哈納斯與阿隆喝咖啡”等),這是相當(dāng)合理的。私人助理會(huì)將我們生活中的片段轉(zhuǎn)化為結(jié)構(gòu)化的表示,對(duì)它們進(jìn)行分類,聚合,然后以一種新的形式將它們呈現(xiàn)給我們。
盡管如此,還有一些私人助理無法理解的東西。例如,“我的岳父昨天去世了。我的妻子和我整晚都擁抱在一起聊天。“它可能不適合我們手工制作的 1000 個(gè)日常生活類模板中的任何一個(gè)。盡管如此,私人助理不應(yīng)該錯(cuò)過這個(gè)人一生中的重要事件。
私人助理可以做幾件事情。首先,使用預(yù)先訓(xùn)練的分類器,它可以將事件分類并歸檔為失去親人。其次,它可以使用語義分析或槽填充機(jī)制來進(jìn)一步檢測(cè)誰去世。第三,當(dāng)上述工作都不奏效時(shí),它仍然可能將其記錄為原始文本,并等待未來的先進(jìn)技術(shù)去解決它。
Pushing technical boundaries
現(xiàn)有的 NLP 技術(shù)不足以理解自然語言; 通用人工智能沒有實(shí)現(xiàn),至少不會(huì)很快實(shí)現(xiàn)。這是否意味著產(chǎn)生商業(yè)影響的唯一途徑是通過縮小問題范圍來達(dá)到我們可以使用勞動(dòng)密集型技術(shù)來涵蓋所有情況的程度?當(dāng)然不是。
推動(dòng)技術(shù)邊界的方法有很多種。在這里,我將討論我們正在研究的兩個(gè)方向。
如果現(xiàn)在的自然語言處理技術(shù)不允許我們深入理解自然語言,那么是不是可以試著擴(kuò)展它?
作為一個(gè)例子,讓我們考慮 QA 和 chatbots 的客戶服務(wù)??蛻舴?wù)是 NLP 和 AI 發(fā)展的前沿。它不需要我們特別深入地理解自然語言。如果我們的技術(shù)能夠處理 30%的客戶互動(dòng),企業(yè)就可以節(jié)省 30%的人力,這非常重要。因此,許多公司正在部署自己的 QA 或聊天機(jī)器人的解決方案,并且已經(jīng)取得不同程度的成功。
曾經(jīng)有一段時(shí)間(20 世紀(jì) 70 年代以前),每個(gè)企業(yè)都需要以自己的方式管理某種數(shù)據(jù)存儲(chǔ)(例如,保留工資記錄)。然后是關(guān)系數(shù)據(jù)庫管理系統(tǒng),它宣稱無論您運(yùn)行什么業(yè)務(wù),關(guān)系數(shù)據(jù)庫管理系統(tǒng)都可以以聲明的方式為您處理工資單和其他應(yīng)用程序,這意味著無需編寫代碼以進(jìn)行數(shù)據(jù)操作和檢索。
是否有可能為客戶服務(wù)建立一個(gè)通用的會(huì)話式 AI?換句話說,為一個(gè)企業(yè)設(shè)計(jì)的客戶服務(wù)系統(tǒng)用于不同的業(yè)務(wù)需要做些什么?
這可能聽起來很牽強(qiáng),但并非完全不可能。首先,我們需要統(tǒng)一用于客戶服務(wù)的后端數(shù)據(jù)模型。這是可行的,因?yàn)榇蠖鄶?shù)業(yè)務(wù)數(shù)據(jù)已經(jīng)在關(guān)系數(shù)據(jù)庫中。其次,我們將客戶的自然語言問題轉(zhuǎn)換為針對(duì)底層數(shù)據(jù)庫的 SQL 查詢。
這是否意味著我們需要處理所有情況下的自然語言問題?不是的。我們只處理一小部分自然語言,也就是說,那些可以轉(zhuǎn)換為 SQL 語句的部分。在這種約束下,一個(gè)業(yè)務(wù)領(lǐng)域中的自然語言問題必須與不同業(yè)務(wù)領(lǐng)域中的自然語言問題類似,因?yàn)樗麄児蚕硐嗤臐撛诮Y(jié)構(gòu)。事實(shí)上,如果我們將 i)數(shù)據(jù)庫模式,ii)數(shù)據(jù)庫統(tǒng)計(jì)數(shù)據(jù),以及 iii)在自然語言中提及數(shù)據(jù)庫屬性和值的等效方法作為可注入 QA 和會(huì)話 AI 的元數(shù)據(jù),則可以創(chuàng)建一個(gè)系統(tǒng)滿足不同的客戶服務(wù)需求。
如果缺乏訓(xùn)練數(shù)據(jù)是 NLP 的瓶頸,那么為什么不努力將明確的領(lǐng)域知識(shí)注入機(jī)器學(xué)習(xí)算法?
這并不是什么新鮮事,但問題是實(shí)際存在的。機(jī)器學(xué)習(xí)將大量訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)相關(guān)數(shù)據(jù)轉(zhuǎn)化為隱式知識(shí)。但有時(shí)候,這些知識(shí)可以用明確的方式注入機(jī)器學(xué)習(xí)中。
舉個(gè)例子,假設(shè)一個(gè)知識(shí)庫有一個(gè)父母關(guān)系,但不是祖父母關(guān)系。學(xué)習(xí) grandparentOf 等同于 parentOf(parentOf)需要大量的訓(xùn)練數(shù)據(jù)。更有效的方法是將該領(lǐng)域知識(shí)作為規(guī)則傳遞給機(jī)器學(xué)習(xí)算法。
在我們上面描述的客戶服務(wù)項(xiàng)目中,我們使用深度學(xué)習(xí)(基于 seq2seq 的模型)將自然語言問題轉(zhuǎn)換為 SQL 語句。從訓(xùn)練數(shù)據(jù)中,算法學(xué)習(xí)自然語言問題的含義以及 SQL 的語法。盡管如此,即使擁有非常大的訓(xùn)練數(shù)據(jù),學(xué)習(xí)模型并不總是生成格式良好的 SQL 語句,但是模型不應(yīng)該需要學(xué)習(xí) SQL 的語法!
原文標(biāo)題:Getting NLP Ready for Business,作者:Haixun Wang
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】