自然語言處理NLP開發(fā)有哪些值得關(guān)注的開源工具?
智能語音助理、聊天機(jī)器人是時下人工智能的熱點(diǎn)和突破口,但是并非每家公司都具備谷歌、Facebook、亞馬遜、蘋果等公司的經(jīng)濟(jì)和技術(shù)實(shí)力來開發(fā)NLP應(yīng)用,尤其是難度最大的會話型NLP應(yīng)用。
所幸,目前NLP的開源技術(shù)已經(jīng)足夠強(qiáng)大,您可以輕松地“在巨人的肩膀上”,只需一個小型的專業(yè)團(tuán)隊(duì),借助合適的平臺方法就能開發(fā)出令人驚嘆的,行之有效的NLP應(yīng)用程序。
下表概述了當(dāng)下一些值得研究的開源工具:
其次,即使有如此豐盛的精品技術(shù)資源觸手可及,開發(fā)一個前端NLP(一個“會話”,這是大多數(shù)人在想到人工智能時所想到的)仍然需要遠(yuǎn)見和堅(jiān)持。因?yàn)樵谀吹揭恍└呒壒δ艿幕貓笾?,它往往需要大量的前期投資。
后端NLP更容易,并提供更直接的投資回報率
基于NLP的業(yè)務(wù)改進(jìn)不一定需要具有會話前端。后端驅(qū)動或語言分析項(xiàng)目通常是在短期內(nèi)使用NLP見效最快,成本效益最好,最高回報的方式。此類項(xiàng)目的開發(fā)往往只需要兩到三人的團(tuán)隊(duì),在幾個月內(nèi)完成。
Cloudera機(jī)器學(xué)習(xí)總經(jīng)理Hilary Mason在最近的Strata會議的主題演講中展示了后端NLP的一個很好的例子。Mason解釋了Cloudera如何使用NLP降低其呼叫中心成本并提高客戶滿意度。他們從呼叫中心采集了記錄呼叫的統(tǒng)計樣本,并將其轉(zhuǎn)錄為文本。他們對該語料庫進(jìn)行了文本分析,尋求與特定問題和問題解決步驟相關(guān)的語音模式。然后,他們將基于此分析結(jié)果的預(yù)測模型部署到其呼叫中心系統(tǒng)中。當(dāng)客戶打電話時,基礎(chǔ)算法識別出語音模式,并在客戶與客戶交談時主動向客戶服務(wù)代表推薦可能的解決方案。
會話型NLP成本更高,需要戰(zhàn)略情懷和長線投入
如果你致力于會話式NLP(或AI),希望機(jī)器與人類的交互能夠達(dá)到人類之間的那種流暢和模糊性,這在技術(shù)上具有極大的挑戰(zhàn)性,成本也很高。我們不是在聊聊天機(jī)器人,聊天機(jī)器人其實(shí)是一個非常簡單的程序,可以跟蹤特定任務(wù)的相對結(jié)構(gòu)化的對話,并處于某些預(yù)定義的環(huán)境,如Facebook Messenger。而會話AI是完全不同的,與Alexa類似,它們無處不在(它們隨處可見),可以處理多個應(yīng)用程序(也稱為意圖),并且可以處理各種響應(yīng)。他們還可以迅速切換場景 – 比如從提供有關(guān)今天天氣的信息到預(yù)訂餐廳。
目前已經(jīng)存在多個開源平臺(上圖),允許您的團(tuán)隊(duì)在合理的時間范圍內(nèi)構(gòu)建功能性(可能算不上完善)的AI,并且成本可以提供正回報。像蘋果,谷歌,微軟和亞馬遜這樣的公司每年都投入了數(shù)億美元,并將地球上一些最聰明的博士投入到先進(jìn)的NLP接口中。而這些開源庫使普通公司和團(tuán)隊(duì)也能憑借3-4人的團(tuán)隊(duì),用大約一年時間開發(fā)出簡單會話AI的基礎(chǔ)平臺,總計投入約為500,000美元。這些早期平臺具有一些簡單的場景對話能力,但不會預(yù)先分析用戶(這需要具備安全系統(tǒng)的接口),并且沒有先前用戶會話的記憶。以此平臺為起點(diǎn),每開發(fā)一個新的,簡單的場景對話的成本約1萬美元。
企業(yè)應(yīng)當(dāng)將會話型NLP的基礎(chǔ)平臺作為一種長線投資,每一個新增的會話功能都會攤薄整體平臺的成本。例如,允許人們對丟失/遺忘的密碼或其他簡單的IT問題進(jìn)行自助服務(wù)可以節(jié)省每年至少一個IT運(yùn)維人員的成本。通過在Excel中使用IRR功能的一些快速計算,并假設(shè)該角色每年花費(fèi)100,000美元,快速計算該“復(fù)雜”應(yīng)用程序的單年ROI約為260%,這顯然值得做。成本只是我們用于確定會話功能開發(fā)優(yōu)先級的一個因素,對于一些重要戰(zhàn)略意義的會話功能,有時我們甚至應(yīng)當(dāng)在沒有明確的,或極高的投資回報率的情況下進(jìn)行投資。