2020全球NLP行業(yè)報(bào)告:NLP技術(shù)預(yù)算增長高達(dá)30%
2020年對于公共衛(wèi)生、職業(yè)生活、經(jīng)濟(jì)以及日常生活的幾乎所有其他方面來說,都是獨(dú)一無二的一年。雖然一些機(jī)會正在消失,另一些則正在轉(zhuǎn)變其商業(yè)模式,罕見沒有受到?jīng)_擊的企業(yè)。盡管如此,還是有一些行業(yè)正在蓬勃發(fā)展,不僅僅是虛擬會議或醫(yī)療保健。
自然語言處理(NLP)就是其中一個領(lǐng)域。事實(shí)上,根據(jù)MarketsandMarkets™的研究,NLP市場規(guī)模預(yù)計(jì)將從2019年的102億美元增長到2024年的264億美元。使用用例在醫(yī)療保健環(huán)境中幫助患者和從業(yè)者,簡化客戶服務(wù)查詢,甚至虛擬幫助購物者,有幾個增長因素推動了NLP技術(shù)的增長。無論你是新手還是有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家,NLP都能幫助用戶更快、更聰明、更準(zhǔn)確地工作。
要想了解NLP在未來幾年的發(fā)展?fàn)顩r,我們首先需要了解NLP現(xiàn)在的狀況——從挑戰(zhàn)、成功、最普遍的使用案例等方面。為此,John Snow實(shí)驗(yàn)室與Gradient Flow合作,最近發(fā)布了新的研究報(bào)告,探討了NLP在不同行業(yè)、不同地域、不同應(yīng)用水平的使用情況。知識就是力量,這項(xiàng)調(diào)查的目標(biāo)是通過了解組織如何使用NLP技術(shù),幫助IT領(lǐng)導(dǎo)者實(shí)現(xiàn)NLP的全部潛力。
這項(xiàng)全球調(diào)查詢問了來自50多個國家的近600名受訪者,全面了解了2020年NLP的采用和實(shí)施狀況。下面的關(guān)鍵調(diào)查結(jié)果將有助于為行業(yè)樹立一個基準(zhǔn),并預(yù)測我們在未來一年內(nèi)NLP的發(fā)展方向。
NLP支出正在上升:盡管今年IT支出不景氣,但有趣的是,NLP預(yù)算全面增加,報(bào)告的NLP技術(shù)預(yù)算比去年增加了10-30%??紤]到該調(diào)查是在全球COVID-19大流行的高峰期進(jìn)行的,而當(dāng)時(shí)全球的IT支出都在下降,這一點(diǎn)尤其重要(Gartner)。53%的受訪者是技術(shù)領(lǐng)導(dǎo)者,他們表示他們的NLP預(yù)算與2019年相比至少增加了10%,其中31%的受訪者表示他們的預(yù)算比前一年至少增加了30%。同樣的趨勢也適用于大公司(員工人數(shù)超過5000人的公司),其中61%的受訪者表示2020年的預(yù)算會增加。
云計(jì)算的使用帶來了挑戰(zhàn)。77%的受訪者表示,他們至少使用列出的四種NLP云服務(wù)中的一種——谷歌、AWS、Azure或IBM。盡管基于云的服務(wù)很受歡迎,但受訪者認(rèn)為成本是他們在使用NLP云服務(wù)時(shí)面臨的主要挑戰(zhàn)。此外,人們還擔(dān)心可擴(kuò)展性,因?yàn)樵S多NLP應(yīng)用依賴于特定領(lǐng)域的語言使用,而云提供商在服務(wù)這些市場需求方面進(jìn)展緩慢。盡管如此,53%的受訪者表示至少使用了兩大NLP庫中的一個,即Spark NLP和spaCy,這是一個更準(zhǔn)確和更具成本效益的選擇,做出這個選擇這并不奇怪。
準(zhǔn)確性很重要,也很有挑戰(zhàn)性。超過40%的受訪者指出,準(zhǔn)確性是他們評估NLP庫的最重要標(biāo)準(zhǔn)。考慮到NLP在關(guān)鍵應(yīng)用中的使用,如電子健康記錄或在醫(yī)療環(huán)境中檢測不良藥物事件,這一點(diǎn)尤為重要。另一方面,準(zhǔn)確性也是所有受訪者最常提到的挑戰(zhàn)。然而,當(dāng)觀察技術(shù)領(lǐng)導(dǎo)者時(shí),這種情況略有改變。集成問題、語言支持和可擴(kuò)展性與準(zhǔn)確性并列成為緊迫的挑戰(zhàn)。幸運(yùn)的是,語言支持等領(lǐng)域正在大幅改善。谷歌和Facebook等公司正在發(fā)布150多種語言的預(yù)訓(xùn)練嵌入。而NLP庫也在跟進(jìn)。
分類和NER是主要用例。NLP最受歡迎的四個應(yīng)用是文檔分類、命名實(shí)體識別(NER)、情感分析和知識圖譜。來自醫(yī)療保健領(lǐng)域的受訪者認(rèn)為,去識別是另一個常見的NLP用例。自動化的NLP曾經(jīng)是一個極其人工和勞動密集型的過程,現(xiàn)在已經(jīng)使這一負(fù)擔(dān)大大減輕。NER和分類是醫(yī)療機(jī)構(gòu)看到巨大價(jià)值的另外兩個NLP用例。例如,這些應(yīng)用可以幫助醫(yī)療專業(yè)人員快速、準(zhǔn)確地識別患者的藥物不良事件(ADE),改善醫(yī)療服務(wù),減輕醫(yī)療系統(tǒng)的負(fù)擔(dān)和成本。
數(shù)據(jù)來源。來自文件(如pdf、txt、docx等)和數(shù)據(jù)庫的數(shù)據(jù)在NLP項(xiàng)目中使用的數(shù)據(jù)來源中名列前茅(61%)。從法律合同和新聞文章,到醫(yī)療記錄和SEC文件,這些輸入文件通常以PDF格式存儲。雖然深度學(xué)習(xí)模型在過去幾年中有所改進(jìn),但在從PDF中提取文本時(shí),有許多困難和數(shù)據(jù)質(zhì)量問題。有趣的是,仍在探索NLP的公司與那些在采用曲線上走得更遠(yuǎn)的公司在數(shù)據(jù)源上存在一些差異。處于探索階段的受訪者報(bào)告使用音頻數(shù)據(jù)的比例(29% )高于那些更進(jìn)一步的受訪者(22%)。
根據(jù)NLP在過去一年中的增長軌跡,其勢頭很明顯將持續(xù)到2021年。隨著時(shí)間的推移和即將到來的技術(shù)增強(qiáng),采用和使用案例如何發(fā)展將是有趣的。NLP有能力改變我們的工作方式,給予和接受醫(yī)療護(hù)理,購物,以及與客戶服務(wù)的接口。雖然其中一些案例可能比其他案例更具影響力,但它們都將塑造我們更好的工作和生活方式。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。