幫你卷贏同行!2023年頂級NLP技能、框架、平臺和語言匯總
老板們正在尋找特定的技能組合、專業(yè)知識和工作流程,而這些技能與平臺無關。
下圖顯示了20種需求技能,包括NLP基礎知識和更廣泛的數(shù)據(jù)科學專業(yè)知識。
自然語言處理基礎(NLP)
如圖表所示,老板最看重的NLP技能是NLP基礎知識。與去年相比,雇主對具有數(shù)據(jù)分析技能的人需求激增。
這意味著我們不能只是了解平臺,而要了解NLP是如何作為一項核心技能運作的。如果你不知道如何應用Transformer、分類、語言學、問題回答、情感分析、主題建模、機器翻譯、語音識別、命名實體識別等核心NLP技能,那么知道光是知道spaCy如何工作,也沒有什么意義。
機器學習與深度學習
機器學習是基本的數(shù)據(jù)科學技能,而深度學習是NLP的基礎。
掌握這兩者將證明您了解數(shù)據(jù)科學,進而了解NLP。因為雇主大多希望人才可以使用預訓練模型和Transformer。
研究
NLP需要與最新的論文和模型保持同步。公司發(fā)現(xiàn)NLP是AI的最佳應用之一,無論是什么行業(yè)的公司都如此。
因此,了解或找到正確的模型、工具和框架來應用于 NLP 的許多不同用例,這需要一個強大的研究重心。
數(shù)據(jù)科學基礎
在了解機器學習這一核心技能之后,了解編程和計算機科學基礎知識,會表明你在該領域有堅實的基礎。計算機科學、數(shù)學、統(tǒng)計學、編程和軟件開發(fā)都是NLP項目中所需的技能。
云計算、API 和數(shù)據(jù)工程
NLP專家不會直接在他們的個人筆記本電腦上進行情感分析。雇主們正在尋找能夠處理更多數(shù)據(jù)工程全棧的NLP專家,像是能夠使用API,建立數(shù)據(jù)管道,構(gòu)建工作流程管理,并在基于云的平臺上完成這一切的人才。
NLP平臺和工具
除了技能和專業(yè)知識之外,還有一些特定的平臺、工具和語言是老板們特別看重的。下面的圖表顯示了現(xiàn)在流行的平臺。這個名單并沒有囊括所有平臺,所以大家最好是隨時更新、查找一下流行的新工具和框架。
機器學習框架
除了一般的機器學習和深度學習之外,還有一些框架是NLP項目的核心。
TensorFlow因其在ML和神經(jīng)網(wǎng)絡的靈活性而受到青睞,PyTorch因其在NLP方面的易用性和先天設計而受到歡迎,scikit-learn則廣泛用于分類和聚類。
雖然只知道一個平臺已經(jīng)很厲害了,但通過了解這三個或更多的平臺,我們可以變得更靈活,更具適應性,這樣也就會更有競爭力。
與去年相比,PyTorch現(xiàn)在是最受歡迎的機器學習框架,并且已經(jīng)慢慢超過TensorFlow/Keras,成為ML任務的首選。
自然語言處理框架
為了更具體地了解NLP,這里有幾個框架,對于想要成為NLP的專業(yè)人員很有用。
NLTK因其更廣泛的性質(zhì)而受到贊賞,因為它能夠為幾乎所有工作提取正確的算法。
同時,spaCy因其處理多種語言的能力和支持詞向量的能力而受到贊賞。
新加入的是Apache OpenNLP,主要用于常見的NLP任務和簡易操作,CoreNLP用于Java。
令人驚訝的是,有著深度學習架構(gòu)的HuggingFace transformers并不在去年的列表上。
在過去的幾年里,BERT仍然非常受歡迎,盡管谷歌的最后一次更新是在2019年底,但它仍然被廣泛應用。
BERT之所以能夠脫穎而出,是因為其對問答和基于上下文的相似性搜索有強大親和力,這樣它在聊天機器人以及其他相關應用程序中也能表現(xiàn)得相當可靠。
BERT甚至考慮了單詞的上下文,從而可以得到與各個查詢和任務相關的更準確的結(jié)果。
數(shù)據(jù)工程平臺
數(shù)據(jù)管道有助于文本數(shù)據(jù)的流動,特別是對于實時數(shù)據(jù)流和基于云的應用。而在這個領域,盡管其他平臺還在壯大,Spark仍然是數(shù)據(jù)管道的領導者。
它甚至還有一個更具體的版本,Spark NLP。它是一個專門用于語言任務的庫。尤其是在醫(yī)療保健領域,Spark NLP得到了大量應用——這是一個擁有大量數(shù)據(jù)的領域,含有很多醫(yī)療記錄和醫(yī)學數(shù)據(jù)。
NLP編程語言
Python作為NLP的首選編程語言,一直遙遙領先,這一點應該不出大家所料。
許多流行的NLP框架,如NLTK和spaCy,都是基于Python的,所以成為Python配套語言的專家是很有意義的。
了解一些SQL也是必不可少的。Java有許多為該語言設計的庫,包括CoreNLP、OpenNLP等。
自然語言處理云平臺
云服務是2022年的常態(tài),所以我們看到一些服務提供商變得越來越受歡迎。
AWS云、Azure云和其他都與許多其他框架和語言兼容,它們也就因此成為所有NLP技能的必要條件。與此同時,谷歌云也開始嶄露頭角。
總的來說,如果你想點亮一個新的技能點,獲得一項稀缺的、永不過時的、廣泛使用的技能,那么也許現(xiàn)在是時候?qū)W習NLP或其他核心數(shù)據(jù)科學技能了!