NLP:不要重新造輪子
介紹
自然語言處理(NLP)是一個令人生畏的領域名稱。從非結(jié)構(gòu)化文本中生成有用的結(jié)論是很困難的,而且有無數(shù)的技術和算法,每一種都有自己的用例和復雜性。作為一個接觸NLP最少的開發(fā)人員,很難知道要使用哪些方法以及如何實現(xiàn)它們。
如果我以最小的努力提供盡量完美的結(jié)果。使用80/20原則,我將向你展示如何在不顯著犧牲結(jié)果(80%)的情況下快速(20%)交付解決方案。
- “80/20原則認為,少數(shù)的原因、投入或努力通常導致大多數(shù)結(jié)果、產(chǎn)出或回報”
-理查德·科赫,80/20原則的作者
我們將如何實現(xiàn)這一目標?有一些很棒的Python庫!我們可能站在巨人的肩膀上,迅速創(chuàng)新,而不是重新發(fā)明輪子。通過預先測試的實現(xiàn)和預訓練的模型,我們將專注于應用這些方法并創(chuàng)造價值。
本文的目標讀者是希望將自然語言處理快速集成到他們的項目中的開發(fā)人員。在強調(diào)易用性和快速效果的同時,性能也會下降。根據(jù)我的經(jīng)驗,80%的技術對于項目來說是足夠的,但是也可以從其他地方尋找相關方法
不用多說了,我們開始吧!
什么是NLP?
自然語言處理是語言學、計算機科學和人工智能的一個分支領域,允許通過軟件自動處理文本。NLP使機器能夠閱讀、理解和響應雜亂無章的非結(jié)構(gòu)化文本。
人們通常將NLP視為機器學習的一個子集,但實際情況更為微妙。

有些NLP工具依賴于機器學習,有些甚至使用深度學習。然而,這些方法往往依賴于大數(shù)據(jù)集,并且難以實現(xiàn)。相反,我們將專注于更簡單、基于規(guī)則的方法來加快開發(fā)周期。
術語
從最小的數(shù)據(jù)單位開始,字符是單個字母、數(shù)字或標點符號。一個單詞是一個字符列表,一個句子是一個單詞列表。文檔是句子的列表,而語料庫是文檔的列表。
預處理
預處理可能是NLP項目中最重要的一步,它涉及到清理輸入,這樣模型就可以忽略噪聲,并將注意力集中在最重要的內(nèi)容上。一個強大的預處理管道將提高所有模型的性能,所以必須強調(diào)它的價值。
以下是一些常見的預處理步驟:
- 分段:給定一長串字符,我們可以用空格分隔文檔,按句點分隔句子,按空格分隔單詞。實現(xiàn)細節(jié)將因數(shù)據(jù)集而異。
- 使用小寫:大寫通常不會增加性能,并且會使字符串比較更加困難。所以把所有的東西都改成小寫。
- 刪除標點:我們可能需要刪除逗號、引號和其他不增加意義的標點。
- 刪除停用詞:停用詞是像“she”、“the”和“of”這樣的詞,它們不會增加文本的含義,并且分散對關鍵字的注意力。
- 刪除其他不相關單詞:根據(jù)你的應用程序,你可能希望刪除某些不相關的單詞。例如,如果評估課程回顧,像“教授”和“課程”這樣的詞可能沒有用。
- 詞干/詞根化:詞干分析和詞根化都會生成詞形變化單詞的詞根形式(例如:“running”到“run”)。詞干提取速度更快,但不能保證詞根是英語單詞。詞根化使用語料庫來確保詞根是一個單詞,但代價是速度。
- 詞性標注:詞性標注以詞性(名詞、動詞、介詞)為依據(jù),根據(jù)詞義和語境來標記單詞。例如,我們可以專注于名詞進行關鍵字提取。
這些步驟是成功的預處理的基礎。根據(jù)數(shù)據(jù)集和任務的不同,你可以跳過某些步驟或添加新步驟。通過預處理手動觀察數(shù)據(jù),并在出現(xiàn)問題時進行更正。
Python庫

讓我們來看看NLP的兩個主要Python庫。這些工具將在預處理期間,占據(jù)非常大的作用
NLTK
自然語言工具包是Python中使用最廣泛的NLP庫。NLTK是UPenn為學術目的而開發(fā)的,它有大量的特征和語料庫。NLTK非常適合處理數(shù)據(jù)和運行預處理:https://www.nltk.org/
NLTK是構(gòu)建Python程序以處理人類語言數(shù)據(jù)的領先平臺。它提供了易于使用的API
- >>> import nltk
- >>> sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."
- >>> tokens = nltk.word_tokenize(sentence)
- >>> tokens
- ['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']
- >>> tagged = nltk.pos_tag(tokens)
- >>> tagged[0:6]
- [('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('or', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN')]
這是NLTK網(wǎng)站上的一個例子,它展示了標記句子和標記詞性是多么簡單。
SpaCy
SpaCy是一個現(xiàn)代的的庫
- import spacy
- nlp = spacy.load("en_core_web_sm")
- text = ("When Sebastian Thrun started working on self-driving cars at "
- "Google in 2007, few people outside of the company took him seriously")
- doc = nlp(text)
- for entity in doc.ents:
- print(entity.text, entity.label_)
- # 輸出
- # Sebastian Thrun
- # 谷歌組織
- # 2007日期
們就可以使用SpaCy執(zhí)行命名實體識別。使用SpaCy api可以快速完成許多其他任務。
GenSim
與NLTK和SpaCy不同,GenSim專門解決信息檢索(IR)問題。GenSim的開發(fā)重點是內(nèi)存管理,它包含許多文檔相似性模型,包括Latent Semantic Indexing、Word2Vec和FastText。
Gensim是一個Python庫,用于主題模型、文檔索引和大型語料庫的相似性檢索。
下面是一個預先訓練的GenSim Word2Vec模型的例子,它可以發(fā)現(xiàn)單詞的相似性。不用擔心那些雜亂無章的細節(jié),我們可以很快得到結(jié)果。
- import gensim.downloader as api
- wv = api.load("word2vec-google-news-300")
- pairs = [
- ('car', 'minivan'), # 小型貨車是一種汽車
- ('car', 'bicycle'), # 也是有輪子的交通工具
- ('car', 'airplane'), # 沒有輪子,但仍然是交通工具
- ('car', 'cereal'), # ... 等等
- ('car', 'communism'),
- ]
- for w1, w2 in pairs:
- print('%r\t%r\t%.2f % (w1, w2, wv.similarity(w1, w2)))
- # 輸出
- # 'car' 'minivan' 0.69
- # 'car' 'bicycle' 0.54
- # 'car' 'airplane' 0.42
- # 'car' 'cereal' 0.14
- # 'car' 'communism' 0.06
還有更多…
這個列表并不全面,但涵蓋了一些用例。
應用
既然我們已經(jīng)討論了預處理方法和Python庫,讓我們用幾個例子把它們放在一起。對于每種算法,我將介紹幾個NLP算法,根據(jù)我們的快速開發(fā)目標選擇一個,并使用其中一個庫創(chuàng)建一個簡單的實現(xiàn)。
應用1:預處理
預處理是任何NLP解決方案的關鍵部分,所以讓我們看看如何使用Python庫來加快處理速度。根據(jù)我的經(jīng)驗,NLTK擁有我們所需的所有工具,并針對獨特的用例進行定制。讓我們加載一個樣本語料庫:
- import nltk
- # 加載brown語料庫
- corpus = nltk.corpus.brown
- # 訪問語料庫的文件
- print(corpus.fileids())
- # 輸出
- ['ca01', 'ca02', 'ca03', 'ca04', 'ca05', 'ca06', 'ca07', 'ca08', 'ca09', 'ca10', 'ca11', 'ca12', 'ca13', 'ca14', 'ca15', 'ca16',
- 'ca17', 'ca18', 'ca19', 'ca20', 'ca21', 'ca22', 'ca23', 'ca24', 'ca25', 'ca26', 'ca27', 'ca28', 'ca29', 'ca30', 'ca31', 'ca32',
- 'ca33', 'ca34', 'ca35', 'ca36', 'ca37', 'ca38', 'ca39', 'ca40', 'ca41', 'ca42', 'ca43', 'ca44', 'cb01', 'cb02', 'cb03', 'c...
按照上面定義的管道,我們可以使用NLTK來實現(xiàn)分段、刪除標點和停用詞、執(zhí)行詞干化等等??纯磩h除停用詞是多么容易:
- from nltk.corpus import stopwords
- sw = stopwords.words("english")
- sw += "" # 空字符串
- def remove_sw(doc):
- sentences = []
- for sentence in doc:
- sentence = [word for word in sentence if word not in sw]
- sentences.append(sentence)
- return sentences
- print("With Stopwords")
- print(doc1[1])
- print()
- doc1 = remove_sw(doc1)
- print("Without Stopwords")
- print(doc1[1])
- # 輸出
- # 有停用詞
- # ['the', 'jury', 'further', 'said', 'in', 'presentments', 'that', 'the', 'city', 'executive', 'committee', 'which', 'had',
- # 'charge', 'of', 'the', 'election', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'city', 'of', 'atlanta', 'for',
- # 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted']
- # 沒有停用詞
- # ['jury', 'said', 'presentments', 'city', 'executive', 'committee', 'charge', 'election', 'deserves', 'praise', 'thanks', 'city',
- # 'atlanta', 'manner', 'election', 'conducted']
整個預處理管道占用了我不到40行Python。請參閱此處的完整代碼。記住,這是一個通用的示例,你應該根據(jù)你的特定用例的需要修改流程。
應用2:文檔聚類
文檔聚類是自然語言處理中的一個常見任務,所以讓我們來討論一些方法。這里的基本思想是為每個文檔分配一個表示所討論主題的向量:

如果向量是二維的,我們可以像上面一樣可視化文檔。在這個例子中,我們看到文檔A和B是緊密相關的,而D和F是松散相關的。即使這些向量是3維、100維或1000維,使用距離度量的話,我們也可以計算相似性。
下一個問題是如何使用非結(jié)構(gòu)化文本輸入為每個文檔構(gòu)造這些向量。這里有幾個選項,從最簡單到最復雜的:
- 詞袋:為每個唯一的單詞分配一個索引。給定文檔的向量是每個單詞出現(xiàn)的頻率。
- TF-IDF:根據(jù)單詞在其他文檔中的常見程度來加強表示。如果兩個文檔共享一個稀有單詞,則它們比共享一個公共單詞更相似。
- 潛在語義索引(LSI):詞袋和TF-IDF可以創(chuàng)建高維向量,這使得距離測量的準確性降低。LSI將這些向量壓縮到更易于管理的大小,同時最大限度地減少信息損失。
- Word2Vec:使用神經(jīng)網(wǎng)絡,從大型文本語料庫中學習單詞的關聯(lián)關系。然后將每個單詞的向量相加得到一個文檔向量。
- Doc2Vec:在Word2Vec的基礎上構(gòu)建,但是使用更好的方法從單詞向量列表中近似文檔向量。
Word2Vec和Doc2Vec非常復雜,需要大量的數(shù)據(jù)集來學習單詞嵌入。我們可以使用預訓練過的模型,但它們可能無法很好地適應領域內(nèi)的任務。相反,我們將使用詞袋、TF-IDF和LSI。
現(xiàn)在選擇我們的庫。GenSim是專門為這個任務而構(gòu)建的,它包含所有三種算法的簡單實現(xiàn),所以讓我們使用GenSim。
對于這個例子,讓我們再次使用Brown語料庫。它有15個文本類別的文檔,如“冒險”、“編輯”、“新聞”等。在運行我們的NLTK預處理例程之后,我們可以開始應用GenSim模型。
首先,我們創(chuàng)建一個將標識映射到唯一索引的字典。
- from gensim import corpora, models, similarities
- dictionary = corpora.Dictionary(corpus)
- dictionary.filter_n_most_frequent(1) # removes ""
- num_words = len(dictionary)
- print(dictionary)
- print()
- print("Most Frequent Words")
- top10 = sorted(dictionary.cfs.items(), key=lambda x: x[1], reverse=True)[:10]
- for i, (id, freq) in enumerate(top10):
- print(i, freq, dictionary[id])
- # 輸出
- # Dictionary(33663 unique tokens: ['1', '10', '125', '15th', '16']...)
- # 頻率最高的詞
- # 0 3473 one
- # 1 2843 would
- # 2 2778 say
- # 3 2327 make
- # 4 1916 time
- # 5 1816 go
- # 6 1777 could
- # 7 1665 new
- # 8 1659 year
- # 9 1575 take
接下來,我們迭代地應用詞袋、TF-IDF和潛在語義索引:
- corpus_bow = [dictionary.doc2bow(doc) for doc in corpus]
- print(len(corpus_bow[0]))
- print(corpus_bow[0][:20])
- # 輸出
- # 6106
- # [(0, 1), (1, 3), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 2), (10, 1), (11, 1), (12, 2), (13, 2), (14, 2), (15,
- # 1), (16, 2), (17, 2), (18, 3), (19, 1)]
- tfidf_model = models.TfidfModel(corpus_bow)
- corpus_tfidf = tfidf_model[corpus_bow]
- print(len(corpus_tfidf[0]))
- print(corpus_tfidf[0][:20])
- # 輸出
- # 5575
- # [(0, 0.001040495879718581), (1, 0.0011016669638018743), (2, 0.002351365659027428), (3, 0.002351365659027428), (4,
- # 0.0013108697793088472), (5, 0.005170600993729588), (6, 0.003391861538746009), (7, 0.004130105114011007), (8,
- # 0.003391861538746009), (9, 0.008260210228022013), (10, 0.004130105114011007), (11, 0.001955787484706956), (12,
- # 0.0015918258736505996), (13, 0.0015918258736505996), (14, 0.008260210228022013), (15, 0.0013108697793088472), (16,
- # 0.0011452524080876978), (17, 0.002080991759437162), (18, 0.004839366251287288), (19, 0.0013108697793088472)]
- lsi_model = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=20)
- corpus_lsi = lsi_model[corpus_tfidf]
- print(len(corpus_lsi[0]))
- print(corpus_lsi[0])
- # 輸出
- # 15
- # [(0, 0.18682238167974372), (1, -0.4437583954806601), (2, 0.22275580411969662), (3, 0.06534575527078117), (4,
- # -0.10021080420155845), (5, 0.06653745783577146), (6, 0.05025291839076259), (7, 0.7117552624193217), (8, -0.3768886513901333), (9,
- # 0.1650380936828472), (10, 0.13664364557932132), (11, -0.03947144082104315), (12, -0.03177275640769521), (13,
- # -0.00890543444745628), (14, -0.009715808633565214)]
在大約10行Python代碼中,我們處理了三個獨立的模型,并為文檔提取了向量表示。利用余弦相似度進行向量比較,可以找到最相似的文檔。
- categories = ["adventure", "belles_lettres", "editorial", "fiction", "government",
- "hobbies", "humor", "learned", "lore", "mystery", "news", "religion",
- "reviews", "romance", "science_fiction"]
- num_categories = len(categories)
- for i in range(3):
- print(categories[i])
- sims = index[lsi_model[corpus_bow[i]]]
- top3 = sorted(enumerate(sims), key=lambda x: x[1], reverse=True,)[1:4]
- for j, score in top3:
- print(score, categories[j])
- print()
- # 輸出
- # adventure
- # 0.22929086 fiction
- # 0.20346783 romance
- # 0.19324714 mystery
- # belles_lettres
- # 0.3659389 editorial
- # 0.3413822 lore
- # 0.33065677 news
- # editorial
- # 0.45590898 news
- # 0.38146105 government
- # 0.2897901 belles_lettres
就這樣,我們有結(jié)果了!冒險小說和浪漫小說最為相似,而社論則類似于新聞和政府。
應用3:情感分析
情感分析是將非結(jié)構(gòu)化文本解釋為正面、負面或中性。情感分析是分析評論、衡量品牌、構(gòu)建人工智能聊天機器人等的有用工具。
與文檔聚類不同,在情感分析中,我們不使用預處理。段落的標點符號、流程和上下文可以揭示很多關于情緒的信息,所以我們不想刪除它們。
為了簡單有效,我建議使用基于模式的情感分析。通過搜索特定的關鍵詞、句子結(jié)構(gòu)和標點符號,這些模型測量文本的積極消極性。以下是兩個帶有內(nèi)置情感分析器的庫:
VADER 情感分析:
VADER 是 Valence Aware Dictionary and sEntiment Recognizer的縮寫,是NLTK用于情感分析的擴展。它使用模式來計算情緒,尤其適用于表情符號和短信俚語。它也非常容易實現(xiàn)。
- from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
- analyzer = SentimentIntensityAnalyzer()
- print(analyzer.polarity_scores("This class is my favorite!!!"))
- print(analyzer.polarity_scores("I hate this class :("))
- # 輸出
- # {'neg': 0.0, 'neu': 0.508, 'pos': 0.492, 'compound': 0.5962}
- # {'neg': 0.688, 'neu': 0.312, 'pos': 0.0, 'compound': -0.765}
TextBlob情感分析:
一個類似的工具是用于情感分析的TextBlob。TextBlob實際上是一個多功能的庫,類似于NLTK和SpaCy。在情感分析工具上,它與VADER在報告情感極性和主觀性方面都有所不同。從我個人的經(jīng)驗來看,我更喜歡VADER,但每個人都有自己的長處和短處。TextBlob也非常容易實現(xiàn):
- from textblob import TextBlob
- testimonial = TextBlob("This class is my favorite!!!")
- print(testimonial.sentiment)
- testimonial = TextBlob("I hate this class :(")
- print(testimonial.sentiment)
- # 輸出
- # Sentiment(polarity=0.9765625, subjectivity=1.0)
- # Sentiment(polarity=-0.775, subjectivity=0.95)
注意:基于模式的模型在上面的例子中不能很好地處理這樣的小文本。我建議對平均四句話的文本進行情感分析。
其他應用
這里有幾個附加的主題和一些有用的算法和工具來加速你的開發(fā)。
- 關鍵詞提?。好麑嶓w識別(NER)使用SpaCy,快速自動關鍵字提取(RAKE)使用ntlk-rake
- 文本摘要:TextRank(類似于PageRank)使用PyTextRank SpaCy擴展,TF-IDF使用GenSim
- 拼寫檢查:PyEnchant,SymSpell Python端口
希望這些示例有助于演示Python中可用于自然語言處理的大量資源。不管問題是什么,有人開發(fā)了一個庫來簡化流程。使用這些庫可以在短時間內(nèi)產(chǎn)生很好的結(jié)果。
提示和技巧
通過對NLP的介紹、Python庫的概述以及一些示例應用程序,你幾乎可以應對自己的挑戰(zhàn)了。最后,我有一些技巧和技巧來充分利用這些資源。
- Python工具:我推薦Poetry 用于依賴關系管理,Jupyter Notebook用于測試新模型,Black和/或Flake8用于保持代碼風格,GitHub用于版本管理。
- 保持條理:從一個庫跳到另一個庫,復制代碼到當前你編寫的代碼測試雖然很容易實現(xiàn),但是不好。我建議采取你采取合適的更慎重的方法,因為你不想在匆忙中錯過一個好的解決方案。
- 預處理:垃圾進,垃圾出。實現(xiàn)一個強大的預處理管道來清理輸入非常重要。目視檢查處理后的文本,以確保所有內(nèi)容都按預期工作。
- 展示結(jié)果:選擇如何展示你的結(jié)果會有很大的不同。如果輸出的文本看起來有點粗糙,可以考慮顯示聚合統(tǒng)計信息或數(shù)值結(jié)果。