自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

5個(gè)Python庫可以幫你輕松的進(jìn)行自然語言預(yù)處理

開發(fā) 后端
自然語言是指人類相互交流的語言,而自然語言處理是將數(shù)據(jù)以可理解的形式進(jìn)行預(yù)處理,使計(jì)算機(jī)能夠理解的一種方法。簡單地說,自然語言處理(NLP)是幫助計(jì)算機(jī)用自己的語言與人類交流的過程。

 自然語言處理是比較廣泛的研究領(lǐng)域之一。許多大公司在這個(gè)領(lǐng)域投資很大。NLP為公司提供了機(jī)會,讓他們能夠根據(jù)消費(fèi)者的情緒和文本很好地了解他們。NLP的一些最佳用例是檢測假電子郵件、對假新聞進(jìn)行分類、情感分析、預(yù)測你的下一個(gè)單詞、自動更正、聊天機(jī)器人、個(gè)人助理等等。

[[399059]]

解決任何NLP任務(wù)前要知道的7個(gè)術(shù)語

標(biāo)記:它是將整個(gè)文本分割成小標(biāo)記的過程。占卜是根據(jù)句子和單詞兩個(gè)基礎(chǔ)來完成的。

 

  1. text = "Hello there, how are you doing today? The weather is great today. python is awsome"  
  2. ##sentece tokenize (Separated by sentence)  
  3. ['Hello there, how are you doing today?''The weather is great today.''python is awsome' 
  4. ##word tokenizer (Separated by words)  
  5. ['Hello''there'',''how''are''you''doing''today''?''The''weather''is''great''today''.','python''is''awsome'

 

停止詞:一般來說,這些詞不會給句子增加太多的意義。在NLP中,我們刪除了所有的停止詞,因?yàn)樗鼈儗Ψ治鰯?shù)據(jù)不重要。英語中總共有179個(gè)停止詞。

詞干提?。核峭ㄟ^去掉后綴和前綴將一個(gè)單詞還原為詞根的過程。

詞形還原:它的工作原理與詞干法相同,但關(guān)鍵的區(qū)別是它返回一個(gè)有意義的單詞。主要是開發(fā)聊天機(jī)器人、問答機(jī)器人、文本預(yù)測等。

WordNet:它是英語語言名詞、動詞、形容詞和副詞的詞匯數(shù)據(jù)庫或詞典,這些詞被分組為專門為自然語言處理設(shè)計(jì)的集合。

詞性標(biāo)注:它是將一個(gè)句子轉(zhuǎn)換為一個(gè)元組列表的過程。每個(gè)元組都有一個(gè)形式(單詞、標(biāo)記)。這里的標(biāo)簽表示該單詞是名詞、形容詞還是動詞等等。

 

  1. text = 'An sincerity so extremity he additions.'  
  2. --------------------------------  
  3. ('An''DT'), ('sincerity''NN'), ('so''RB'), ('extremity''NN'), ('he''PRP'), ('additions''VBZ')] 

 

詞袋:它是一個(gè)將文本轉(zhuǎn)換成某種數(shù)字表示的過程。比如獨(dú)熱編碼等。

 

  1. sent1 = he is a good boy  
  2. sent2 = she is a good girl  
  3.  
  4.  
  5. girl good boy  
  6. sent1 0 1 1  
  7. sent2 1 0 1 

 

現(xiàn)在,讓我們回到我們的主題,看看可以幫助您輕松預(yù)處理數(shù)據(jù)的庫。

NLTK

毫無疑問,它是自然語言處理最好和使用最多的庫之一。NLTK是自然語言工具包的縮寫。由Steven Bird 和Edward Loper開發(fā)的。它帶有許多內(nèi)置的模塊,用于標(biāo)記化、詞元化、詞干化、解析、分塊和詞性標(biāo)記。它提供超過50個(gè)語料庫和詞匯資源。

安裝:pip install nltk

讓我們使用NLTK對給定的文本執(zhí)行預(yù)處理

 

  1. import nltk 
  2. #nltk.download('punkt'
  3. from nltk.tokenize import word_tokenize 
  4. from nltk.corpus import stopwords 
  5. from nltk.stem import PorterStemmer 
  6. import re 
  7. ps = PorterStemmer() 
  8. text = 'Hello there,how are you doing today? I am Learning Python.' 
  9. text = re.sub("[^a-zA-Z0-9]"," ",text) 
  10. text = word_tokenize(text) 
  11. text_with_no_stopwords = [ps.stem(word) for word in text if word not in stopwords.words('english')] 
  12. text = " ".join(text_with_no_stopwords) 
  13. text 
  14. -----------------------------------------------OUTPUT------------------------------------ 
  15. 'hello today I learn python' 

 

TextBlob

Textblob是一個(gè)簡化的文本處理庫。它提供了一個(gè)簡單的API,用于執(zhí)行常見的NLP任務(wù),如詞性標(biāo)記、情感分析、分類、翻譯等。

安裝:pip install textblob

spacy

這是python中最好用的自然語言處理庫之一,它是用cpython編寫的。它提供了一些預(yù)訓(xùn)練的統(tǒng)計(jì)模型,并支持多達(dá)49種以上的語言進(jìn)行標(biāo)記化。它以卷積神經(jīng)網(wǎng)絡(luò)為特征,用于標(biāo)記、解析和命名實(shí)體識別。

安裝:pip install spacy

 

  1. import spacy 
  2. nlp = spacy.load('en_core_web_sm'
  3. text = "I am Learning Python Nowdays" 
  4. text2 = nlp(text) 
  5. for token in text2: 
  6. print(token,token.idx) 
  7. ------------------------------OUTPUT----------------------- 
  8. I 0 
  9. am 2 
  10. Learning 5 
  11. Python 14 
  12. Nowdays 21 

 

Gensim

它是一個(gè)Python庫,專門用于識別兩個(gè)文檔之間的語義相似性。它使用向量空間建模和主題建模工具包來尋找文檔之間的相似之處。它是設(shè)計(jì)用來處理大型文本語料庫的算法。

安裝:pip install gensim

CoreNLP

Stanford CoreNLP的目標(biāo)是簡化對一段文本應(yīng)用不同語言工具的過程。這個(gè)庫運(yùn)行速度非常快,并且在開發(fā)中工作得很好。

安裝:pip install stanford-corenlp

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2024-11-07 15:49:34

2021-05-13 07:17:13

Snownlp自然語言處理庫

2017-10-19 17:05:58

深度學(xué)習(xí)自然語言

2023-04-26 00:46:03

Python自然語言處理庫

2020-05-25 09:41:36

大數(shù)據(jù)自然語言處理數(shù)據(jù)分析

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2021-11-12 15:43:10

Python自然語言數(shù)據(jù)

2017-04-17 15:03:16

Python自然語言處理

2024-04-24 11:38:46

語言模型NLP人工智能

2023-12-05 15:09:57

PythonNLP

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2020-11-12 18:57:14

摘要PythonNLP

2017-05-05 15:34:49

自然語言處理

2020-02-25 12:00:53

自然語言開源工具

2020-02-25 23:28:50

工具代碼開發(fā)

2018-04-04 12:00:00

2021-05-18 07:15:37

Python

2022-08-17 09:00:00

自然語言機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)

2022-09-23 11:16:26

自然語言人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號