自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

什么是文本分類(lèi)?

譯文
人工智能 算法
文本分類(lèi)是將文本分為一個(gè)或多個(gè)不同類(lèi)別的過(guò)程。開(kāi)發(fā)人員需要了解如何開(kāi)發(fā)文本分類(lèi)深度學(xué)習(xí)算法。

?譯者 | 李睿

審校 | 孫淑娟

什么是文本分類(lèi)?  

文本分類(lèi)是將文本分類(lèi)為一個(gè)或多個(gè)不同類(lèi)別以組織、構(gòu)造和過(guò)濾成任何參數(shù)的過(guò)程。例如,文本分類(lèi)用于法律文件、醫(yī)學(xué)研究和文件中,或者簡(jiǎn)單地用于產(chǎn)品評(píng)論。數(shù)據(jù)比以往任何時(shí)候都更重要;很多企業(yè)花費(fèi)巨資試圖獲取盡可能多的洞察力。  

隨著文本/文檔數(shù)據(jù)比其他數(shù)據(jù)類(lèi)型豐富得多,使用新方法勢(shì)在必行。由于數(shù)據(jù)本質(zhì)上是非結(jié)構(gòu)化的,并且極其豐富,因此以易于理解的方式組織數(shù)據(jù)以理解它可以顯著地提高其價(jià)值。使用文本分類(lèi)和機(jī)器學(xué)習(xí)可以更快、更經(jīng)濟(jì)高效地自動(dòng)構(gòu)造相關(guān)文本。

以下將定義文本分類(lèi)、其工作原理、一些最知名的算法,并提供可能有助于開(kāi)始文本分類(lèi)之旅的數(shù)據(jù)集。  

為什么使用機(jī)器學(xué)習(xí)文本分類(lèi)?  

  • 規(guī)模:人工數(shù)據(jù)輸入、分析和組織既乏味又緩慢。機(jī)器學(xué)習(xí)允許進(jìn)行自動(dòng)分析,無(wú)論數(shù)據(jù)集的規(guī)模有多大。  
  • 一致性:人為錯(cuò)誤是由于人員疲勞和對(duì)數(shù)據(jù)集中的材料不敏感而發(fā)生的。由于算法的無(wú)偏性和一致性,機(jī)器學(xué)習(xí)提高了可擴(kuò)展性并顯著提高了準(zhǔn)確性。  
  • 速度:有時(shí)可能需要快速訪問(wèn)和組織數(shù)據(jù)。機(jī)器學(xué)習(xí)算法可以解析數(shù)據(jù),以易于理解的方式傳遞信息。  

6個(gè)通用步驟  

一些基本方法可以在一定程度上對(duì)不同的文本文檔進(jìn)行分類(lèi),但最常用的方法采用機(jī)器學(xué)習(xí)。文本分類(lèi)模型在部署之前需要經(jīng)歷六個(gè)基本步驟。  

1.提供高質(zhì)量的數(shù)據(jù)集  

數(shù)據(jù)集是原始數(shù)據(jù)塊,用作模型的數(shù)據(jù)源。在文本分類(lèi)的情況下,使用監(jiān)督機(jī)器學(xué)習(xí)算法,為機(jī)器學(xué)習(xí)模型提供標(biāo)記數(shù)據(jù)。標(biāo)記數(shù)據(jù)是為算法預(yù)定義的數(shù)據(jù),并附有信息標(biāo)簽。  

2.過(guò)濾和處理數(shù)據(jù)  

由于機(jī)器學(xué)習(xí)模型只能理解數(shù)值,因此需要對(duì)提供的文本進(jìn)行標(biāo)記化和文字嵌入,以使模型能夠正確識(shí)別數(shù)據(jù)。

標(biāo)記化是將文本文檔拆分成更小的部分(稱(chēng)為標(biāo)記)的過(guò)程。標(biāo)記可以表示為整個(gè)單詞、子單詞或單個(gè)字符。例如,可以這樣更智能地標(biāo)記工作:

  • 標(biāo)記詞:Smarter
  • 標(biāo)記子詞:Smart-er  
  • 標(biāo)記字符:S-m-a-r-t-e-r  

為什么標(biāo)記化很重要?因?yàn)槲谋痉诸?lèi)模型只能在基于標(biāo)記的級(jí)別上處理數(shù)據(jù),不能理解和處理完整的句子。模型需要對(duì)給定的原始數(shù)據(jù)集進(jìn)行進(jìn)一步處理才能輕松消化給定的數(shù)據(jù)。刪除不必要的功能,過(guò)濾掉空值和無(wú)限值等等。重組整個(gè)數(shù)據(jù)集將有助于防止在訓(xùn)練階段出現(xiàn)任何偏差。  

3.將數(shù)據(jù)集拆分為訓(xùn)練和測(cè)試數(shù)據(jù)集  

希望在保留20%的數(shù)據(jù)集的同時(shí),在80%的數(shù)據(jù)集上訓(xùn)練數(shù)據(jù),以測(cè)試算法的準(zhǔn)確性。

4.訓(xùn)練算法  

通過(guò)使用訓(xùn)練數(shù)據(jù)集運(yùn)行模型,該算法可以通過(guò)識(shí)別隱藏的模式和見(jiàn)解將提供的文本分類(lèi)為不同類(lèi)別。

5.測(cè)試和檢查模型的性能  

接下來(lái),使用步驟3中提到的測(cè)試數(shù)據(jù)集測(cè)試模型的完整性。測(cè)試數(shù)據(jù)集將被取消標(biāo)記,以根據(jù)實(shí)際結(jié)果測(cè)試模型的準(zhǔn)確性。為了準(zhǔn)確測(cè)試模型,測(cè)試數(shù)據(jù)集必須包含新的測(cè)試用例(與以前的訓(xùn)練數(shù)據(jù)集不同的數(shù)據(jù)),以避免過(guò)度擬合模型。

6.調(diào)整模型  

通過(guò)調(diào)整模型的不同超參數(shù)來(lái)調(diào)整機(jī)器學(xué)習(xí)模型,而不會(huì)過(guò)度擬合或產(chǎn)生高方差。超參數(shù)是一個(gè)參數(shù),其值控制模型的學(xué)習(xí)過(guò)程?,F(xiàn)在可以部署了。  

文本分類(lèi)是如何工作的?  

單詞嵌入  

在以上提到的過(guò)濾過(guò)程中,機(jī)器和深度學(xué)習(xí)算法只能理解數(shù)值,迫使開(kāi)發(fā)人員對(duì)數(shù)據(jù)集執(zhí)行一些單詞嵌入技術(shù)。單詞嵌入是將單詞表示為實(shí)值向量的過(guò)程,實(shí)值向量可以對(duì)給定單詞的含義進(jìn)行編碼。

  • Word2Vec:這是谷歌公司開(kāi)發(fā)的一種無(wú)監(jiān)督單詞嵌入方法。它利用神經(jīng)網(wǎng)絡(luò)從大型文本數(shù)據(jù)集中學(xué)習(xí)。顧名思義,Word2Vec方法將每個(gè)單詞轉(zhuǎn)換為給定的向量。  
  • GloVe:也稱(chēng)為全局向量,是一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)模型,用于獲取單詞的向量表示。與Word2Vec方法類(lèi)似,GloVe算法將單詞映射到有意義的空間中,其中單詞之間的距離與語(yǔ)義相似度有關(guān)。  
  • TF-IDF:TF-IDF是詞頻-逆文本頻率的縮寫(xiě),它是一種單詞嵌入算法,用于評(píng)估單詞在給定文檔中的重要性。TF-IDF為每個(gè)單詞分配一個(gè)給定的分?jǐn)?shù),以表示其在一組文檔中的重要性。  

文本分類(lèi)算法  

以下是三種最著名和最有效的文本分類(lèi)算法。需要記住,每種方法中都嵌入了進(jìn)一步的定義算法。  

1.線性支持向量機(jī)  

線性支持向量機(jī)算法被認(rèn)為是目前最好的文本分類(lèi)算法之一,它根據(jù)給定的特征繪制給定的數(shù)據(jù)點(diǎn),然后繪制一條最佳擬合線,將數(shù)據(jù)拆分并分類(lèi)為不同的類(lèi)別。  

2.邏輯回歸  

邏輯回歸是回歸的一個(gè)子類(lèi),主要關(guān)注分類(lèi)問(wèn)題。它使用決策邊界、回歸和距離來(lái)評(píng)估和分類(lèi)數(shù)據(jù)集。

3.樸素貝葉斯  

樸素貝葉斯算法根據(jù)對(duì)象提供的特征對(duì)不同的對(duì)象進(jìn)行分類(lèi)。然后繪制組邊界以推斷這些組分類(lèi)以進(jìn)一步解決和分類(lèi)。

設(shè)置文本分類(lèi)時(shí),應(yīng)避免什么問(wèn)題

1.過(guò)度擁擠的訓(xùn)練數(shù)據(jù)  

為算法提供低質(zhì)量數(shù)據(jù)將導(dǎo)致糟糕的未來(lái)預(yù)測(cè)。對(duì)于機(jī)器學(xué)習(xí)從業(yè)者來(lái)說(shuō),一個(gè)常見(jiàn)的問(wèn)題是,向訓(xùn)練模型提供的數(shù)據(jù)集過(guò)多,并且包括不必要的特征。過(guò)多地使用不相關(guān)的數(shù)據(jù)會(huì)導(dǎo)致模型性能的下降。而在選擇和組織數(shù)據(jù)集時(shí),越少越好。

錯(cuò)誤的訓(xùn)練與測(cè)試數(shù)據(jù)的比率會(huì)極大地影響模型的性能,并影響數(shù)據(jù)的洗牌和過(guò)濾。精確的數(shù)據(jù)點(diǎn)不會(huì)被其他不需要的因素所干擾,訓(xùn)練模型將更有效地執(zhí)行。  

在訓(xùn)練模型時(shí),選擇符合模型要求的數(shù)據(jù)集,過(guò)濾不必要的值,洗牌數(shù)據(jù)集,并測(cè)試最終模型的準(zhǔn)確性。更簡(jiǎn)單的算法需要更少的計(jì)算時(shí)間和資源,而最好的模型是可以解決復(fù)雜問(wèn)題的最簡(jiǎn)單的模型。

2.過(guò)擬合和欠擬合  

在訓(xùn)練達(dá)到峰值時(shí),模型的準(zhǔn)確性隨著訓(xùn)練的繼續(xù)逐漸降低。這稱(chēng)為過(guò)擬合;由于訓(xùn)練持續(xù)時(shí)間過(guò)長(zhǎng),模型開(kāi)始學(xué)習(xí)意想不到的模式。在訓(xùn)練集上實(shí)現(xiàn)高精度時(shí)要小心,因?yàn)橹饕繕?biāo)是開(kāi)發(fā)其準(zhǔn)確性植根于測(cè)試集的模型(模型以前沒(méi)有見(jiàn)過(guò)的數(shù)據(jù))。  

另一方面,欠擬合是指訓(xùn)練模型仍有改進(jìn)的空間,尚未達(dá)到其最大潛力。訓(xùn)練不佳的模型源于訓(xùn)練的時(shí)間長(zhǎng)度或?qū)?shù)據(jù)集過(guò)度正則化。這體現(xiàn)了擁有簡(jiǎn)潔和精確數(shù)據(jù)的意義。  

在訓(xùn)練模型時(shí)找到最佳位置至關(guān)重要。將數(shù)據(jù)集拆分為80/20是一個(gè)很好的開(kāi)始,但調(diào)整參數(shù)可能是特定模型需要以最佳方式執(zhí)行的操作。  

3.文本格式不正確  

盡管在本文中沒(méi)有詳細(xì)提及,但針對(duì)文本分類(lèi)問(wèn)題使用正確的文本格式將獲得更好的結(jié)果。一些表示文本數(shù)據(jù)的方?法包括GloVe、Word2Vec和嵌入模型。

使用正確的文本格式將改善模型讀取和解釋數(shù)據(jù)集的方式,進(jìn)而幫助它理解模式。  

文本分類(lèi)應(yīng)用程序  

  • 過(guò)濾垃圾郵件:通過(guò)搜索某些關(guān)鍵字,可以將電子郵件分類(lèi)為有用郵件或垃圾郵件。  
  • 文本分類(lèi):通過(guò)使用文本分類(lèi),應(yīng)用程序可以通過(guò)對(duì)相關(guān)文本(如項(xiàng)目名稱(chēng)和描述等)進(jìn)行分類(lèi),將不同的項(xiàng)目(文章和書(shū)籍等)分類(lèi)為不同的類(lèi)別。使用這些技術(shù)可以改善體驗(yàn),因?yàn)樗褂脩?hù)更容易在數(shù)據(jù)庫(kù)中導(dǎo)航。
  • 識(shí)別仇恨言論:某些社交媒體公司使用文本分類(lèi)來(lái)檢測(cè)和禁止帶有冒犯行為的評(píng)論或帖子。  
  • 營(yíng)銷(xiāo)和廣告:企業(yè)可以通過(guò)了解用戶(hù)對(duì)某些產(chǎn)品的反應(yīng)來(lái)做出特定的改變來(lái)滿(mǎn)足他們的客戶(hù)。它還可以根據(jù)用戶(hù)對(duì)類(lèi)似產(chǎn)品的評(píng)論推薦某些產(chǎn)品。文本分類(lèi)算法可以與推薦系統(tǒng)結(jié)合使用,這是許多在線網(wǎng)站用來(lái)獲得重復(fù)業(yè)務(wù)的另一種深度學(xué)習(xí)算法。  

流行的文本分類(lèi)數(shù)據(jù)集  

擁有大量標(biāo)記和即用型數(shù)據(jù)集,可以隨時(shí)搜索符合模型要求的完美數(shù)據(jù)集。  

雖然在決定使用哪一個(gè)時(shí)可能會(huì)遇到一些問(wèn)題,但以下將推薦一些可供公眾使用的最知名的數(shù)據(jù)集。  

  • IMDB Dataset
  • Amazon Reviews Dataset
  • Yelp Reviews Dataset
  • SMS Spam Collection
  • Opin Rank Review Dataset
  • Twitter US Airline Sentiment Dataset
  • Hate Speech and Offensive Language Dataset
  • Clickbait Dataset

Kaggle等網(wǎng)站包含涵蓋所有主題的各種數(shù)據(jù)集。可以嘗試在上述幾個(gè)數(shù)據(jù)集上運(yùn)行模型進(jìn)行練習(xí)。  

機(jī)器學(xué)習(xí)中的文本分類(lèi)  

隨著機(jī)器學(xué)習(xí)在過(guò)去十年中產(chǎn)生了巨大的影響,企業(yè)正在嘗試一切可能的方法來(lái)利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)流程自動(dòng)化。評(píng)論、帖子、文章、期刊和文檔在文本中都具有無(wú)價(jià)的價(jià)值。而通過(guò)以多種創(chuàng)造性方式使用文本分類(lèi)來(lái)提取用戶(hù)見(jiàn)解和模式,企業(yè)可以做出有數(shù)據(jù)支持的決策;專(zhuān)業(yè)人士可以比以往更快地獲取和學(xué)習(xí)有價(jià)值的信息。

原文標(biāo)題:??What Is Text Classification???,作者:Kevin Vu?

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2020-03-23 08:00:00

開(kāi)源數(shù)據(jù)集文本分類(lèi)

2017-08-04 14:23:04

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)TensorFlow

2017-08-25 14:23:44

TensorFlow神經(jīng)網(wǎng)絡(luò)文本分類(lèi)

2024-12-20 16:00:00

Python文本分類(lèi)聚類(lèi)

2023-11-28 09:00:00

機(jī)器學(xué)習(xí)少樣本學(xué)習(xí)SetFit

2021-08-30 09:25:25

Bert模型PyTorch語(yǔ)言

2017-06-20 11:00:13

大數(shù)據(jù)自然語(yǔ)言文本分類(lèi)器

2024-10-30 16:59:57

Python機(jī)器學(xué)習(xí)

2024-10-16 10:41:36

2010-09-29 09:55:05

光纖

2017-04-13 09:18:02

深度學(xué)習(xí)文本分類(lèi)

2018-01-24 09:27:30

文本分類(lèi)工具fastText

2024-09-29 09:32:58

2022-12-04 00:09:07

2020-09-25 09:58:37

谷歌Android開(kāi)發(fā)者

2020-07-07 10:50:19

Python丄則表達(dá)文本

2019-03-21 14:30:15

Linux文本分析命令

2019-11-06 16:40:31

awkLinux文本分析工具

2020-12-31 05:37:05

HiveUDFSQL

2018-07-04 15:17:07

CNNNLP模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)