自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從文本挖掘綜述分類、聚類和信息提取等算法

開發(fā) 開發(fā)工具 算法
本文先簡述文本挖掘包括 NLP、信息檢索和自動文本摘要等幾種主要的方法,再從文本表征、分類方法、聚類方法、信息提取方法等幾大部分概述各類機(jī)器學(xué)習(xí)算法的應(yīng)用。

文本挖掘一直是十分重要的信息處理領(lǐng)域,因?yàn)椴徽撌峭扑]系統(tǒng)、搜索系統(tǒng)還是其它廣泛性應(yīng)用,我們都需要借助文本挖掘的力量。本文先簡述文本挖掘包括 NLP、信息檢索和自動文本摘要等幾種主要的方法,再從文本表征、分類方法、聚類方法、信息提取方法等幾大部分概述各類機(jī)器學(xué)習(xí)算法的應(yīng)用。機(jī)器之心對本論文進(jìn)行簡要的概述。

論文地址:https://arxiv.org/abs/1707.02919

摘要:每天所產(chǎn)生的信息量正在迅猛增加,而這些信息基本都是非結(jié)構(gòu)化的海量文本,它們無法輕易由計(jì)算機(jī)處理與感知。因此,我們需要一些高效的技術(shù)和算法來發(fā)現(xiàn)有用的模式。文本挖掘近年來頗受大眾關(guān)注,是一項(xiàng)從文本文件中提取有效信息的任務(wù)。本文將對一些最基本的文本挖掘任務(wù)與技術(shù)(包括文本預(yù)處理、分類以及聚類)做出闡述,此外還會簡要介紹其在生物制藥以及醫(yī)療領(lǐng)域的應(yīng)用。

一、簡介

由于以各種形式(如社交網(wǎng)絡(luò)、病歷、醫(yī)療保障數(shù)據(jù)、新聞出版等)出現(xiàn)的文本數(shù)據(jù)數(shù)量驚人,文本挖掘(TM)近年來頗受關(guān)注。IDC 在一份報(bào)告中預(yù)測道:截至到 2020 年,數(shù)據(jù)量將會增長至 400 億 TB(4*(10^22) 字節(jié)),即從 2010 年初開始增長了 50 倍 [50]。

文本數(shù)據(jù)是典型的非結(jié)構(gòu)化信息,它是在大多數(shù)情況下可產(chǎn)生的最簡單的數(shù)據(jù)形式之一。人類可以輕松處理與感知非結(jié)構(gòu)化文本,但機(jī)器顯然很難理解。不用說,這些文本定然是信息和知識的一個寶貴來源。因此,設(shè)計(jì)出能有效處理各類應(yīng)用中非結(jié)構(gòu)化文本的方法就顯得便迫在眉睫。

1. 知識發(fā)現(xiàn) vs 數(shù)據(jù)挖掘(略)

2. 文本挖掘方法

  • 信息檢索(Information Retrieval,IR):信息檢索是從滿足信息需求的非結(jié)構(gòu)化數(shù)據(jù)集合中查找信息資源(通常指文檔)的行為。
  • 自然語言處理(Natural Language Processing,NLP):自然語言處理是計(jì)算機(jī)科學(xué)、人工智能和語言學(xué)的子領(lǐng)域,旨在通過運(yùn)用計(jì)算機(jī)理解自然語言。
  • 文本信息提取(Information Extraction from text,IE):信息提取是從非結(jié)構(gòu)化或半結(jié)構(gòu)化文檔中自動提取信息或事實(shí)的任務(wù)。
  • 文本摘要:許多文本挖掘應(yīng)用程序需要總結(jié)文本文檔,以便對大型文檔或某一主題的文檔集合做出簡要概述。
  • 無監(jiān)督學(xué)習(xí)方法(文本):無監(jiān)督學(xué)習(xí)方法是嘗試從未標(biāo)注文本中獲取隱藏?cái)?shù)據(jù)結(jié)構(gòu)的技術(shù),例如使用聚類方法將相似文本分為同一類。
  • 監(jiān)督學(xué)習(xí)方法(文本):監(jiān)督學(xué)習(xí)方法從標(biāo)注訓(xùn)練數(shù)據(jù)中學(xué)習(xí)分類器或推斷功能,以對未知數(shù)據(jù)執(zhí)行預(yù)測的機(jī)器學(xué)習(xí)技術(shù)。
  • 文本挖掘的概率方法:有許多種概率技術(shù),包括無監(jiān)督主題模型(如概率潛在語義分析模型(pLSA)[64] 與文檔主題生成模型(LDA)[16])和監(jiān)督學(xué)習(xí)方法(如可在文本挖掘語境中使用的條件隨機(jī)場)[83]。
  • 文本流與社交媒體挖掘:網(wǎng)絡(luò)上存在許多不同的應(yīng)用程序,它們可以生成大量的文本數(shù)據(jù)流。
  • 觀點(diǎn)挖掘與情感分析:隨著電子商務(wù)和網(wǎng)絡(luò)購物的問世,產(chǎn)生了大量的文本,并在不同的產(chǎn)品評論或用戶意見上不斷增長。
  • 生物醫(yī)學(xué)文本挖掘:生物醫(yī)學(xué)文本挖掘是指對生物醫(yī)學(xué)科學(xué)領(lǐng)域的文本進(jìn)行文本挖掘的任務(wù)。

二、文本表征和編碼

1. 文本預(yù)處理

  • 標(biāo)記化(Tokenization):標(biāo)記化是將字符序列分解成標(biāo)記(token/單詞或短語)的任務(wù),同時(shí)它可能會去掉某些字符(如標(biāo)點(diǎn)符號)。
  • 過濾:過濾通常在文檔上完成,用于刪除某些單詞。一種常見過濾是停用詞刪除。
  • 詞形還原:詞形還原是有關(guān)單詞形態(tài)分析的任務(wù),即對單詞的各種變形形式進(jìn)行分組,以便將它們作為單個項(xiàng)目進(jìn)行分析。
  • 詞干提?。涸~干提取方法旨在獲取派生詞的詞干(詞根)。詞干提取算法比較依賴于語言。

2. 向量空間模型(略)

三、分類

1. 樸素貝葉斯分類器

樸素貝葉斯分類器可能會是最簡單,用途也最廣泛的分類器。在假設(shè)不同項(xiàng)相互獨(dú)立且服從相同分布的情況下,它通過概率模型對文檔的類別分布進(jìn)行建模。樸素貝葉斯發(fā)對條件概率分布作了條件獨(dú)立性假設(shè),由于這是一個較強(qiáng)的假設(shè),樸素貝葉斯法由此得名。雖然在很多實(shí)際應(yīng)用中,這種所謂的「樸素貝葉斯」的假設(shè)明顯有錯誤,但它的表現(xiàn)仍舊令人驚訝。

用于樸素貝葉斯分類 [94] 的通常有兩個主要模型,它們都以根據(jù)文檔中的單詞分布進(jìn)而得出每一類的后驗(yàn)概率為目標(biāo)。

  • 多變量伯努利模型:該模型中,每篇文檔會由一個二進(jìn)制特征向量來表征文檔中某單詞是否存在,因而忽略了單詞出現(xiàn)的頻率。原論文可在 [86] 中找到。
  • 多項(xiàng)式模型:通過將文檔表示為詞袋(Bag Of Words),因此它能夠捕捉文檔中單詞(項(xiàng))出現(xiàn)的頻率。在 [74,95,99,104] 中則介紹了多項(xiàng)式模型的許多不同變體。McCallum 等人在伯努利和多項(xiàng)式模型之間進(jìn)行了廣泛對比,并得出結(jié)論:若詞匯的數(shù)量很少,伯努利模型可能會優(yōu)于多項(xiàng)式模型;若詞匯數(shù)量很多,多項(xiàng)式模型則總會優(yōu)于伯努利模型;而當(dāng)詞匯數(shù)量對兩種模型而言都處于***狀態(tài)時(shí),多項(xiàng)式模型總會更勝一籌。

2. 最近鄰分類器

最近鄰分類器是一種基于臨近數(shù)據(jù)的分類器,并且基于距離度量來執(zhí)行分類。其主要思想為,屬于同一類的文檔更可能「相似」或者基于相似度計(jì)算彼此更為接近,如在(2.2)中定義的余弦相似度。測試文檔的分類根據(jù)訓(xùn)練集中相似文檔的類別標(biāo)簽推斷而出。如果我們考慮訓(xùn)練集中 K 個最鄰近的值為一個標(biāo)簽,那么該方法被稱為 k 近鄰分類并且這 k 個鄰近值最常見的類就可以作為整個集群的類,請查看 [59, 91, 113, 122] 了解更多 K 近鄰方法。

3. 決策樹分類器

基本上說,決策樹是一種訓(xùn)練樣本的層次樹,其中樣本的特征值可用于分離數(shù)據(jù)的層次,特征分離的順序一般是通過信息熵和信息增益來確定。換句話說,基于定義在每個節(jié)點(diǎn)或者分支的分割標(biāo)準(zhǔn),決策樹能遞歸地將訓(xùn)練數(shù)據(jù)集劃分為更小的子樹。

樹的每個節(jié)點(diǎn)都是對訓(xùn)練樣本一些特征的判定,且從該節(jié)點(diǎn)往下的每個分支或子分支對應(yīng)于這個特征值。從根節(jié)點(diǎn)開始對實(shí)例進(jìn)行分類,首先需要確定信息增益***的特征并排序,然后通過該節(jié)點(diǎn)判定樣本是否具有某種特定的特征,并將樣本分到其以下的分支中,直到完成***一次分類到達(dá)葉節(jié)點(diǎn)。這個過程被遞歸性地重復(fù) [99]。查看 [19, 40, 69, 109] 獲取決策樹的詳細(xì)信息。

決策樹已經(jīng)與提升算法結(jié)合使用,例如梯度提升樹。[47,121] 討論了提高決策樹分類的準(zhǔn)確性的增強(qiáng)技術(shù)。

4. 支持向量機(jī)

支持向量機(jī)(SVM)是受監(jiān)督的學(xué)習(xí)分類算法,它廣泛應(yīng)用于文本分類問題中。不帶核函數(shù)的支持向量機(jī)是線性分類器的一種形式。在文本文檔中,線性分類器是一種線性結(jié)合文檔特征而做出分類決策的模型。因此,線性預(yù)測的輸出可定義為 y = a · x + b,其中 x = (x1, x2, . . . , xn) 是歸一化的文檔詞頻向量,a = (a1, a2, . . . , an) 是系數(shù)向量,b 是標(biāo)量。我們可以將類別分類標(biāo)簽中的預(yù)測器 y = a · x + b 可理解為不同類別中的分離超平面,不帶核函數(shù)的硬間隔支持向量機(jī)只能分割線性可分?jǐn)?shù)據(jù)。

支持向量機(jī)最初在 [34, 137] 被引入。支持向量機(jī)嘗試在不同的類中找到一個「不錯的」線性分離器 [34, 138]。一個單獨(dú)的支持向量機(jī)只能分離兩個類別,即正類和負(fù)類 [65]。支持向量機(jī)試圖找到離正樣本和負(fù)樣本間有***距離 ξ(也被稱為***間隔)的超平面。而確定超平面與樣本見距離 ξ 的文檔被稱為支持向量,支持向量實(shí)際上指定了超平面的實(shí)際位置。如果兩類文檔不是線性可分的,那么一定有樣本是超平面分類錯誤的。這種線性不可分的數(shù)據(jù)是無法使用線性支持向量機(jī)的,而支持向量機(jī)的強(qiáng)大之處在于它的核函數(shù),軟間隔支持向量機(jī)應(yīng)用核函數(shù)就能夠成為十分強(qiáng)大的非線性分類器,并且擁有極其強(qiáng)大的魯棒性。

四、聚類

文本聚類算法被分為很多不同的種類,比如凝聚聚類算法(agglomerative clustering algorithm)、分割算法(partitioning algorithm)和概率聚類算法。

1. 層次聚類算法

層次聚類算法構(gòu)建了一組可被描述為層級集群的類。層級可以自上而下(被稱為分裂)或者自下而上(被稱為凝聚)的方式構(gòu)建。層次聚類算法是一種基于距離的聚類算法,即使用相似函數(shù)計(jì)算文本文檔之間的緊密度。關(guān)于層次聚類算法文本數(shù)據(jù)的完整描述在 [101, 102, 140] 可以找到。

2. K 均值聚類

K 均值聚類是一種在數(shù)據(jù)挖掘中被廣泛使用的分割算法。k 均值聚類根據(jù)文本數(shù)據(jù)的語境將 n 個文檔劃分為 k 組。屬于某一類典型數(shù)據(jù)則圍繞在所構(gòu)建的群集群中心周圍。k 均值聚類算法的基本形式如下:

k 均值聚類算法的基本形式

3. 概率聚類和主題模型

主題建模是***的一種概率聚類算法,近來受到廣泛關(guān)注。主題建模 [16, 53, 64] 的主要思想是為文本文檔的語料構(gòu)建概率生成模型。在主題模型中,文檔是主題的混合體,而主題則是單詞的概率分布。

兩種主要的主題模型分別為:概率潛在語義分析(Probabilistic Latent Semantic Analysis/pLSA)[64] 和隱狄利克雷分布(LDA))[16]。pLSA 模型在文檔層面不提供任何概率模型,這使得很難泛化到新的沒見過的文檔。

隱狄利克雷分配模型是***的無監(jiān)督技術(shù),用于提取所收集文檔的專題信息(主題)[16, 54]。其基礎(chǔ)思想為文檔是潛在主題的隨機(jī)混合,每個主題為單詞的概率分布。

五、信息提取

信息提取(IE)是一種自動從非結(jié)構(gòu)化或者半結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息的任務(wù)。換句話說,信息提取可被視做為一種完全自然語言理解的有限形式,其中我們會提前了解想要尋找的信息。

1. 命名實(shí)體識別(NER)

命名的實(shí)體是一個單詞序列,其可以識別一些現(xiàn)實(shí)實(shí)體,比如「谷歌公司(Google Inc)」、「美利堅(jiān)合眾國(United States)」、「巴拉克奧巴馬(Barack Obama)」。命名實(shí)體識別的任務(wù)是在自定義文本中將找出命名實(shí)體的位置并將其區(qū)分為預(yù)先定義的類別(如人、組織、位置等)。NER 不能像字典一樣簡單地做一些字符串的匹配工作就行,因?yàn)?a) 字典通常是不全的且不會包含給定的實(shí)體類型的命名實(shí)體的所有形式。b) 命名實(shí)體經(jīng)常取決于其語境,比如「大蘋果(big apple)」可以是一種水果,也可以是紐約的綽號。

2. 隱馬爾可夫模型

隱馬爾可夫模型假定產(chǎn)生標(biāo)簽(狀態(tài))或者觀察的馬爾可夫過程取決于一個或者多個之前的標(biāo)簽(狀態(tài))或者觀察。因此對于一個觀察序列 X = (x1, x2, . . . , xn),給定一個標(biāo)簽序列 Y = (y1,y2, . . . ,yn),我們有

隱馬爾可夫模型已經(jīng)成功地被用于命名實(shí)體識別任務(wù)和語音識別系統(tǒng)中。隱馬爾可夫的完整描述請查看 [110]。

3. 條件隨機(jī)場

條件隨機(jī)場(CRFs)是序列標(biāo)注的概率模型。CRF 由 Lafferty 等人***引入。我們在如下的觀察(未被標(biāo)注的數(shù)據(jù)序列)和 Y(標(biāo)簽序列)中提到了與 [83] 中條件隨機(jī)場的相同概念。

條件隨機(jī)場被廣泛用于信息提取和部分的語音標(biāo)注任務(wù)中 [83]。

七、討論

在本文中,我們不僅嘗試對文本挖掘領(lǐng)域做一個簡短的介紹,同時(shí)我們對一些在該領(lǐng)域廣泛使用的基礎(chǔ)算法和技術(shù)做了一個概述。雖然本文主要從發(fā)展和脈絡(luò)上對文本挖掘領(lǐng)域進(jìn)行大概的綜述,并且也很難更細(xì)致地描述這些算法或方法,但本文提供了大量的相關(guān)論文資源,希望能對想深入了解這一領(lǐng)域的讀者提供擴(kuò)展。

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2011-07-25 15:39:49

SQL SERVER數(shù)聚類算法順序聚類算法

2011-07-26 10:16:14

SQL Server數(shù)據(jù)挖掘

2024-12-20 16:00:00

Python文本分類聚類

2025-03-31 08:28:24

大型語言模型LLMDeepSeek

2020-06-11 10:45:58

數(shù)據(jù)算法架構(gòu)

2017-05-15 11:10:10

大數(shù)據(jù)聚類算法

2020-07-09 15:26:18

Python聚類算法語言

2024-10-18 17:14:13

2022-06-06 15:53:44

日志智能

2021-03-15 21:50:22

Linux提取文本GUI工具

2023-11-29 11:30:17

PDF語言模型

2017-04-13 09:18:02

深度學(xué)習(xí)文本分類

2023-10-31 09:00:00

2020-05-13 15:57:59

聚類分析算法監(jiān)督學(xué)習(xí)

2021-03-10 10:20:06

Linux文本命令

2014-07-02 10:34:08

聚類算法算法

2016-12-15 15:08:38

HTML文檔工具

2017-05-31 12:59:44

神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)

2014-05-13 09:56:24

數(shù)據(jù)挖掘

2017-05-23 17:38:05

機(jī)器學(xué)習(xí)算法集群
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號