自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

細說文本挖掘:工具、任務、問題和解決方案

譯文
人工智能 機器學習
本文對文本挖掘進行了詳細介紹,涵蓋了各種常見的用例、典型的系統(tǒng)組成、相關的分類與算法、以及它們各自的優(yōu)缺點。

【51CTO.com快譯】如今,世界的各個角落都在無時不刻地產(chǎn)生著大量的數(shù)據(jù),而且其規(guī)模也在逐年增長。這些豐富的數(shù)據(jù)為人們提供了企業(yè)競爭的優(yōu)勢和管理資源的依據(jù)。我們通常需要通過各種自動化的選擇和處理過程,來實現(xiàn)對于海量數(shù)據(jù)的挖掘與分類。

業(yè)界時常提到文本挖掘的概念,其本質是:一個從給定文本中獲取高質量信息的自動化過程。它與其他類型數(shù)據(jù)分析的主要區(qū)別在于:其輸入的數(shù)據(jù)并未經(jīng)過任何方式的格式化。也就是說,我們不能簡單地運用數(shù)學函數(shù)來描述數(shù)據(jù)。

當下,文本分析、機器學習和大數(shù)據(jù)都在以各自的方式,為不同的公司和企業(yè)帶來業(yè)務增長點。在本文中,我們將和您探討文本挖掘所應對的挑戰(zhàn),以及WaveAccess公司是如何在其應用中使用此項技術的。

一、基本的文本挖掘工具

通過下列步驟,文本挖掘系統(tǒng)將能夠從文本語料庫中提取關鍵知識,以判斷給定的文本是否與指定的主題相關聯(lián),進而揭示其內(nèi)容的細節(jié)。

1. 文檔相關性(搜索與給定主題相關的文本)。其中,給定的主題可以是一些相當狹窄的概念,例如:有關眼科手術的學術論文。

2. 命名的實體。如果一份文檔被認為是相關的,那么系統(tǒng)可能需要在其中找到一些具體的實體,例如:學術名稱、或討論到的疾病名稱。

3. 文檔類型。系統(tǒng)根據(jù)文檔的內(nèi)容對其進行標記。例如:對于某個產(chǎn)品的評論可以被分為正面的、或負面的。

4. 實體鏈接。除了事實本身,系統(tǒng)是否能夠在文檔中找到與事實相聯(lián)系的確切部分,也是非常重要的。例如:某種藥物與副作用之間的關系,或者是某人的名字與對其工作的負面評價之間的關系。

二、典型的文本挖掘任務

文本挖掘不僅有助于我們從大型非結構化的數(shù)據(jù)管理項目中提取有用的知識,而且有利于提高相應的投資回報率。對于一家企業(yè)來說,這就意味著他們無需采用昂貴的手動處理,只需自動化地將不相關的數(shù)據(jù)剔除掉,便可以從大數(shù)據(jù)中得到正確的答案。

下面我們來探討幾個利用文本挖掘進行工作的例子。

1.語義科學文獻的搜索

在大量的科學出版物中,文本挖掘可以幫助我們找到相關的文章,進而節(jié)省時間和金錢。

在法律上,如果在產(chǎn)品中發(fā)現(xiàn)了任何副作用,歐美制藥公司都有義務召回其產(chǎn)品,并修改其傳單頁和其他相關文件中涉及到患者的信息。那么除了公司自己的研究方式以外,發(fā)現(xiàn)副作用的主要途徑便是閱讀其他研究人員的科學文章。由于每年發(fā)表出來的文章數(shù)量龐大,因此他們幾乎不可能去手動處理所有的文章。

為了解決此問題,科學出版商(或者是與出版商有關聯(lián)的數(shù)據(jù)分析公司)會根據(jù)客戶(制藥公司)所指定的算法和方法,提供自動化的文章搜索服務。而在客戶方面,在得到了所需格式的相關文章簡報之后,他們便可以選擇要購買的指定文章了。

2.定價出版物

如下圖所示,出版商對于這些***科學文章與研究成果的收費標準是:每篇25-30美元的起步價。那么,制藥公司就陷入了兩難的局面:一方面,根據(jù)法律他們有義務跟蹤其產(chǎn)品的所有副作用,以便修改產(chǎn)品規(guī)格或從市場上召回其產(chǎn)品。另一方面,購買所有可能提到某種藥物的文章是一筆昂貴的開銷,更不用說需要花費時間來處理所有這些文字了。  

在WavetAccess公司,我們?yōu)橹扑幮袠I(yè)的客戶開發(fā)了一種自動化文章搜索方案:我們運用文本挖掘平臺來搜索文章及其元數(shù)據(jù),從而保證客戶只為最有可能包含相關文本的文章買單。

鑒于此類任務的復雜性,我們用到的文本挖掘技術有:針對來源于非標準化書目的數(shù)據(jù),我們采用了單獨的搜索方式,有時甚至需要通過機器學習,去解析元數(shù)據(jù)里包含的公司地址等信息。

3.市場調查

文本挖掘的相關應用有助于定位目標公司所處的社交媒體空間,并分析它在空間里的認可程度。

許多企業(yè)往往需要對自己的產(chǎn)品,及其競爭產(chǎn)品進行客觀的評估,以制定出獨有的發(fā)展戰(zhàn)略。在此,自動化的文本處理系統(tǒng),更適合應對大量的信息來源(包括:學術文章、雜志、新聞、產(chǎn)品評論網(wǎng)站等),以及五花八門的產(chǎn)品使用評論。

4.信息源可信度

有了文本挖掘,我們還需要進一步將各種虛假的評論,與那些公平公正的評論相區(qū)別開來。

在醫(yī)藥領域,“產(chǎn)品評論”是指那些發(fā)表在可信學術雜志上的藥物檢測結果。由于業(yè)界對于學術論文的標準要求比較高,因此它們很難出現(xiàn)“虛假評論”。但是,如果把分析目標鎖定為所有可公開訪問的來源(包括互聯(lián)網(wǎng)),那么我們就必須給評論的作者和來源的信譽予以排名,以甄別出虛假的評論。而在學術論文領域,這被稱為引文索引(citation index,CI)。因此在文章搜索中,我們引入了這些參考因素,并將其包含在最終的報告中,以便讀者自行判定是否信任那些給出的信息源。

另一個相關、但又不相同的參考因素叫做情緒分析(也稱為觀點挖掘)。其目標是評估作者對于給定對象的情緒態(tài)度。這同樣有助于對各種評論進行分類,并且找出針對目標公司的負面輿論。

5.知識管理

對于文書工作的優(yōu)化,有助于公司了解到有哪些可用的數(shù)據(jù)和文檔,并設置針對它們的快速訪問。

許多公司在其規(guī)模擴大的過程中,積累了大量的知識資產(chǎn)。不過,這些資產(chǎn)卻往往存在著結構不良,沒有實現(xiàn)標準化等問題。各部門可能持續(xù)使用著自己保存的內(nèi)部文檔,或者根本就沒有任何保存的意識。那么當不同的公司合并到一起時,問題就會整體爆發(fā),他們幾乎不可能找到所需要的信息。因此,為了更好地利用過去所積累的知識,此處該“請出”文本挖掘系統(tǒng)了。它可以實現(xiàn)如下四個方面:

  • 自動收集和標準化不同來源的數(shù)據(jù)。
  • 添加元數(shù)據(jù)(如文檔源、作者、創(chuàng)建日期等)。
  • 對文檔進行索引和分類。
  • 通過用戶定義的參數(shù),來提供文檔搜索的界面。

另外,此類文本挖掘系統(tǒng)還應該根據(jù)相關的安全標準,配備用戶角色與授權級別的管控。

6.客戶服務部門優(yōu)化

除了各種內(nèi)部文檔之外,公司往往還需要從外部獲取大量的文本數(shù)據(jù),例如:導入從網(wǎng)站錄入進來的表單和訂單。因此,文本挖掘系統(tǒng)可以對傳入的請求進行排序,并提供客戶需要的詳細信息。通過最小化訂單的處理時間,客戶服務部門可以為更多的客戶提供服務,企業(yè)也更加能夠盈利。

7.文本挖掘如何創(chuàng)收

我們有一家提供工業(yè)級別維護與維修的客戶公司。他們每天最多能收到4000個維修請求??蛻舴战?jīng)理需要在CRM系統(tǒng)中創(chuàng)建修復條目,并在彈出的列表中選擇修復的類別和類型。然后,他們根據(jù)請求的數(shù)量,再分配修復小組的工作量。

由于請求并非是以特定的格式提交的,因此在引入文本挖掘之前,他們只能花費大量的時間,靠人工去填寫所有的字段。

WavetAccess公司給他們開發(fā)了一套基于未知格式的文本系統(tǒng),以幫助客戶服務部門更好地對各種請求進行排序。該系統(tǒng)預制了一些最有可能的類別,并幫助員工在CRM的彈出列表中快速地定位到某些特定情況。同時,這套系統(tǒng)也能甄別出那些收費項目,并為公司實現(xiàn)創(chuàng)收。

8.垃圾郵件過濾

垃圾郵件過濾的目標是:對大量的郵件流(包括電子郵件和短信)進行分類,以實現(xiàn)對那些不需要的郵件進行分類。因此對于這項工作而言,文本挖掘技術需要能夠根據(jù)快速的算法,判斷和處理大量的數(shù)據(jù)。

通過上述應用案例,我們可以看到:企業(yè)所面對的文本數(shù)據(jù)往往是“非標”的,而他們的處理目標也是多樣的。因此我們無法僅使用某個單一的分析方法,來提高對于文本挖掘與決策的效率。下面讓我們深入討論文本挖掘過程中的不同開發(fā)階段,以及流行的項目優(yōu)化方法。

三、實施過程中的信息搜索問題

最常見的文本挖掘任務之一莫過于:搜索相關文檔,并從中提取信息。那么隨著數(shù)據(jù)量的不斷增加,該任務的自動化程度就顯得尤為重要。執(zhí)行此類任務的典型系統(tǒng)一般由兩部分組成:

  • 文檔收集和標準化。
  • 文檔分類和分析。

下面讓我們詳解這兩個部分。

1.文檔收集和標準化

此階段的目標是:

  • 持續(xù)收集和提取文本的結構化數(shù)據(jù)。
  • 收集文檔的元數(shù)據(jù)(包括創(chuàng)建日期、標題等)。
  • 標準化文檔的文本和元數(shù)據(jù)。

由于數(shù)據(jù)的來源五花八門,而且收集的方法也是靈活多樣,因此在上傳之前,我們有時需要使用格式轉換器,來處置好目標文檔的格式。下面是一些具體的數(shù)據(jù)收集與準備任務:

通過對源文檔的掃描,來收集數(shù)據(jù)

在這種情況下,系統(tǒng)使用光學字符識別引擎(如:Tesseract之類的OCR工具),將文本分成多個部分與段落。不過,光學識別的一個常見問題是:它經(jīng)常會碰到格式較為復雜的文本(如各種列或表格),這些元素都會影響系統(tǒng)的最終轉換,以及合并出有意義的文檔。此外,有時為了同時掃描多個文檔,系統(tǒng)需要使用特定的屬性標記,標注出給定文檔的開頭和結尾。

通過PDF或DJVU文檔的方式收集數(shù)據(jù)

這些文檔的格式,雖然比較適合用來查看那些格式化好的文檔,但是不適合被應用來存儲結構化的數(shù)據(jù)。PDF與DJVU文件雖然能夠存儲符號和單詞的位置,以便于顯示和用戶的閱讀,但這些文件并沒有任何的語句邊界標記。因此,和上述文檔掃描方式類似,此類具有復雜格式、表格和圖像的PDF與DJVU文件,也會給文本的挖掘帶來不同程度的挑戰(zhàn)。

從Web源收集數(shù)據(jù)

并非所有包含數(shù)據(jù)源的網(wǎng)站或系統(tǒng)都有便捷的API,有時它們可能只是一個方便操作的用戶界面而已。在這種情況下,系統(tǒng)需要用到Web爬蟲,即:通過分析網(wǎng)站來收集數(shù)據(jù)。因此,除了常用的HTML代碼分析,系統(tǒng)還可能需要使用計算機視覺(computer vision)來解決此類特殊問題。

用戶手動上傳數(shù)據(jù)

有時候,用戶已經(jīng)有能力在本地自動化地處理一定數(shù)量的文檔了。那么,系統(tǒng)為了支持用戶上傳大量具有豐富格式的文檔,就必須將某些元數(shù)據(jù)添加到上載的文檔之中。諸如發(fā)布日期、作者、源、以及文檔類型之類的元數(shù)據(jù),將有助于后期的文本挖掘操作,包括:針對特定主題,查找特定作者的作品等操作。

因此,在面對大量可用的數(shù)據(jù)時,我們可能只是需要其中的一小部分。例如:我們可能只對某醫(yī)學與藥物數(shù)據(jù)庫中的某個特定公司的藥物感興趣。那么,我們就應該通過訪問關鍵字列表,運用全文索引,來快速檢索到所需的文檔;而不是使用精確但耗費資源的算法,去處理所有的文檔。如果我們的目標是從多個來源收集數(shù)據(jù),那么就應當使用特定的標準化接口,以迅速高效地獲取文檔。在此,您可以參考Solr工具,它是一個開源的全文搜索平臺。

2.文檔分類和分析

在對各類文檔完成收集入庫(也可能進行篩選操作)之后,系統(tǒng)會調用各種文本挖掘算法,來檢查目標文檔是否與主題相關,以及分析文檔內(nèi)所包含的信息。例如:通過判斷文檔中是否提到了某個產(chǎn)品,以確定其上下文是“正”還是“負”。此后,系統(tǒng)將生成一份文檔報告,以便下一步進行手動或自動處理。

總的說來,文本挖掘的方法和算法分為以下幾組:

  • 文本規(guī)范化和預處理。
  • 使用一整套規(guī)則來搜索實體和他們之間關系。
  • 使用各種統(tǒng)計方法和機器學習。

上述這些方法通常會被放到一些復雜的系統(tǒng)中,并被組合到一起使用。

文本規(guī)范化和預處理

此階段處于其他階段之前,包括以下部分:

  • 將句子分為多個單詞。
  • 刪除停頓詞(stop words,如前置詞、感嘆詞等)。
  • 規(guī)范化剩余的詞語(將“人們”變成“人”,將“實現(xiàn)了”變成“實現(xiàn)”),并識別它們在語句中的成分。

顯然,這些步驟高度依賴于文本的語言,不過也并非總是必要的。例如:某些文本挖掘算法,也可以從停頓單詞中收集到各種信息。

規(guī)則集

這種方法基于由某個特定領域的專家所制定的一整套規(guī)則。下面是此類規(guī)則的示例:

  • 在帶有公司名稱的三個句子中,選擇所有提到的產(chǎn)品名稱。
  • 選擇匹配“<公司名稱>提供<服務名稱>”模式的服務。
  • 消除那些提及公司產(chǎn)品名稱的次數(shù)少于三次的文檔。

語言規(guī)格

此類規(guī)則的重點在于通過語言來分析詞序。例如:在英語句子中,單詞之間的關系是通過語法和功能詞(前置詞等)來傳達,而核心詞一般保持不變。

而在合成語言(例如德語、希臘語、拉丁語、俄語)中,單詞之間的關系是通過單詞的形式來表達的,語序并不重要。

因此在分析英語時,那些非核心詞的“服務性”詞語(前置詞等)負責傳達形式和時態(tài)。例如那句經(jīng)典的Word語句:“棕色的狐貍快速地跳過了懶惰的狗”。

與合成語言相比,英語的這句話并不假設棕色的狐貍是雄性還是雌性,而懶惰的狗的性別也不明顯。其中,“狐貍”和“狗”都是清晰不變的核心詞。

規(guī)則的優(yōu)、缺點

優(yōu)點

  • 無需訓練數(shù)據(jù)或對其進行標記。
  • 由系統(tǒng)所做出的判斷是明確的,且容易向人類用戶做出解釋。

缺點

  • 需要花一定的精力來制定一套能夠給出足夠精度的規(guī)則。
  • 就算模式只是略有不同,現(xiàn)有規(guī)則也無法處理新案例中的相關數(shù)據(jù)。

五、統(tǒng)計方法與機器學習

文本數(shù)據(jù)的復雜性和難以規(guī)范化其結構,造成了它們在機器學習的應用中顯得尤為復雜。我們需要測試多種方法或算法,才能找到針對給定上下文的可接受的輸出方案。

下面是一些常用的算法示例:

文本預處理算法

除了單詞規(guī)范化和刪除停頓詞之外,某些算法還會要求將文本轉換為數(shù)字形式,以作為矢量或矢量序列。最常用的文本預處理算法有:

1.One-hot encoding,是一種最簡單的算法。它將文本中的單詞轉換為,在i-th位置上具有非零值的N-long向量。其中N是語言字典長度,而i則為該字典中單詞的位置。

2.word2vec,也是對單詞進行矢量化的一組算法。與One-hot encoding相比,它生成的向量要短得多,并且包含各種實數(shù)(并不整數(shù))。word2vec能夠給具有相似含義的單詞賦予相似的向量。

3.Bag of words,是一種基于單詞頻率的算法(即:某個單詞在文檔中出現(xiàn)的次數(shù))。雖然它能夠通過向量來描述一般文本,但是它幾乎完全忽略了文本的結構。

4.TF-IDF,是一種能夠為每個文本形成tf-idf值向量的算法。此處tf-idf值為給定文本中的單詞頻率,除以整個語料庫中這個單詞的反向頻率。而反向頻率則可以通過不同的方法計算出來。所以基本想法是:如果一個詞語經(jīng)常在語言中被使用到,那么就給它分配較低價值的分類(例如:許多前置詞,包括“去”、“工作”、“有”、“需要”等都屬于此類),同時其反向頻率也就比較低。相反,那些罕見的詞語當然也就有著較高的反向頻率,其分類的價值也就越高。

命名實體識別和關系提取算法

此項工作是:查找特定的術語(如:公司、產(chǎn)品、服務名稱等),通過標記來對它們進行分類,進而找出這些實體之間的關系。因此,可能會涉及到如下算法:

1.隱馬爾可夫模型(Hidden Markov model,HMM),它將統(tǒng)計模型表示為定向圖。

2.條件隨機場(Conditional Random Field,CRF)也是一個統(tǒng)計模型,但是它并不使用定向圖。

3.神經(jīng)網(wǎng)絡(Neural networks),其中LSTM能夠表示上下文,因為它能夠時序地(非重復地)通過處理過程,來存儲上下文數(shù)據(jù)。CNN則根據(jù)所發(fā)現(xiàn)的基本特征模式來提取數(shù)據(jù)。

4.一般機器學習方法。如果系統(tǒng)使用的是“滑動窗口(sliding window)”技術,那么常規(guī)的機器學習方法則包括:邏輯回歸、支持向量機、樸素貝葉斯分類器、決策樹和其他需要輸入具有固定特征列表的方法。當然,此類方法并不考慮窗口之外的上下文。因此,如果相關的單詞遠離窗口長度的范圍,或是對于整個文本塊有一些其他類型的評論(例如,產(chǎn)品描述的負面評論)時,這些信息則會被忽略,進而可能產(chǎn)生不準確的結果。

分類和主題建模算法

此項任務是對已處理的文檔,產(chǎn)生包括文檔類型或主題在內(nèi)的簡單描述。因此,可能會涉及到如下算法:

1.潛在狄利克雷分配(Latent Dirichlet Allocation,LDA),是一種基于狄利克雷(Dirichlet)分布的統(tǒng)計模型。它能將文本視為不同主題的組合。

2.潛在語義分析(Latent Semantic Analysis,LSA),是一種將語料庫表示為術語文檔矩陣,通過將其分解,以定義不同文檔主題的方法。

3.主題模型的加法正則化(Additive Regularization of Topic Models,ARTM),是將現(xiàn)有的統(tǒng)計模型與正則化相結合,進而更好地分析文本結構。

4.使用bag of words、tf-idf 和其他算法的結果,作為輸入的通用機器學習方法。

當然,各種算法的性能也會因作業(yè)的不同而有所差異。例如:對于不同的文本主題或命名實體來說,某些算法的工作效果可能會表現(xiàn)得特別優(yōu)秀。因此,我們在構建文本挖掘系統(tǒng)時,可以通過嘗試不同的方法,以找到***的輸出結果;或是將不同技術的結果相結合,以達到文本挖掘的目的。

統(tǒng)計方法與機器學習的利與弊

優(yōu)點

  • 能自動搜索文本特征和所需結果之間的關系。
  • 能考慮到文本內(nèi)部復雜的關系。
  • 有泛化推廣能力(對不在培訓集中的案例采取正確處理方式)。

缺點

  • 根據(jù)算法的不同,訓練集是必需的,而且可能會相當大。
  • 該系統(tǒng)所做出的決策并不總是正確的且可解釋的。一旦系統(tǒng)給出了不正確的結果,后期很難予以檢測并修復問題。

原文標題:Text Mining 101:What it Is and How it Works,作者:Ilya Feigin

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

 

責任編輯:龐桂玉 來源: 51CTO
相關推薦

2022-03-31 10:25:20

物聯(lián)網(wǎng)工業(yè) 4.0大數(shù)據(jù)分析

2023-10-16 16:08:42

工業(yè) 4.0物聯(lián)網(wǎng)邊緣計算

2010-01-06 17:13:05

Jquery工具函數(shù)

2020-03-11 09:57:10

數(shù)據(jù)安全網(wǎng)絡安全網(wǎng)絡攻擊

2023-03-24 15:06:03

2023-04-12 11:32:33

網(wǎng)絡

2021-08-13 09:48:25

惡意軟件移動威脅網(wǎng)絡攻擊

2023-09-07 10:37:43

OCR項目字符串

2018-07-13 11:30:01

2010-11-30 10:43:40

華為云計算解決方案

2021-01-11 10:10:23

開發(fā)文本溢出開發(fā)技術

2023-11-03 14:32:38

2023-10-16 11:23:03

2009-12-25 14:40:38

Windows 7圖標丟失

2023-11-07 18:56:05

2010-08-23 16:13:11

DHCP服務器

2010-01-18 14:28:59

2014-09-12 18:00:54

希捷

2023-11-10 14:58:03

點贊
收藏

51CTO技術棧公眾號