自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一分鐘了解互聯(lián)網(wǎng)數(shù)據(jù)挖掘流程

作者：佚名 2015-10-10 14:11:00

大數(shù)據(jù)

真實(shí)的數(shù)據(jù)挖掘項(xiàng)目，一定是從獲取數(shù)據(jù)開(kāi)始的，除了通過(guò)一些渠道購(gòu)買(mǎi)或者下載專(zhuān)業(yè)數(shù)據(jù)外，常常需要大家自己動(dòng)手爬互聯(lián)網(wǎng)數(shù)據(jù)，這個(gè)時(shí)候，爬蟲(chóng)就顯得格外重要了。

1、爬蟲(chóng)抓取網(wǎng)絡(luò)數(shù)據(jù)

真實(shí)的數(shù)據(jù)挖掘項(xiàng)目，一定是從獲取數(shù)據(jù)開(kāi)始的，除了通過(guò)一些渠道購(gòu)買(mǎi)或者下載專(zhuān)業(yè)數(shù)據(jù)外，常常需要大家自己動(dòng)手爬互聯(lián)網(wǎng)數(shù)據(jù)，這個(gè)時(shí)候，爬蟲(chóng)就顯得格外重要了。

Nutch爬蟲(chóng)的主要作用是從網(wǎng)絡(luò)上抓取網(wǎng)頁(yè)數(shù)據(jù)并建立索引。我們只需指定網(wǎng)站的***網(wǎng)址，如taobao.com，爬蟲(chóng)可以自動(dòng)探測(cè)出頁(yè)面內(nèi)容里新的網(wǎng)址，從而進(jìn)一步抓取鏈接網(wǎng)頁(yè)數(shù)據(jù)。nutch支持把抓取的數(shù)據(jù)轉(zhuǎn)化成文本，如（PDF、WORD、EXCEL、HTML、XML等形式）轉(zhuǎn)換成純文字字符。

Nutch與Hadoop集成，可以將下載的數(shù)據(jù)保存到hdfs，用于后續(xù)離線分析。使用步驟為：

向hdfs中存入待抓取的網(wǎng)站url

$ hadoop fs -put urldir urldir

注：

***個(gè)urldir為本地文件夾，存放了url數(shù)據(jù)文件，每行一個(gè)url地址

第二個(gè)urldir為hdfs的存儲(chǔ)路徑。

啟動(dòng)nutch，在NUTCH_HONE目錄下執(zhí)行以下命令

$ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10

命令成功執(zhí)行后，會(huì)在hdfs中生成crawl目錄。

2、MapReduce預(yù)處理數(shù)據(jù)

對(duì)于下載的原始文本文檔，無(wú)法直接進(jìn)行處理，需要對(duì)文本內(nèi)容進(jìn)行預(yù)處理，包括文檔切分、文本分詞、去停用詞（包括標(biāo)點(diǎn)、數(shù)字、單字和其它一些無(wú)意義的詞）、文本特征提取、詞頻統(tǒng)計(jì)、文本向量化等操作。

常用的文本預(yù)處理算法是TF-IDF，其主要思想是，如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率高，并且在其他文章中很少出現(xiàn)，則認(rèn)為此詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力，適合用來(lái)做分類(lèi)。

輸入原始文本內(nèi)容：

Againit seems that cocoa delivered……

執(zhí)行TF-IDF預(yù)處理：

hadoop jar $JAR SparseVectorsFromSequenceFiles……

輸出文本向量:

9219:0.246 453:0.098 10322:0.21 11947:0.272 ……

每一列是詞及其權(quán)重，使用冒號(hào)分隔，例如“9219:0.246”表示編號(hào)為9219的詞，對(duì)應(yīng)原始單詞為“Again”，其權(quán)重值為0.246。

3、Mahout數(shù)據(jù)挖掘

預(yù)處理后的數(shù)據(jù)就可以用來(lái)做數(shù)據(jù)挖掘。Mahout是一個(gè)很強(qiáng)大的數(shù)據(jù)挖掘工具，是分布式機(jī)器學(xué)習(xí)算法的集合，包括：協(xié)同過(guò)濾、分類(lèi)、聚類(lèi)等。

以LDA算法為例，它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。它是一種無(wú)監(jiān)督學(xué)習(xí)算法，在訓(xùn)練時(shí)不需要手工標(biāo)注主題，需要的僅僅是指定主題的數(shù)量K。此外LDA的另一個(gè)優(yōu)點(diǎn)則是，對(duì)于每一個(gè)主題均可找出一些詞語(yǔ)來(lái)描述它。

輸入預(yù)處理后的數(shù)據(jù):

9219:0.246 453:0.098 ……

執(zhí)行LDA挖掘算法：

mahout cvb –k 20……

輸出挖掘結(jié)果：

topic1 {computer,technology,system,internet,machine}

topic2 {play,film,movie,star,director,production,stage}

我們可以獲知用戶(hù)的偏好是哪些主題，這些主題是由一些關(guān)鍵詞組成。

4、Sqoop導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)

在某些場(chǎng)景下，需要把數(shù)據(jù)挖掘的結(jié)果導(dǎo)出到關(guān)系數(shù)據(jù)庫(kù)，用于及時(shí)響應(yīng)外部應(yīng)用查詢(xún)。

sqoop是一個(gè)用來(lái)把hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)（例如：MySQL ,Oracle 等）中的數(shù)據(jù)導(dǎo)入到hadoop的hdfs中，也可以將hdfs的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫(kù)中：

sqoop export –connect jdbc:mysql://localhost:3306/zxtest –username root–password root –table result_test –export-dir /user/mr/lda/out

export操作實(shí)現(xiàn)把hdfs目錄/user/mr/lda/out下數(shù)據(jù)導(dǎo)出到mysql的result_test表。

責(zé)任編輯：李英杰來(lái)源：數(shù)據(jù)網(wǎng)

互聯(lián)網(wǎng)數(shù)據(jù)挖掘爬蟲(chóng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sup id="y1qo0"></sup>

<cite id="y1qo0"></cite>

<blockquote id="y1qo0"><p id="y1qo0"></p></blockquote>

<cite id="y1qo0"><rp id="y1qo0"></rp></cite>

<sup id="y1qo0"><rt id="y1qo0"></rt></sup>

<blockquote id="y1qo0"></blockquote>