自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="l4cgk"><fieldset id="l4cgk"></fieldset></pre>

<pre id="l4cgk"></pre>

<center id="l4cgk"><span id="l4cgk"><dl id="l4cgk"></dl></span></center>

<ul id="l4cgk"><acronym id="l4cgk"></acronym></ul>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

思路總結(jié)：對微博情感分析的的挖掘

作者：bingyang87628 2014-07-18 09:51:05

大數(shù)據(jù)

一朋友由于工作需要，準(zhǔn)備對新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊，便于他后期的實(shí)驗(yàn)實(shí)踐。實(shí)際上，文本挖掘及分析在未來都會產(chǎn)生較大的效果。

一朋友由于工作需要，準(zhǔn)備對新浪微博進(jìn)行相關(guān)的抓取挖掘。特別是情感分析這一塊，便于他后期的實(shí)驗(yàn)實(shí)踐。實(shí)際上，文本挖掘及分析在未來都會產(chǎn)生較大的效果。舉一個簡單的例子，現(xiàn)在地鐵里的每個人每天都會去刷新自己的人人好友圈，微信好友消息。而這些消息大部分是基于文本的。如何對這些原始的消息進(jìn)行挖掘。進(jìn)而為相應(yīng)的精準(zhǔn)營銷做準(zhǔn)備。在以后的營銷中將會產(chǎn)生重大效果。

原始數(shù)據(jù)

這一部分的內(nèi)容，我們可以通過爬蟲技術(shù)來抓取。通過聚類算法，找到相同話題的所有微博。然后拿來做為原始數(shù)據(jù)。還有就是用戶好友圈內(nèi)的評價消息，還有用戶產(chǎn)生的連接消息，等等。這些都可以作為原始數(shù)據(jù)來歸入我們的數(shù)據(jù)庫。

確訂目標(biāo)(商業(yè)理解)

這一步也同時與業(yè)務(wù)理解要很好的關(guān)聯(lián)起來，首先，我們是要用這些原始數(shù)據(jù)來作什么？比如，我們用情感分析，所有不同用戶對同一事件的理解。我們要將他們的微博信息里的關(guān)鍵詞找出來。然而進(jìn)行相應(yīng)的查找算法，進(jìn)而確定所有用戶對這一事件的評價。然后，我們要通過用戶的評價，找到有二次商業(yè)利用值的客戶。然后確訂為目標(biāo)客戶。

數(shù)據(jù)理解

所抓取到的微博內(nèi)容是什么，里邊帶幾個鏈接？是用什么符號與之相連？文字，圖片的分類，另外還有評論信息是否也有參考價值。里邊的特殊符號代表什么？等等。這些信息，那些是對我們的來說是有用的，如何去用？比如說要從文本中挖掘出關(guān)建字，進(jìn)行相關(guān)的營銷活動。從而確定博主的情感動向。進(jìn)而可以做些什么？理解我們的數(shù)據(jù)，才能更好的抓取到我們所要使用的數(shù)據(jù)。

模型建立

有人說，搞數(shù)據(jù)挖掘的人就是要來做這一部分的內(nèi)容。你要建立一個好的模型，那以后的數(shù)據(jù)通過你的這個模型，那么你所需要的內(nèi)容自動地就會呈現(xiàn)出來。而這一部分也是整個數(shù)據(jù)挖掘里最難的部分。

比如說我們的微博數(shù)據(jù)，我們可以通過決策樹算法建立模型。***輸出那些關(guān)健字的客戶就是我們的目標(biāo)客戶。又或者，我們可以通過神經(jīng)網(wǎng)絡(luò)的算法建立模型，找到相關(guān)的所的決策項。實(shí)際上，數(shù)據(jù)挖掘所用到的方法很多，也很復(fù)雜，我也是到現(xiàn)在還是沒有弄清楚一些算法的核心思想。但這樣并不影響我們來使用相關(guān)的算法來進(jìn)行挖掘。再者說，現(xiàn)在的挖掘?qū)ο?，真正上PB內(nèi)容的資料也不是很多的。很多企業(yè)還停留在小型機(jī)的階段。所以，有的時候，我會開玩笑的說：數(shù)據(jù)量太小的話，EXECL會更好一些，然后是ACCESS數(shù)據(jù)庫。再然后就是ORCALE數(shù)據(jù)庫.....

模型建立是一個比較幸苦的工作，可是如果建立完成后，一般3-5年不會發(fā)生變化。比如我們現(xiàn)在的信用卡的信用評分系統(tǒng)。

模型評估

這一部分內(nèi)容，是進(jìn)行相關(guān)優(yōu)化。也就是說模型建立好了，開始要跑業(yè)務(wù)了。要測試一下看它到底能跑到什么樣的程度。有的時候，你挖掘了半年，也找到的目標(biāo)客戶，結(jié)果被其他人先用其他方法吸引走了，怎么辦？所以才要有模型評估這件工作。

先將大數(shù)據(jù)里的一部分?jǐn)?shù)據(jù)，一般是40%拿來先做訓(xùn)練，你也可以拿少量來試一試。然后看完成這些數(shù)據(jù)需要多長時間。換了其他的算法后，是否可以提高挖掘時間。一般這一步的數(shù)據(jù)分配要遵守一個4:3:3的原則，即40%拿來做訓(xùn)練，30%來做測試，另外的30%拿來做驗(yàn)證。綜合來說，才能夠評價這個模型的好壞，以及這個模型是否能產(chǎn)生它的相應(yīng)價值。

發(fā)布模型

這是***一步，讓所有微博數(shù)據(jù)進(jìn)行相應(yīng)的算法優(yōu)化。進(jìn)而達(dá)到***的挖掘效果。

在以上的這幾個步驟中，模型評估與商業(yè)理解其實(shí)也是相輔相成的，因?yàn)檫@兩個主要是與數(shù)據(jù)最為密切。而數(shù)據(jù)理解與商業(yè)理解又是相互制約的，很多時候，我們是有了大數(shù)據(jù)，但是我們找不到我們的所要挖掘的目標(biāo)在那里，這時就需要不斷的修訂我們的商業(yè)理解與數(shù)據(jù)理解，然而，模型的相關(guān)內(nèi)容，在整個閉環(huán)的過程中并不顯的那么重要。有的時候，客戶的一個很簡單的需求，我們并不一定要用復(fù)雜的技術(shù)來實(shí)現(xiàn)，簡單也許就意味著勝利。

再來說說在文本挖掘中的思路，少量的文本信息。我們可以放在在WORD里用復(fù)制粘貼來完成，多的話可以用EXCEL，再多的話可以用U1，要是還是多就用SAS與R，再多就用其他的了，具體什么軟件，我也沒用過。

博文地址：http://bingyang.blog.51cto.com/533655/1437665

責(zé)任編輯：林師授來源： 51CTO

挖掘數(shù)據(jù)分析

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="a2joi"></pre>