大數(shù)據(jù)時(shí)代已來臨,你準(zhǔn)備好了嗎?
原創(chuàng)昨日,在亮馬河大廈舉辦了2011大數(shù)據(jù)世界論壇。
大會現(xiàn)場
覆蓋金融,電信,政府,醫(yī)療,能源,公共事業(yè),零售,物流等行業(yè)對大數(shù)據(jù)存儲,挖掘均有巨大需求,本次論壇集各家所長,共同解決一個(gè)問題:面對海量數(shù)據(jù),你準(zhǔn)備好了嗎?
從幾拍字節(jié)的數(shù)據(jù)倉庫到社交媒體數(shù)據(jù),從基于云計(jì)算的應(yīng)用程序到傳感器和移動設(shè)備,從電子商務(wù)處理到地理空間信息,海量數(shù)據(jù)的時(shí)代已經(jīng)來臨。在已經(jīng)到來的大數(shù)據(jù)量時(shí)代,數(shù)據(jù)存儲發(fā)生了什么變化嗎?是的,發(fā)生了巨大的變化,存儲形式仿佛轉(zhuǎn)了一個(gè)圈,又回到了文件式存儲。據(jù)統(tǒng)計(jì),包括視頻、音頻、圖片、微博等在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)將占企業(yè)數(shù)據(jù)的80%左右,到2012年數(shù)據(jù)存儲基本會是以文件形式存儲。
在這個(gè)大時(shí)代來臨之時(shí),您是否還記得1TB的數(shù)據(jù)倉庫被視為大儲量的年代?如今,您只需要付出不到100美元就可以從當(dāng)?shù)亓闶凵烫庂徺I到存儲量為1TB的存儲設(shè)備,而許多數(shù)據(jù)倉庫的存儲量已經(jīng)超過了拍字節(jié)。
不過持續(xù)增長的數(shù)據(jù)量僅僅是海量數(shù)據(jù)的一半構(gòu)成內(nèi)容,海量數(shù)據(jù)同時(shí)帶來了數(shù)據(jù)的多樣性,復(fù)雜性以及速率的大規(guī)模增長。這種變化具有破壞力嗎?是的,它具有破壞力,你做好準(zhǔn)備迎戰(zhàn)它,擊敗它了嗎?這是一次商機(jī)嗎?是的,這是一次商機(jī),那么你做好準(zhǔn)備去利用它了嗎?該如何擊敗,該如何利用?答案只有一個(gè):數(shù)據(jù)挖掘,挖掘出商機(jī)無限,挖掘出潛在信息。
在大眾點(diǎn)評網(wǎng)CEO張濤看來,數(shù)據(jù)挖掘是一家互聯(lián)網(wǎng)公司必不可少的。實(shí)際上,不只是互聯(lián)網(wǎng)公司,數(shù)據(jù)挖掘?qū)τ谌我庖患夜径际潜夭豢缮俚摹?/p>
#p#
什么是數(shù)據(jù)挖掘?
簡單地說,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識。該術(shù)語實(shí)際上有點(diǎn)用詞不當(dāng)。注意,從礦石或砂子挖掘黃金稱作黃金挖掘,而不是砂石挖掘。因 此,數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名為“從數(shù)據(jù)中挖掘知識”,遺憾的是這個(gè)詞有點(diǎn)長。“知識挖掘”是一個(gè)較短的術(shù)語,但不能反映從大量數(shù)據(jù)中挖掘。畢竟,挖掘是 一個(gè)很生動的術(shù)語,它抓住了從大量的、未加工的材料中發(fā)現(xiàn)少量寶貴金塊這一過程的特點(diǎn)(見圖1-3)。這樣,“數(shù)據(jù)挖掘”成了流行術(shù)語。還有一些術(shù)語具有 和數(shù)據(jù)挖掘類似但稍微不同的含義,如從數(shù)據(jù)中挖掘知識、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。
許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語數(shù)據(jù)中的知識發(fā)現(xiàn)或KDD的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個(gè)基本步驟。知識發(fā)現(xiàn)過程如圖1-4所示,由以下步驟的迭代序列組成:
1. 數(shù)據(jù)清理(消除噪聲和不一致數(shù)據(jù))
2. 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)
3. 數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù))
圖1-3 數(shù)據(jù)挖掘:在你的數(shù)據(jù)中搜索知識(有趣的模式)
圖1-4 數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)過程的一個(gè)步驟
4. 數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作)
5. 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)
6. 模式評估(根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式;見1.5節(jié))
7. 知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識)
步驟1~4是數(shù)據(jù)預(yù)處理的不同形式,為挖掘準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)挖掘步驟可能與用戶或知識庫交互。有趣的模式提供給用戶,或作為新的知識存放在知識庫中。注意,根據(jù)這種觀點(diǎn),數(shù)據(jù)挖掘只是整個(gè)過程中的一個(gè)步驟,盡管是最重要的步驟,因?yàn)樗l(fā)現(xiàn)用來評估的隱藏的模式。
我們同意數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程的一個(gè)步驟。然而,在產(chǎn)業(yè)界、媒體和數(shù)據(jù)庫研究界,術(shù)語數(shù)據(jù)挖掘比長術(shù)語從數(shù)據(jù)中發(fā)現(xiàn)知識更流行。因此,本書選用術(shù) 語數(shù)據(jù)挖掘。我們采用數(shù)據(jù)挖掘功能的廣義觀點(diǎn):數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識的過程。基于這種觀點(diǎn),典型的 數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分(見圖1-5):
圖1-5 典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)
#p#
數(shù)據(jù)挖掘到底能做什么?
數(shù)據(jù)挖掘能做以下七種不同事情(分析方法):
- 分類 (Classification)
- 估值(Estimation)
- 預(yù)言(Prediction)
- 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
- 聚集(Clustering)
- 描述和可視化(Description and Visualization)
- 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
數(shù)據(jù)挖掘中的算法
“數(shù)據(jù)挖掘算法”是創(chuàng)建數(shù)據(jù)挖掘模型的機(jī)制。為了創(chuàng)建模型,算法將首先分析一組數(shù)據(jù)并查找特定模式和趨勢。算法使用此分析的結(jié)果來定義挖掘模型的參數(shù)。然后,這些參數(shù)應(yīng)用于整個(gè)數(shù)據(jù)集,以便提取可行模式和詳細(xì)統(tǒng)計(jì)信息。
算法創(chuàng)建的挖掘模型可以采用多種形式,這包括:
-
說明在交易中如何將產(chǎn)品分組到一起的一組規(guī)則。
-
預(yù)測特定用戶是否會購買某個(gè)產(chǎn)品的決策樹。
-
預(yù)測銷量的數(shù)學(xué)模型。
-
說明數(shù)據(jù)集中的事例如何相關(guān)的一組分類。
【編輯推薦】
數(shù)據(jù)挖掘算法的類型
包括了以下算法類型:
- 分類算法基于數(shù)據(jù)集中的其他屬性預(yù)測一個(gè)或多個(gè)離散變量。
- 回歸算法基于數(shù)據(jù)集中的其他屬性預(yù)測一個(gè)或多個(gè)連續(xù)變量,如利潤或虧損。
- 分割算法將數(shù)據(jù)劃分為組或分類,這些組或分類的項(xiàng)具有相似屬性。
- 關(guān)聯(lián)算法查找數(shù)據(jù)集中的不同屬性之間的相關(guān)性。這類算法最常見的應(yīng)用是創(chuàng)建可用于市場籃分析的關(guān)聯(lián)規(guī)則。
- 順序分析算法匯總數(shù)據(jù)中的常見順序或事件,如 Web 路徑流。
數(shù)據(jù)挖掘,越來越多的體現(xiàn)在企業(yè)的數(shù)據(jù)報(bào)表上,也會為我們帶來越來越明顯的效益。所以,您做好準(zhǔn)備了嗎?做好準(zhǔn)備迎接新的時(shí)代,利用多樣化數(shù)據(jù)的準(zhǔn)備了嗎?
【編輯推薦】
- BI應(yīng)用:數(shù)據(jù)分析和數(shù)據(jù)挖掘時(shí)代來臨
- 初探數(shù)據(jù)挖掘中的十大經(jīng)典算法
- 為您介紹幾款開源的數(shù)據(jù)挖掘工具