如何讓隱藏在大數(shù)據(jù)背后的價(jià)值發(fā)揮出來?
對于普通人來說,大數(shù)據(jù)離我們的生活很遠(yuǎn),但它的威力已無所不在:信用卡公司追蹤客戶信息,能迅速發(fā)現(xiàn)資金異動(dòng),并向持卡人發(fā)出警示;能源公司利用氣象數(shù)據(jù)分析,可以輕松選定安裝風(fēng)輪機(jī)的理想地點(diǎn);瑞典首都斯德哥爾摩使用運(yùn)算程序管理交通,令市區(qū)擁堵時(shí)間縮短一半……這些都與大數(shù)據(jù)有著千絲萬縷的關(guān)系。
牛津大學(xué)教授維克托·邁爾-舍恩伯格在其新書《大數(shù)據(jù)時(shí)代》中說,這是一場“革命”,將對各行各業(yè)帶來深刻影響,甚至改變我們的思維方式,但同時(shí)它也引發(fā)“數(shù)據(jù)暴政”的擔(dān)憂。
如今,信息每天都在以爆炸式的速度增長,其復(fù)雜性也越來越高,當(dāng)人類的認(rèn)知能力受到傳統(tǒng)可視化形式的限制時(shí),隱藏在大數(shù)據(jù)背后的價(jià)值就難以發(fā)揮出來。理解大數(shù)據(jù)并借助其做出決策,才能發(fā)揮它的巨大價(jià)值和***潛力。
一、大數(shù)據(jù)有哪些類型?
交易數(shù)據(jù)
大數(shù)據(jù)平臺能夠獲取時(shí)間跨度更大、更海量的結(jié)構(gòu)化交易數(shù)據(jù),這樣就可以對更廣泛的交易數(shù)據(jù)類型進(jìn)行分析,不僅僅包括POS或電子商務(wù)購物數(shù)據(jù),還包括行為交易數(shù)據(jù),例如Web服務(wù)器記錄的互聯(lián)網(wǎng)點(diǎn)擊流數(shù)據(jù)日志。
人為數(shù)據(jù)
非結(jié)構(gòu)數(shù)據(jù)廣泛存在于電子郵件、文檔、圖片、音頻、視頻,以及通過博客、維基,尤其是社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)為使用文本分析功能進(jìn)行分析提供了豐富的數(shù)據(jù)源泉。
移動(dòng)數(shù)據(jù)
能夠上網(wǎng)的智能手機(jī)和平板越來越普遍。這些移動(dòng)設(shè)備上的App都能夠追蹤和溝通無數(shù)事件,從App內(nèi)的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個(gè)人信息資料或狀態(tài)報(bào)告事件(如地點(diǎn)變更即報(bào)告一個(gè)新的地理編碼)。
機(jī)器和傳感器數(shù)據(jù)
這包括功能設(shè)備創(chuàng)建或生成的數(shù)據(jù),例如智能電表、智能溫度控制器、工廠機(jī)器和連接互聯(lián)網(wǎng)的家用電器。這些設(shè)備可以配置為與互聯(lián)網(wǎng)絡(luò)中的其他節(jié)點(diǎn)通信,還可以自動(dòng)向中央服務(wù)器傳輸數(shù)據(jù),這樣就可以對數(shù)據(jù)進(jìn)行分析。機(jī)器和傳感器數(shù)據(jù)是來自新興的物聯(lián)網(wǎng)(IoT)所產(chǎn)生的主要例子。來自物聯(lián)網(wǎng)的數(shù)據(jù)可以用于構(gòu)建分析模型,連續(xù)監(jiān)測預(yù)測性行為(如當(dāng)傳感器值表示有問題時(shí)進(jìn)行識別),提供規(guī)定的指令(如警示技術(shù)人員在真正出問題之前檢查設(shè)備)。
二、使用大數(shù)據(jù)需要用到哪些技術(shù)?
可視化分析
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時(shí)還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因?yàn)榭梢暬治瞿軌蛑庇^地呈現(xiàn)大數(shù)據(jù)特點(diǎn),同時(shí)能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),也正是因?yàn)檫@些被全世界統(tǒng)計(jì)學(xué)家所公認(rèn)的各種統(tǒng)計(jì)方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價(jià)值。另外一個(gè)方面也是因?yàn)橛羞@些數(shù)據(jù)挖掘的算法才能更快速地處理大數(shù)據(jù),如果一個(gè)算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價(jià)值也就無從說起了。
預(yù)測性分析能力
大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析,從大數(shù)據(jù)中挖掘出特點(diǎn),通過科學(xué)地建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。
語義引擎
大數(shù)據(jù)分析廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)挖掘,可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞或其他輸入語義,分析、判斷用戶需求,從而實(shí)現(xiàn)更好的用戶體驗(yàn)和廣告匹配。
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理
大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。大數(shù)據(jù)分析的基礎(chǔ)就是以上幾個(gè)方面,當(dāng)然更加深入大數(shù)據(jù)分析的話,還有很多更加有特點(diǎn)的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。