HDS工程師手記——用“數(shù)據(jù)”遇見可知的未來
引言
美國物理學(xué)會院士巴拉巴西的《爆發(fā)》,在***的時間、***的領(lǐng)域,討論了一個最古老的問題:到底應(yīng)該用決定論的觀點,還是用非決定論的觀點,看待人類行為?作為復(fù)雜網(wǎng)絡(luò)研究的權(quán)威,巴拉巴西在大數(shù)據(jù)的新背景下,認(rèn)為數(shù)據(jù)、科學(xué)以及技術(shù)的合力,會使得人類變得比預(yù)期中容易預(yù)測得多。就象泰勒格迪做到的那樣。在日趨精密的數(shù)字技術(shù)條件下,有了從四處搜集來的信息,我們不會再把人類的行為視為互不相關(guān)、隨意偶然的獨立事件?!侗l(fā)》作者的觀點:人類行為93%是可以預(yù)測的。例如,通過對大量數(shù)據(jù)的分析追蹤和預(yù)測每個公民的行蹤。比如電梯攝像頭拍到你11點20分離開了公寓大樓,那么10分鐘后在你家附近地鐵站的監(jiān)視畫面中就很有可能搜尋到你。這并不只是科幻故事,而更可能是大數(shù)據(jù)時代人類真實的生存現(xiàn)狀。在大數(shù)據(jù)時代,通過對各種數(shù)據(jù)的充分了解,預(yù)測個體的行為可以變得非常容易。
遇見可知的未來
如果最變化無常的人類行為93%是可以預(yù)測的,那么,未來其它的事情是不是也可以預(yù)測呢,是不是預(yù)測的準(zhǔn)確率也能達(dá)到93%呢。假設(shè)未來能預(yù)測93%,我們是不是可以認(rèn)為我們的未來是可知的,我們能遇見可知的未來?
在不遠(yuǎn)的未來,未來世界的預(yù)測準(zhǔn)確率將超過93%,天氣能預(yù)測準(zhǔn)確率能達(dá)到93%, 地震能預(yù)測準(zhǔn)確率超過93%,疾病預(yù)測準(zhǔn)確率超過93%,甚至股市準(zhǔn)確率超過93%。我們的未來就是可知的未來。
有數(shù)據(jù)才能遇見未來
大家都對遇見可知的未來充滿期待,但怎么才能遇見可知的未來呢?這就是時下非常熱門的話題:大數(shù)據(jù)分析。大數(shù)據(jù)分析流程如下圖所示:
大數(shù)據(jù)分析流程
從上圖可以看出,對于大數(shù)據(jù)我們期待商業(yè)智能,就像我們想吃美味可口的食物,我們需要廚房(分析平臺),需要廚師(行業(yè)知識和分析算法),但最重要的是我們要有食材(數(shù)據(jù)),食材才是最根本、最重要的東西。我們要知道數(shù)據(jù)在哪里,并且知道如何從浩如煙海的數(shù)據(jù)中挑選出對我們有用的數(shù)據(jù)。例如食材很多,要能精確的挑選出哪些食材是做宮保雞丁的***食材。
傳統(tǒng)的數(shù)據(jù)倉庫技術(shù),如BA存在了幾十年,但是它主要是處理結(jié)構(gòu)化數(shù)據(jù),主要提供商業(yè)分析,而現(xiàn)在發(fā)展為BI,Business Intelligence的英文縮寫,中文解釋為商務(wù)智能。BI最終展現(xiàn)給用戶的信息就是報表或圖視,數(shù)據(jù)集合就象玩具“魔方”一樣,可以任意快速的旋轉(zhuǎn)組合報表或視圖。從內(nèi)容上BI除了包含結(jié)構(gòu)化數(shù)據(jù),還包含非結(jié)構(gòu)化數(shù)據(jù),如互聯(lián)網(wǎng),社交媒體和物聯(lián)網(wǎng)(IOT)數(shù)據(jù)。這是大數(shù)據(jù)的特點。
IOT – 是Internet Of Things的縮寫,字面翻譯是“物體組成的因特網(wǎng)”,準(zhǔn)確的翻譯應(yīng)該為“物聯(lián)網(wǎng)”。物聯(lián)網(wǎng)(Internet Of Things)又稱傳感網(wǎng),“物聯(lián)網(wǎng)”(Internet Of Things)指的是將各種信息傳感設(shè)備,如射頻識別裝置、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等種種裝置與互聯(lián)網(wǎng)結(jié)合起來而形成的一個巨大網(wǎng)絡(luò)。其目的是讓所有的物品都與網(wǎng)絡(luò)連接在一起,方便識別和管理。物聯(lián)網(wǎng)的興起將帶來數(shù)據(jù)爆炸增長,也將對我們大數(shù)據(jù)分析和未來社會的預(yù)測產(chǎn)生影響。
數(shù)據(jù)處理的關(guān)鍵- ETL
使用數(shù)據(jù)最關(guān)鍵是數(shù)據(jù)梳理 – ETL。從浩如煙海的數(shù)據(jù)中,提取對我們有價值的數(shù)據(jù)和信息。ETL,(Extract Transform Load),它實現(xiàn)數(shù)據(jù)的抽取,轉(zhuǎn)換及裝載工作。ETL在技術(shù)上主要涉及增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理:
抽?。?/strong>將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來。
轉(zhuǎn)換:按照預(yù)先設(shè)計好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗,以及處理一些冗余、歧義的數(shù)據(jù),使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來。
裝載:將轉(zhuǎn)換完的數(shù)據(jù)按計劃增量或全部導(dǎo)入到目標(biāo)數(shù)據(jù)庫中。
現(xiàn)在的大數(shù)據(jù)分析中,ETL是基礎(chǔ)也是關(guān)鍵,HDS公司最近收購的Pentaho就能夠?qū)崿F(xiàn)各種數(shù)據(jù)的ETL整合。如下圖所示:
從上圖可以看出,Pentaho可以將傳統(tǒng)的客戶信息,交易信息等結(jié)構(gòu)化數(shù)據(jù),ETL(PDI)到標(biāo)準(zhǔn)的DW庫中,也可以將IOT數(shù)據(jù),地理位置信息(Location), 互聯(lián)網(wǎng)和社交媒體信息ETL(PDI)到規(guī)定的目標(biāo)中,如MongoDB和Hadoop中,并且能夠集成傳統(tǒng)數(shù)據(jù)和新的社交數(shù)據(jù),為大數(shù)據(jù)分析提供全新視角。
擁有大量的數(shù)據(jù),我們可以遇見可知的未來,數(shù)據(jù)ETL加工、轉(zhuǎn)換、調(diào)度和處理是大數(shù)據(jù)分析的基礎(chǔ),HDS的Pentaho能夠?qū)崿F(xiàn)各種數(shù)據(jù)的ETL加工、轉(zhuǎn)換、調(diào)度和處理,為企業(yè)客戶大數(shù)據(jù)分析助一臂之力。