解讀:大數(shù)據(jù)分析及其數(shù)據(jù)來源
當我們談到大數(shù)據(jù)分析,首先需要確定數(shù)據(jù)分析的方向和擬解決的問題,然后才能確定需要的數(shù)據(jù)和分析范圍。大數(shù)據(jù)驅(qū)動的分析主要的挑戰(zhàn)不是技術(shù)問題,而是方向和組織領(lǐng)導的問題,要確定方向,提出問題,需要對行業(yè)做深入的了解。當然,大數(shù)據(jù)分析最核心的,關(guān)于數(shù)據(jù)的來源更是至關(guān)重要的。在數(shù)據(jù)量非常大的今天,如何以更高的效率獲取到分析所需要的數(shù)據(jù),如何利用這些數(shù)據(jù)反應(yīng)最真實的情況,是業(yè)內(nèi)不斷探討的議題。接下來,小編就帶大家來了解下大數(shù)據(jù)分析及其數(shù)據(jù)來源。
大數(shù)據(jù)分析
大數(shù)據(jù)分析,顧名思義,就是對規(guī)模巨大的數(shù)據(jù)進行分析,是研究大量的數(shù)據(jù)的過程中尋找模式,相關(guān)性和其他有用的信息,可以幫助企業(yè)更好地適應(yīng)變化,并做出更明智的決策。
大數(shù)據(jù)分析的第一步是數(shù)據(jù)的“抽取—轉(zhuǎn)換—加載”(the Extract-Transform-Load,ETL),這就是所謂的數(shù)據(jù)處理三部曲。該環(huán)節(jié)需要將來源不同、類型不同的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取出來,然后進行清潔、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。需要指出的是,盡管大數(shù)據(jù)分析有它的優(yōu)勢,但是也有很大的局限性。很多時候,大數(shù)據(jù)產(chǎn)生的相關(guān)關(guān)系可能是虛假的,在完全隨機的數(shù)據(jù)中顯示了某些規(guī)律,因為數(shù)據(jù)的量非常大,可能產(chǎn)生向各個方向輻射的各種聯(lián)系,有可能會得到與事實完全相反的結(jié)論。但是只要數(shù)據(jù)足夠大,數(shù)據(jù)挖掘總能發(fā)現(xiàn)一些相關(guān)關(guān)系,可以幫助我們發(fā)現(xiàn)趨勢和異常情況。
數(shù)據(jù)來源
大數(shù)據(jù)分析的數(shù)據(jù)來源有很多種,包括公司或者機構(gòu)的內(nèi)部來源和外部來源。分為以下幾類:
- 交易數(shù)據(jù)。包括POS機數(shù)據(jù)、信用卡刷卡數(shù)據(jù)、電子商務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)點擊數(shù)據(jù)、“企業(yè)資源規(guī)劃”(ERP)系統(tǒng)數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù)、客戶關(guān)系管理(CRM)系統(tǒng)數(shù)據(jù)、公司的生產(chǎn)數(shù)據(jù)、庫存數(shù)據(jù)、訂單數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)等。
- 移動通信數(shù)據(jù)。能夠上網(wǎng)的智能手機等移動設(shè)備越來越普遍。移動通信設(shè)備記錄的數(shù)據(jù)量和數(shù)據(jù)的立體完整度,常常優(yōu)于各家互聯(lián)網(wǎng)公司掌握的數(shù)據(jù)。移動設(shè)備上的軟件能夠追蹤和溝通無數(shù)事件,從運用軟件儲存的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個人信息資料或狀態(tài)報告事件(如地點變更即報告一個新的地理編碼)等。
- 人為數(shù)據(jù)。人為數(shù)據(jù)包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)性數(shù)據(jù),需要用文本分析功能進行分析。
- 機器和傳感器數(shù)據(jù)。來自感應(yīng)器、量表和其他設(shè)施的數(shù)據(jù)、定位/GPS系統(tǒng)數(shù)據(jù)等。這包括功能設(shè)備會創(chuàng)建或生成的數(shù)據(jù),例如智能溫度控制器、智能電表、工廠機器和連接互聯(lián)網(wǎng)的家用電器的數(shù)據(jù)。來自新興的物聯(lián)網(wǎng)(Io T)的數(shù)據(jù)是機器和傳感器所產(chǎn)生的數(shù)據(jù)的例子之一。來自物聯(lián)網(wǎng)的數(shù)據(jù)可以用于構(gòu)建分析模型,連續(xù)監(jiān)測預(yù)測性行為(如當傳感器值表示有問題時進行識別),提供規(guī)定的指令(如警示技術(shù)人員在真正出問題之前檢查設(shè)備)等。
- 互聯(lián)網(wǎng)上的“開放數(shù)據(jù)”來源,如政府機構(gòu),非營利組織和企業(yè)免費提供的數(shù)據(jù)。