從數(shù)據(jù)到洞察 數(shù)據(jù)湖時代到來
原創(chuàng)【51CTO.com原創(chuàng)稿件】數(shù)據(jù),無疑是企業(yè)最有價值的資產(chǎn)。數(shù)據(jù)的價值在于從數(shù)據(jù)本身提出真正有用的信息,將信息變成知識,從而指導(dǎo)我們行動。從數(shù)據(jù)到洞察,從而幫助企業(yè)進(jìn)行業(yè)務(wù)運(yùn)營,創(chuàng)造更大的價值。
我們經(jīng)歷過數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等不同概念時期,應(yīng)對了不同種類、量級、形式的數(shù)據(jù)。隨著人工智能的快速發(fā)展,以及產(chǎn)業(yè)互聯(lián)網(wǎng)的轉(zhuǎn)型,處理數(shù)據(jù)的技術(shù)也在升級,再加上云計算的計算能力,企業(yè)可以快速獲取洞察,實現(xiàn)業(yè)務(wù)創(chuàng)新。
數(shù)據(jù)復(fù)雜性增加
過去,數(shù)據(jù)只有像數(shù)據(jù)科學(xué)家、數(shù)據(jù)工程師才會使用,而如今,企業(yè)中的每個人都可以是數(shù)據(jù)的使用者,可以是企業(yè)的管理人員,也可以是營銷、財務(wù)、業(yè)務(wù)人員,還可以是產(chǎn)品經(jīng)理、開發(fā)者、運(yùn)營人員等。而數(shù)據(jù)分析的應(yīng)用場景也關(guān)聯(lián)到社會的方方面面,例如市場客戶服務(wù)方面,消費者的細(xì)分、客戶的忠誠度、客戶的流失度等,金融的風(fēng)險管控和評估,市場促銷活動和需求分析,醫(yī)療領(lǐng)域的疾病傳播、藥物發(fā)現(xiàn)等,都會涉及到數(shù)據(jù)分析。
然而,隨著社交網(wǎng)絡(luò)的興起,電商外賣、娛樂視頻、社交媒體、交友戀愛等各種新型互聯(lián)網(wǎng)應(yīng)用的普及,致使數(shù)據(jù)的復(fù)雜性也在增加。而企業(yè)的數(shù)據(jù)分析也要求更加具有即時性以及預(yù)測性,從而為業(yè)務(wù)決策帶來指導(dǎo)意義。
過去數(shù)據(jù)都是從業(yè)務(wù)系統(tǒng)中獲取,如今,移動設(shè)備、可穿戴設(shè)備、物聯(lián)網(wǎng)設(shè)備等不同設(shè)備的互聯(lián),數(shù)據(jù)的獲取端也變得更加豐富。而用戶數(shù)量和業(yè)務(wù)請求量的增長,也導(dǎo)致了數(shù)據(jù)以指數(shù)級速度在增長。數(shù)據(jù)的獲取來源多樣、數(shù)據(jù)量增加、數(shù)據(jù)格式多元,也給數(shù)據(jù)本身的縮放性、經(jīng)濟(jì)性帶來了挑戰(zhàn),企業(yè)需要速及時地將數(shù)據(jù)展示出來,并從中進(jìn)行分析獲取價值。
數(shù)據(jù)湖的出現(xiàn)
對于數(shù)據(jù)的處理,最傳統(tǒng)的方法就是通過數(shù)據(jù)庫來管理,尤其是交易型數(shù)據(jù)庫。過去,企業(yè)的數(shù)據(jù)都來源于像ERP、CRM等各種業(yè)務(wù)系統(tǒng),都是存放在數(shù)據(jù)庫中。后來,各個業(yè)務(wù)系統(tǒng)應(yīng)用都會產(chǎn)生并存儲大量的數(shù)據(jù),而這些數(shù)據(jù)并不能被其他系統(tǒng)應(yīng)用所使用,這就產(chǎn)生了數(shù)據(jù)孤島。數(shù)據(jù)倉庫應(yīng)運(yùn)而生。數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎(chǔ)之上,將系統(tǒng)應(yīng)用產(chǎn)生的數(shù)據(jù)經(jīng)過一定的分類、提煉、整理后,全部存儲在集中式的數(shù)據(jù)倉庫中,各個部門根據(jù)自己的需要導(dǎo)出相關(guān)數(shù)據(jù)進(jìn)行使用分析。
數(shù)據(jù)倉庫只能存儲結(jié)構(gòu)化數(shù)據(jù),并且需要提前定義好,面對如今大量的非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),以及數(shù)據(jù)分析的時效性的高要求,數(shù)據(jù)倉庫就顯得“力不從心”。數(shù)據(jù)湖就此誕生。
數(shù)據(jù)湖的概念有很多,AWS首席云計算企業(yè)戰(zhàn)略顧問張俠博士則認(rèn)為,數(shù)據(jù)湖就是一個中心數(shù)據(jù)存儲的容器,可以處理結(jié)構(gòu)化、非結(jié)構(gòu)化等各種各樣的數(shù)據(jù),數(shù)據(jù)量級可以快速縮放,并且進(jìn)行查詢和分析。
張俠舉例說道,過去數(shù)據(jù)匯總后像一條小河,河里的水量是可以預(yù)知的,然后設(shè)計一個河道,水來后有閘門可以進(jìn)行處理。但是互聯(lián)網(wǎng)時代,視頻以及移動終端的信息蜂擁而至,我們很難掌握數(shù)據(jù)的性質(zhì),水量大并且來勢洶涌,需要耗費大量時間進(jìn)行處理。于是就需要先將數(shù)據(jù)存放在湖里,然后通過工具進(jìn)行查詢分析。
數(shù)據(jù)湖的兼容與靈活
也許有人會認(rèn)為,數(shù)據(jù)湖本質(zhì)上沒有技術(shù)創(chuàng)新,只是一個概念的拼湊,然而,在數(shù)字化轉(zhuǎn)型變革中,數(shù)據(jù)湖真正可以幫助企業(yè)實現(xiàn)技術(shù)轉(zhuǎn)型,應(yīng)對快速發(fā)展下的數(shù)據(jù)需求。
數(shù)據(jù)湖可以存儲海量、多源的數(shù)據(jù),業(yè)務(wù)系統(tǒng)、智能設(shè)備等產(chǎn)生的數(shù)據(jù)都可以以原始的自然數(shù)據(jù)進(jìn)行存儲,同時支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。此外,結(jié)合云計算能力,數(shù)據(jù)湖可以快速地縮放存儲海量數(shù)據(jù),并且通過建目錄和數(shù)據(jù)的轉(zhuǎn)移、抽取等工作,將數(shù)據(jù)歸類,然后快速地進(jìn)行各種各樣的分析。
但是,值得注意的是,數(shù)據(jù)湖存儲的是原始的自然數(shù)據(jù),自然有些是無用數(shù)據(jù),并且還占用存儲空間,那么,如何處理無用數(shù)據(jù)以及縮小存儲成本呢?張俠告訴51CTO,如果數(shù)據(jù)進(jìn)來的都是垃圾,很可能后續(xù)的存儲和分析也都是垃圾,因此企業(yè)要盡可能地對原始數(shù)據(jù)進(jìn)行合理的管控、設(shè)計、把握,從而提高數(shù)據(jù)質(zhì)量,同時也可以減少原始數(shù)據(jù)量。此外,企業(yè)還可以將冷、熱數(shù)據(jù)分級處理,通過生命周期管理功能根據(jù)數(shù)據(jù)的量級和特點性質(zhì)進(jìn)行存儲和處理,從而減少數(shù)據(jù)成本。
張俠指出,由于數(shù)據(jù)湖對所有數(shù)據(jù)都可以兼容,并且保持了靈活性,因此特別適用于數(shù)據(jù)科學(xué)家、數(shù)據(jù)研究人員進(jìn)行探索性、預(yù)測性、研究性的數(shù)據(jù)查詢和分析。
AWS的“數(shù)據(jù)家族”
一般,數(shù)據(jù)湖的搭建分為幾步:首先先將數(shù)據(jù)設(shè)置好并存儲,然后將數(shù)據(jù)移動加載到不同的地方,清理數(shù)據(jù)后編寫數(shù)據(jù)目錄,配置數(shù)據(jù)安全性與合規(guī)性策略并進(jìn)行存儲管理,在需要分析的時候通過工具調(diào)取數(shù)據(jù)進(jìn)行分析。為了簡化搭建步驟,AWS提供了AWS Lake Formation,將建立數(shù)據(jù)湖的方法自動化,幫助企業(yè)在數(shù)天內(nèi)完成數(shù)據(jù)的建設(shè)工作。張俠透露,AWS Lake Formation會在今年在中國推出。
除了搭建數(shù)據(jù)湖以外,數(shù)據(jù)的存儲也很重要。在AWS數(shù)據(jù)湖層面,包括了Amazon S3和AWS Glue。Amazon S3可以存儲任何二進(jìn)位為基礎(chǔ)的任何信息,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且具有11個9的數(shù)據(jù)持久性,云端三個可用區(qū)存儲六份,互為備份。在Amazon S3后端是冷存儲Amazon Glacier,如果數(shù)據(jù)不常用,可以存儲在Amazon Glacier,降低存儲費用。AWS Glue包括兩大功能,全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)以及元數(shù)據(jù)目錄,用戶可以更加容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,并且用于數(shù)據(jù)分析。AWS Glue服務(wù)已經(jīng)在AWS中國(寧夏)區(qū)域正式上線。
除了數(shù)據(jù)湖相關(guān)的產(chǎn)品,AWS還在數(shù)據(jù)層面提供了更多的功能,包括底層數(shù)據(jù)的遷移和移動工具,存儲不同類型數(shù)據(jù)的數(shù)據(jù)存儲層,上層有各種分析工具以及機(jī)器學(xué)習(xí)功能。
最底層是數(shù)據(jù)遷移和移動工具,AWS提供 AWS Database Migration Service數(shù)據(jù)庫遷移服務(wù)、AWS Snowball(雪球)可以將數(shù)據(jù)存儲在專用硬盤的裝置中快遞到AWS、AWS Storage Gateway通過數(shù)據(jù)門戶網(wǎng)關(guān)轉(zhuǎn)換數(shù)據(jù),AWS Backup數(shù)據(jù)備份服務(wù)。
數(shù)據(jù)移動的上一層是數(shù)據(jù)存儲層,通過各種數(shù)據(jù)庫來存儲各種不同類型的數(shù)據(jù),包括Amazon DynamoDB存儲鍵值和文檔,Amazon RDS托管型關(guān)系數(shù)據(jù)庫,Amazon Aurora云原生數(shù)據(jù)庫,Amazon ElasticCach內(nèi)存式數(shù)據(jù)庫,Amazon Neptune圖形數(shù)據(jù)庫。
在數(shù)據(jù)湖層之上是分析層,AWS提供了Amazon Redshift數(shù)據(jù)倉庫,Amazon EMR大數(shù)據(jù)分析,AWS Glue無服務(wù)器處理,Amazon Athena交互式分析,Amazon Elasticsearch運(yùn)維分析,Amazon Kinesis實時分析。
最上層是機(jī)器學(xué)習(xí),包括Amazon QuickSight圖形可視化,Amazon Polly文字轉(zhuǎn)語音功能,Amazon Transcribe語音轉(zhuǎn)文字功能,Amazon SageMaker機(jī)器學(xué)習(xí)工具,幫助用戶將數(shù)據(jù)分析結(jié)果進(jìn)行展現(xiàn)。
AWS期望提供全面、安全、經(jīng)濟(jì)高效、易于構(gòu)建、應(yīng)用廣泛的數(shù)據(jù)相關(guān)的工具和服務(wù),幫助企業(yè)應(yīng)對各種數(shù)據(jù)的需求,快速將數(shù)據(jù)轉(zhuǎn)化成洞察,從而加速業(yè)務(wù)創(chuàng)新。而亞馬遜也是AWS的用戶。亞馬遜曾是Oracle全球數(shù)據(jù)庫最大的用戶,使用了7500個數(shù)據(jù)庫,數(shù)據(jù)量達(dá)到75PB,然而由于擴(kuò)展困難且昂貴,亞馬遜在去年11月完成了從Oracle數(shù)據(jù)庫遷移至AWS上相關(guān)數(shù)據(jù)庫,數(shù)據(jù)庫成本費用減少了60%,數(shù)據(jù)庫的管理費用減少了70%。此外,亞馬遜在內(nèi)部建立了數(shù)據(jù)湖名叫Galaxy(銀河),整合亞馬遜所有數(shù)據(jù)進(jìn)行分析,加快了從數(shù)據(jù)匯總挖掘有用信息的速度同時減少成本。
結(jié)語
數(shù)據(jù)湖的概念從2011年首次提出,如今已經(jīng)走過九年,如今人工智能的興起也成為了數(shù)據(jù)湖快速發(fā)展的最大驅(qū)動力。張俠認(rèn)為,在數(shù)據(jù)湖時代,大數(shù)據(jù)會變得更加實時、更加面向未來,人工智能成為了關(guān)鍵性的因素。人工智能有能力處理大量數(shù)據(jù),使得海量數(shù)據(jù)的價值有所提高。隨著時間的推移,數(shù)據(jù)分析和人工智能的很大部分都會密切結(jié)合。
雖然,數(shù)據(jù)湖在中國的發(fā)展還處于早期階段,但隨著下一代互聯(lián)網(wǎng)、5G、邊緣計算等技術(shù)的發(fā)展,與之相對應(yīng)的數(shù)據(jù)存儲和分析的道路也會加速。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】