一文讀懂大數(shù)據(jù):Hadoop,大數(shù)據(jù)技術(shù)及相關(guān)應(yīng)用
這是一本小書而不是一篇文章,因為它詳實細(xì)致的讓你從一個完全不了解大數(shù)據(jù)技術(shù)及相關(guān)應(yīng)用的門外漢,變成一個熟知其概念和意義的“內(nèi)行人”,所以它很棒!
主要內(nèi)容
·1來自Wikibon社區(qū)的大數(shù)據(jù)宣言
·2數(shù)據(jù)處理與分析:傳統(tǒng)方式
·3大數(shù)據(jù)性質(zhì)的變化
·4大數(shù)據(jù)處理和分析的新方法
4.1Hadoop
4.2NoSQL
4.3大規(guī)模并行分析數(shù)據(jù)庫
·5大數(shù)據(jù)方法的互補(bǔ)
·6大數(shù)據(jù)供應(yīng)商發(fā)展?fàn)顩r
·7大數(shù)據(jù):實際使用案例
·8大數(shù)據(jù)技能差距
·9大數(shù)據(jù):企業(yè)和供應(yīng)商的下一步動作
來自Wikibon社區(qū)的大數(shù)據(jù)宣言
為公司提供有效的業(yè)務(wù)分析工具和技術(shù)是首席信息官的首要任務(wù)。有效的業(yè)務(wù)分析(從基本報告到高級的數(shù)據(jù)挖掘和預(yù)測分析)使得數(shù)據(jù)分析人員和業(yè)務(wù)人員都可以從數(shù)據(jù)中獲得見解,當(dāng)這些見解轉(zhuǎn)化為行動,會給公司帶來更高的效率和盈利能力。
所有業(yè)務(wù)分析都是基于數(shù)據(jù)的。傳統(tǒng)意義上,這意味著企業(yè)自己創(chuàng)建和存儲的結(jié)構(gòu)化數(shù)據(jù),如CRM系統(tǒng)中的客戶數(shù)據(jù),ERP系統(tǒng)中的運(yùn)營數(shù)據(jù),以及會計數(shù)據(jù)庫中的財務(wù)數(shù)據(jù)。得益于社交媒體和網(wǎng)絡(luò)服務(wù)(如Facebook,Twitter),數(shù)據(jù)傳感器以及網(wǎng)絡(luò)設(shè)備,機(jī)器和人類產(chǎn)生的網(wǎng)上交易,以及其他來源的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)的普及,企業(yè)現(xiàn)有數(shù)據(jù)的體積和類型以及為追求最大商業(yè)價值而產(chǎn)生的近實時分析的需求正在迅速增加。我們稱這些為大數(shù)據(jù)。
傳統(tǒng)的數(shù)據(jù)管理和業(yè)務(wù)分析工具及技術(shù)都面臨大數(shù)據(jù)的壓力,與此同時幫助企業(yè)獲得來自大數(shù)據(jù)分析見解的新方法不斷涌現(xiàn)。這些新方法采取一種完全不同于傳統(tǒng)工具和技術(shù)的方式進(jìn)行數(shù)據(jù)處理、分析和應(yīng)用。這些新方法包括開源框架Hadoop,NoSQL數(shù)據(jù)庫(如Cassandra和Accumulo)以及大規(guī)模并行分析數(shù)據(jù)庫(如EMC的Greenplum,惠普的Vertica和TeradataASTERData)。這意味著,企業(yè)也需要從技術(shù)和文化兩個角度重新思考他們對待業(yè)務(wù)分析的方式。
對于大多數(shù)企業(yè)而言,這種轉(zhuǎn)變并不容易,但對于接受轉(zhuǎn)變并將大數(shù)據(jù)作為業(yè)務(wù)分析實踐基石的企業(yè)來說,他們會擁有遠(yuǎn)遠(yuǎn)超過膽小對手的顯著競爭優(yōu)勢。大數(shù)據(jù)助力復(fù)雜的業(yè)務(wù)分析可能為企業(yè)帶來前所未有的關(guān)于客戶行為以及動蕩的市場環(huán)境的深入洞察,使得他們能夠更快速的做出數(shù)據(jù)驅(qū)動業(yè)務(wù)的決策,從而比競爭對手更有效率。
從存儲及支持大數(shù)據(jù)處理的服務(wù)器端技術(shù)到為終端用戶帶來鮮活的新見解的前端數(shù)據(jù)可視化工具,大數(shù)據(jù)的出現(xiàn)也為硬件、軟件和服務(wù)供應(yīng)商提供了顯著的機(jī)會。這些幫助企業(yè)過渡到大數(shù)據(jù)實踐者的供應(yīng)商,無論是提供增加商業(yè)價值的大數(shù)據(jù)用例,還是發(fā)展讓大數(shù)據(jù)變?yōu)楝F(xiàn)實的技術(shù)和服務(wù),都將得到茁壯成長。
大數(shù)據(jù)是所有行業(yè)新的權(quán)威的競爭優(yōu)勢。認(rèn)為大數(shù)據(jù)是曇花一現(xiàn)的企業(yè)和技術(shù)供應(yīng)商很快就會發(fā)現(xiàn)自己需要很辛苦才能跟上那些提前思考的競爭對手的步伐。在我們看來,他們是非常危險的。對于那些理解并擁抱大數(shù)據(jù)現(xiàn)實的企業(yè),新創(chuàng)新,高靈活性,以及高盈利能力的可能性幾乎是無止境的。
數(shù)據(jù)處理和分析:傳統(tǒng)方式
傳統(tǒng)上,為了特定分析目的進(jìn)行的數(shù)據(jù)處理都是基于相當(dāng)靜態(tài)的藍(lán)圖。通過常規(guī)的業(yè)務(wù)流程,企業(yè)通過CRM、ERP和財務(wù)系統(tǒng)等應(yīng)用程序,創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)集成工具用于從企業(yè)應(yīng)用程序和事務(wù)型數(shù)據(jù)庫中提取、轉(zhuǎn)換和加載數(shù)據(jù)到一個臨時區(qū)域,在這個臨時區(qū)域進(jìn)行數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)最終被模式化到整齊的行和表。這種模型化和清洗過的數(shù)據(jù)被加載到企業(yè)級數(shù)據(jù)倉庫。這個過程會周期性發(fā)生,如每天或每周,有時會更頻繁。
圖1–傳統(tǒng)的數(shù)據(jù)處理/分析資料來源:Wikibon2011
在傳統(tǒng)數(shù)據(jù)倉庫中,數(shù)據(jù)倉庫管理員創(chuàng)建計劃,定期計算倉庫中的標(biāo)準(zhǔn)化數(shù)據(jù),并將產(chǎn)生的報告分配到各業(yè)務(wù)部門。他們還為管理人員創(chuàng)建儀表板和其他功能有限的可視化工具。
同時,業(yè)務(wù)分析師利用數(shù)據(jù)分析工具在數(shù)據(jù)倉庫進(jìn)行高級分析,或者通常情況下,由于數(shù)據(jù)量的限制,將樣本數(shù)據(jù)導(dǎo)入到本地數(shù)據(jù)庫中。非專業(yè)用戶通過前端的商業(yè)智能工具(SAP的BusinessObjects和IBM的Cognos)對數(shù)據(jù)倉庫進(jìn)行基礎(chǔ)的數(shù)據(jù)可視化和有限的分析。傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)量很少超過幾TB,因為大容量的數(shù)據(jù)會占用數(shù)據(jù)倉庫資源并且降低性能。
大數(shù)據(jù)性質(zhì)的變化
Web、移動設(shè)備和其他技術(shù)的出現(xiàn)導(dǎo)致數(shù)據(jù)性質(zhì)的根本性變化。大數(shù)據(jù)具有重要而獨特的特性,這種特性使得它與“傳統(tǒng)”企業(yè)數(shù)據(jù)區(qū)分開來。不再集中化、高度結(jié)構(gòu)化并且易于管理,與以往任何時候相比,現(xiàn)在的數(shù)據(jù)都是高度分散的、結(jié)構(gòu)松散(如果存在結(jié)構(gòu)的話)并且體積越來越大。
具體來說:
-
·體積-通過Web、移動設(shè)備、IT基礎(chǔ)設(shè)施和其他來源產(chǎn)生的企業(yè)內(nèi)部和防火墻外的數(shù)據(jù)量每年都在成倍增加。
-
·類型-數(shù)據(jù)類型的多樣性增加,包括非結(jié)構(gòu)化文本數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)(如社交媒體數(shù)據(jù),基于位置的數(shù)據(jù)和日志文件數(shù)據(jù))。
-
·速度-得益于數(shù)字化交易、移動計算以及互聯(lián)網(wǎng)和移動設(shè)備的高用戶量,新數(shù)據(jù)被創(chuàng)建的速度以及實時分析的需求正在增加。
廣義地說,大數(shù)據(jù)由多個來源產(chǎn)生,包括:
-
·社交網(wǎng)絡(luò)和媒體:目前有超過7億Facebook用戶,2.5億Twitter用戶和1.56億面向公眾開放的博客。Facebook上的每個更新、Tweet和博客上文章的發(fā)布及評論都會創(chuàng)建多個新的數(shù)據(jù)點(包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的),這些數(shù)據(jù)點有時被稱為“數(shù)據(jù)廢氣”。
-
·移動設(shè)備:全球有超過50億正在使用中的移動電話。每次呼叫、短信和即時消息都被記錄為數(shù)據(jù)。移動設(shè)備(尤其是智能手機(jī)和平板電腦)讓使用社交媒體等應(yīng)用程序更容易,而社會媒體的使用會產(chǎn)生大量數(shù)據(jù)。移動設(shè)備也收集和傳送位置數(shù)據(jù)。
-
·網(wǎng)上交易:數(shù)十億的網(wǎng)上購物、股票交易等每天都在發(fā)生,包括無數(shù)的自動交易。每次交易都產(chǎn)生了大量數(shù)據(jù)點,這些數(shù)據(jù)點會被零售商、銀行、信用卡、信貸機(jī)構(gòu)和其他機(jī)構(gòu)收集。
-
·網(wǎng)絡(luò)設(shè)備和傳感器:各種類型的電子設(shè)備(包括服務(wù)器和其他IT硬件、智能電表和溫度傳感器)都會創(chuàng)建半結(jié)構(gòu)化的日志數(shù)據(jù)記錄每一個動作。
圖2–傳統(tǒng)數(shù)據(jù)v.大數(shù)據(jù)資料來源:Wikibon2011
從時間或成本效益上看,傳統(tǒng)的數(shù)據(jù)倉庫等數(shù)據(jù)管理工具都無法實現(xiàn)大數(shù)據(jù)的處理和分析工作。也就是說,必須將數(shù)據(jù)組織成關(guān)系表(整齊的行和列數(shù)據(jù)),傳統(tǒng)的企業(yè)級數(shù)據(jù)倉庫才可以處理。由于需要的時間和人力成本,對海量的非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用這種結(jié)構(gòu)是不切實際的。此外,擴(kuò)展傳統(tǒng)的企業(yè)級數(shù)據(jù)倉庫使其適應(yīng)潛在的PB級數(shù)據(jù)需要在新的專用硬件上投資巨額資金。而由于數(shù)據(jù)加載這一個瓶頸,傳統(tǒng)數(shù)據(jù)倉庫性能也會受到影響。
因此,需要處理和分析大數(shù)據(jù)的新方法。
大數(shù)據(jù)處理和分析的新方法
存在多種方法處理和分析大數(shù)據(jù),但多數(shù)都有一些共同的特點。即他們利用硬件的優(yōu)勢,使用擴(kuò)展的、并行的處理技術(shù),采用非關(guān)系型數(shù)據(jù)存儲處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),并對大數(shù)據(jù)運(yùn)用高級分析和數(shù)據(jù)可視化技術(shù),向終端用戶傳達(dá)見解。
Wikibon已經(jīng)確定了三種將會改變業(yè)務(wù)分析和數(shù)據(jù)管理市場的大數(shù)據(jù)方法。
Hadoop
Hadoop是一個處理、存儲和分析海量的分布式、非結(jié)構(gòu)化數(shù)據(jù)的開源框架。最初由雅虎的Doug Cutting創(chuàng)建,Hadoop的靈感來自于 MapReduce ,MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁索引的用戶定義函數(shù)。它被設(shè)計用來處理分布在多個并行節(jié)點的PB級和EB級數(shù)據(jù)。
Hadoop集群運(yùn)行在廉價的商用硬件上,這樣硬件擴(kuò)展就不存在資金壓力。Hadoop現(xiàn)在是Apache軟件聯(lián)盟(The Apache Software Foundation)的一個項目,數(shù)百名貢獻(xiàn)者不斷改進(jìn)其核心技術(shù)?;靖拍睿号c將海量數(shù)據(jù)限定在一臺機(jī)器運(yùn)行的方式不同,Hadoop將大數(shù)據(jù)分成多個部分,這樣每個部分都可以被同時處理和分析。
Hadoop如何工作
客戶從日志文件、社交媒體供稿和內(nèi)部數(shù)據(jù)存儲等來源獲得非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。它將數(shù)據(jù)打碎成“部分”,這些“部分”被載入到商用硬件的多個節(jié)點組成的文件系統(tǒng)。Hadoop的默認(rèn)文件存儲系統(tǒng)是Hadoop分布式文件系統(tǒng)。文件系統(tǒng)(如HDFS)善于存儲大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),因為它們不需要將數(shù)據(jù)組織成關(guān)系型的行和列。
各“部分”被復(fù)制多次,并加載到文件系統(tǒng)。這樣,如果一個節(jié)點失效,另一個節(jié)點包含失效節(jié)點數(shù)據(jù)的副本。名稱節(jié)點充當(dāng)調(diào)解人,負(fù)責(zé)溝通信息:如哪些節(jié)點是可用的,某些數(shù)據(jù)存儲在集群的什么地方,以及哪些節(jié)點失效。
一旦數(shù)據(jù)被加載到集群中,它就準(zhǔn)備好通過MapReduce 框架進(jìn)行分析??蛻籼峤灰粋€“匹配”的任務(wù)( 通常是用Java編寫的查詢語句)給到一個被稱為作業(yè)跟蹤器的節(jié)點。該作業(yè)跟蹤器引用名稱節(jié)點,以確定完成工作需要訪問哪些數(shù)據(jù),以及所需的數(shù)據(jù)在集群的存儲位置。一旦確定,作業(yè)跟蹤器向相關(guān)節(jié)點提交查詢。每個節(jié)點同時、并行處理,而非將所有數(shù)據(jù)集中到一個位置處理。這是Hadoop的一個本質(zhì)特征。
當(dāng)每個節(jié)點處理完指定的作業(yè),它會存儲結(jié)果??蛻敉ㄟ^任務(wù)追蹤器啟動“Reduce”任務(wù)。匯總map階段存儲在各個節(jié)點上的結(jié)果數(shù)據(jù),獲得原始查詢的“答案”,然后將“答案”加載到集群的另一個節(jié)點中。客戶就可以訪問這些可以載入多種分析環(huán)境進(jìn)行分析的結(jié)果了。MapReduce 的工作就完成了。
一旦MapReduce 階段完成,數(shù)據(jù)科學(xué)家和其他人就可以使用高級數(shù)據(jù)分析技巧對處理后的數(shù)據(jù)進(jìn)一步分析。也可以對這些數(shù)據(jù)建模,將數(shù)據(jù)從Hadoop集群轉(zhuǎn)移到現(xiàn)有的關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫等傳統(tǒng)IT系統(tǒng)進(jìn)行進(jìn)一步的分析。
Hadoop的技術(shù)組件
Hadoop “棧”由多個組件組成。包括:
-
· Hadoop分布式文件系統(tǒng)(HDFS):所有Hadoop集群的默認(rèn)存儲層;
-
· 名稱節(jié)點:在Hadoop集群中,提供數(shù)據(jù)存儲位置以及節(jié)點失效信息的節(jié)點。
-
· 二級節(jié)點:名稱節(jié)點的備份,它會定期復(fù)制和存儲名稱節(jié)點的數(shù)據(jù),以防名稱節(jié)點失效。
-
· 作業(yè)跟蹤器:Hadoop集群中發(fā)起和協(xié)調(diào)MapReduce作業(yè)或數(shù)據(jù)處理任務(wù)的節(jié)點。
-
· 從節(jié)點:Hadoop集群的普通節(jié)點,從節(jié)點存儲數(shù)據(jù)并且從作業(yè)跟蹤器那里獲取數(shù)據(jù)處理指令。
除了上述以外,Hadoop生態(tài)系統(tǒng)還包括許多免費子項目。NoSQL數(shù)據(jù)存儲系統(tǒng)(如Cassandra和HBase)也被用于存儲Hadoop的MapReduce作業(yè)結(jié)果。除了Java,很多 MapReduce 作業(yè)及其他Hadoop的功能都是用Pig語言寫的,Pig是專門針對Hadoop設(shè)計的開源語言。Hive最初是由Facebook開發(fā)的開源數(shù)據(jù)倉庫,可以在Hadoop中建立分析模型。
請參閱文章:Hadoop組件和子項目指導(dǎo)手冊:HBase,Sqoop,Flume等:Apache Hadoop定義(http://wikibon.org/wiki/v/HBase,_Sqoop,_Flume_and_More:_Apache_Hadoop_Defined)
Hadoop:優(yōu)點和缺點
Hadoop的主要好處是,它可以讓企業(yè)以節(jié)省成本并高效的方式處理和分析大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而這類數(shù)據(jù)迄今還沒有其他處理方式。因為Hadoop集群可以擴(kuò)展到PB級甚至EB級數(shù)據(jù),企業(yè)不再必須依賴于樣本數(shù)據(jù)集,而可以處理和分析所有相關(guān)數(shù)據(jù)。數(shù)據(jù)科學(xué)家可以采用迭代的方法進(jìn)行分析,不斷改進(jìn)和測試查詢語句,從而發(fā)現(xiàn)以前未知的見解。使用Hadoop的成本也很廉價。開發(fā)者可以免費下載Apache的Hadoop 分布式平臺,并且在不到一天的時間內(nèi)開始體驗Hadoop。
Hadoop及其無數(shù)組件的不足之處是,他們還不成熟,仍處于發(fā)展階段。就像所有新的、原始的技術(shù)一樣,實施和管理Hadoop集群,對大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高級分析,都需要大量的專業(yè)知識、技能和培訓(xùn)。不幸的是,目前Hadoop開發(fā)者和數(shù)據(jù)科學(xué)家的缺乏,使得眾多企業(yè)維持復(fù)雜的Hadoop集群并利用其優(yōu)勢變得很不現(xiàn)實。此外,由于Hadoop的眾多組件都是通過技術(shù)社區(qū)得到改善,并且新的組件不斷被創(chuàng)建,因此作為不成熟的開源技術(shù),也存在失敗的風(fēng)險。最后,Hadoop是一個面向批處理的框架,這意味著它不支持實時的數(shù)據(jù)處理和分析。
好消息是,一些聰明的IT人士不斷對Apache Hadoop項目做出貢獻(xiàn),新一代的Hadoop開發(fā)者和數(shù)據(jù)科學(xué)家們正在走向成熟。因此,該技術(shù)的發(fā)展日新月異,逐漸變得更加強(qiáng)大而且更易于實施和管理。供應(yīng)商(包括Hadoop的初創(chuàng)企業(yè)Cloudera和Hortonworks)以及成熟的IT中堅企業(yè)(如IBM和微軟)正在努力開發(fā)企業(yè)可用的商業(yè)Hadoop分布式平臺、工具和服務(wù),讓部署和管理這項技術(shù)成為傳統(tǒng)企業(yè)可用的實際現(xiàn)實。其他初創(chuàng)企業(yè)正在努力完善NoSQL(不僅僅是SQL)數(shù)據(jù)系統(tǒng),結(jié)合Hadoop提供近實時的分析解決方案。
NoSQL
一種稱為NoSQL的新形式的數(shù)據(jù)庫(Not Only SQL)已經(jīng)出現(xiàn),像Hadoop一樣,可以處理大量的多結(jié)構(gòu)化數(shù)據(jù)。但是,如果說Hadoop擅長支持大規(guī)模、批量式的歷史分析,在大多數(shù)情況下(雖然也有一些例外),NoSQL 數(shù)據(jù)庫的目的是為最終用戶和自動化的大數(shù)據(jù)應(yīng)用程序提供大量存儲在多結(jié)構(gòu)化數(shù)據(jù)中的離散數(shù)據(jù)。這種能力是關(guān)系型數(shù)據(jù)庫欠缺的,它根本無法在大數(shù)據(jù)規(guī)模維持基本的性能水平。
在某些情況下,NoSQL和Hadoop協(xié)同工作。例如,HBase是流行的NoSQL數(shù)據(jù)庫,它仿照谷歌的BigTable,通常部署在HDFS(Hadoop分布式文件系統(tǒng))之上,為Hadoop提供低延遲的快速查找功能。
目前可用的NoSQL數(shù)據(jù)庫包括:
-
· HBase
-
· Cassandra
-
· MarkLogic
-
· Aerospike
-
· MongoDB
-
· Accumulo
-
· Riak
-
· CouchDB
-
· DynamoDB
目前大多數(shù)NoSQL數(shù)據(jù)庫的缺點是,為了性能和可擴(kuò)展性,他們遵從ACID(原子性,一致性,隔離性,持久性)原則。許多NoSQL數(shù)據(jù)庫還缺乏成熟的管理和監(jiān)控工具。這些缺點在開源的NoSQL社區(qū)和少數(shù)廠商的努力下都在克服過程中,這些廠商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase,他們正在嘗試商業(yè)化各種NoSQL數(shù)據(jù)庫。
大規(guī)模并行分析數(shù)據(jù)庫
不同于傳統(tǒng)的數(shù)據(jù)倉庫,大規(guī)模并行分析數(shù)據(jù)庫能夠以必需的最小的數(shù)據(jù)建模,快速獲取大量的結(jié)構(gòu)化數(shù)據(jù),可以向外擴(kuò)展以容納TB甚至PB級數(shù)據(jù)。
對最終用戶而言最重要的是,大規(guī)模并行分析數(shù)據(jù)庫支持近乎實時的復(fù)雜SQL查詢結(jié)果,也叫交互式查詢功能 ,而這正是Hadoop顯著缺失的能力。大規(guī)模并行分析數(shù)據(jù)庫在某些情況下支持近實時的大數(shù)據(jù)應(yīng)用。大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括:
大規(guī)模并行處理的能力: 就像其名字表明的一樣,大規(guī)模并行分析數(shù)據(jù)庫采用大規(guī)模并行處理同時支持多臺機(jī)器上的數(shù)據(jù)采集、處理和查詢。相對傳統(tǒng)的數(shù)據(jù)倉庫具有更快的性能,傳統(tǒng)數(shù)據(jù)倉庫運(yùn)行在單一機(jī)器上,會受到數(shù)據(jù)采集這個單一瓶頸點的限制。
無共享架構(gòu): 無共享架構(gòu)可確保分析數(shù)據(jù)庫環(huán)境中沒有單點故障。在這種架構(gòu)下,每個節(jié)點獨立于其他節(jié)點,所以如果一臺機(jī)器出現(xiàn)故障,其他機(jī)器可以繼續(xù)運(yùn)行。對大規(guī)模并行處理環(huán)境而言,這點尤其重要,數(shù)百臺計算機(jī)并行處理數(shù)據(jù),偶爾出現(xiàn)一臺或多臺機(jī)器失敗是不可避免的。
列存儲結(jié)構(gòu): 大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫采用列存儲結(jié)構(gòu),而大多數(shù)關(guān)系型數(shù)據(jù)庫以行結(jié)構(gòu)存儲和處理數(shù)據(jù)。在列存儲環(huán)境中,由包含必要數(shù)據(jù)的列決定查詢語句的“答案”,而不是由整行的數(shù)據(jù)決定,從而導(dǎo)致查詢結(jié)果瞬間可以得出。這也意味著數(shù)據(jù)不需要像傳統(tǒng)的關(guān)系數(shù)據(jù)庫那樣構(gòu)造成整齊的表格。
強(qiáng)大的數(shù)據(jù)壓縮功能: 它們允許分析數(shù)據(jù)庫收集和存儲更大量的數(shù)據(jù),而且與傳統(tǒng)數(shù)據(jù)庫相比占用更少的硬件資源。例如,具有10比1的壓縮功能的數(shù)據(jù)庫,可以將10 TB字節(jié)的數(shù)據(jù)壓縮到1 TB。數(shù)據(jù)編碼(包括數(shù)據(jù)壓縮以及相關(guān)的技術(shù))是有效的擴(kuò)展到海量數(shù)據(jù)的關(guān)鍵。
商用硬件: 像Hadoop集群一樣,大多數(shù)(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫運(yùn)行在戴爾、IBM等廠商現(xiàn)成的商用硬件上,這使他們能夠以具有成本效益的方式向外擴(kuò)展。
在內(nèi)存中進(jìn)行數(shù)據(jù)處理: 有些(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫使用動態(tài)RAM或閃存進(jìn)行實時數(shù)據(jù)處理。有些(如SAP HANA和 Aerospike)完全在內(nèi)存中運(yùn)行數(shù)據(jù),而其他則采用混合的方式,即用較便宜但低性能的磁盤內(nèi)存處理“冷”數(shù)據(jù),用動態(tài)RAM或閃存處理“熱”數(shù)據(jù)。
然而,大規(guī)模并行分析數(shù)據(jù)庫確實有一些盲點。最值得注意的是,他們并非被設(shè)計用來存儲、處理和分析大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)方法的互補(bǔ)
Hadoop,NoSQL 和大規(guī)模并行分析數(shù)據(jù)庫不是相互排斥的。相反的,Wikibon 認(rèn)為這三種方法是互補(bǔ)的,彼此可以而且應(yīng)該共存于許多企業(yè)。Hadoop擅長處理和分析大量分布式的非結(jié)構(gòu)化數(shù)據(jù),以分批的方式進(jìn)行歷史分析。NoSQL 數(shù)據(jù)庫擅長為基于Web的大數(shù)據(jù)應(yīng)用程序提供近實時地多結(jié)構(gòu)化數(shù)據(jù)存儲和處理。而大規(guī)模并行分析數(shù)據(jù)庫最擅長對大容量的主流結(jié)構(gòu)化數(shù)據(jù)提供接近實時的分析。
例如,Hadoop完成的歷史分析可以移植到分析數(shù)據(jù)庫供進(jìn)一步分析,或者與傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集成。從大數(shù)據(jù)分析得到的見解可以而且應(yīng)該通過大數(shù)據(jù)應(yīng)用實現(xiàn)產(chǎn)品化。企業(yè)的目標(biāo)應(yīng)該是實現(xiàn)一個靈活的大數(shù)據(jù)架構(gòu),在該架構(gòu)中,三種技術(shù)可以盡可能無縫地共享數(shù)據(jù)和見解。
很多預(yù)建的連接器可以幫助Hadoop開發(fā)者和管理員實現(xiàn)這種數(shù)據(jù)集成,同時也有很多廠商(包括Pivotal Initiative-原EMC的Greenplum,CETAS-和Teradata Aster)提供大數(shù)據(jù)應(yīng)用。這些大數(shù)據(jù)應(yīng)用將Hadoop、分析數(shù)據(jù)庫和預(yù)配置的硬件進(jìn)行捆綁,可以達(dá)到以最小的調(diào)整實現(xiàn)快速部署的目的。另外一種情況,Hadapt提供了一個單一平臺,這個平臺在相同的集群上同時提供SQL和Hadoop/MapReduce的處理功能。Cloudera也在Impala和Hortonworks項目上通過開源倡議推行這一策略。
但是,為了充分利用大數(shù)據(jù),企業(yè)必須采取進(jìn)一步措施。也就是說,他們必須使用高級分析技術(shù)處理數(shù)據(jù),并以此得出有意義的見解。數(shù)據(jù)科學(xué)家通過屈指可數(shù)的語言或方法(包括SAS和R)執(zhí)行這項復(fù)雜的工作。分析的結(jié)果可以通過Tableau這樣的工具可視化,也可以通過大數(shù)據(jù)應(yīng)用程序進(jìn)行操作,這些大數(shù)據(jù)應(yīng)用程序包括自己開發(fā)的應(yīng)用程序和現(xiàn)成的應(yīng)用程序。其他廠商(包括 Platfora和Datameer)正在開發(fā)商業(yè)智能型的應(yīng)用程序,這種應(yīng)用程序允許非核心用戶與大數(shù)據(jù)直接交互。
圖3 – 現(xiàn)代數(shù)據(jù)架構(gòu) 資料來源:Wikibon 2013
底層的大數(shù)據(jù)方法(如Hadoop,NoSQL和大規(guī)模并行分析數(shù)據(jù)庫)不僅本身是互補(bǔ)的,而且與大部分大型企業(yè)現(xiàn)有的數(shù)據(jù)管理技術(shù)互補(bǔ)。Wikibon并不建議企業(yè)CIO們?yōu)榱舜髷?shù)據(jù)方法而“淘汰并更換”企業(yè)現(xiàn)有的全部的數(shù)據(jù)倉庫、數(shù)據(jù)集成和其他數(shù)據(jù)管理技術(shù)。
相反,Wikibon認(rèn)為首席信息官必須像投資組合經(jīng)理那樣思考,重新權(quán)衡優(yōu)先級,為企業(yè)走向創(chuàng)新和發(fā)展奠定基礎(chǔ),同時采取必要的措施減輕風(fēng)險因素。用大數(shù)據(jù)方法替換現(xiàn)有的數(shù)據(jù)管理技術(shù),只有當(dāng)它的商業(yè)意義和發(fā)展計劃與現(xiàn)有的數(shù)據(jù)管理基礎(chǔ)設(shè)施盡可能無縫地整合時才有意義。最終目標(biāo)應(yīng)該是轉(zhuǎn)型為現(xiàn)代數(shù)據(jù)架構(gòu)(見圖3和文章鏈接)。
大數(shù)據(jù)供應(yīng)商發(fā)展?fàn)顩r
大數(shù)據(jù)供應(yīng)商正在迅速發(fā)展。參見圖4對一個細(xì)分市場的概述,對于大數(shù)據(jù)市場的詳細(xì)分析,包括市場規(guī)模(現(xiàn)狀及到2017年的五年預(yù)測)和供應(yīng)商之間的大數(shù)據(jù)收入數(shù)字,詳情參考 大數(shù)據(jù)供應(yīng)商收入和市場預(yù)測2012-2017。
圖4 – 大數(shù)據(jù)供應(yīng)商發(fā)展?fàn)顩r 資料來源:Wikibon 2012
大數(shù)據(jù):實際使用案例
讓Hadoop和其他大數(shù)據(jù)技術(shù)如此引人注目的部分原因是,他們讓企業(yè)找到問題的答案,而在此之前他們甚至不知道問題是什么。這可能會產(chǎn)生引出新產(chǎn)品的想法,或者幫助確定改善運(yùn)營效率的方法。不過,也有一些已經(jīng)明確的大數(shù)據(jù)用例,無論是互聯(lián)網(wǎng)巨頭如谷歌,F(xiàn)acebook和LinkedIn還是更多的傳統(tǒng)企業(yè)。它們包括:
推薦引擎:網(wǎng)絡(luò)資源和在線零售商使用Hadoop根據(jù)用戶的個人資料和行為數(shù)據(jù)匹配和推薦用戶、產(chǎn)品和服務(wù)。LinkedIn使用此方法增強(qiáng)其“你可能認(rèn)識的人”這一功能,而亞馬遜利用該方法為網(wǎng)上消費者推薦相關(guān)產(chǎn)品。
情感分析: Hadoop與先進(jìn)的文本分析工具結(jié)合,分析社會化媒體和社交網(wǎng)絡(luò)發(fā)布的非結(jié)構(gòu)化的文本,包括Tweets和Facebook,以確定用戶對特定公司,品牌或產(chǎn)品的情緒。分析既可以專注于宏觀層面的情緒,也可以細(xì)分到個人用戶的情緒。
風(fēng)險建模: 財務(wù)公司、銀行等公司使用Hadoop和下一代數(shù)據(jù)倉庫分析大量交易數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險,模擬市場行為為潛在的“假設(shè)”方案做準(zhǔn)備,并根據(jù)風(fēng)險為潛在客戶打分。
欺詐檢測: 金融公司、零售商等使用大數(shù)據(jù)技術(shù)將客戶行為與歷史交易數(shù)據(jù)結(jié)合來檢測欺詐行為。例如,信用卡公司使用大數(shù)據(jù)技術(shù)識別可能的被盜卡的交易行為。
營銷活動分析:各行業(yè)的營銷部門長期使用技術(shù)手段監(jiān)測和確定營銷活動的有效性。大數(shù)據(jù)讓營銷團(tuán)隊擁有更大量的越來越精細(xì)的數(shù)據(jù),如點擊流數(shù)據(jù)和呼叫詳情記錄數(shù)據(jù),以提高分析的準(zhǔn)確性。
客戶流失分析: 企業(yè)使用Hadoop和大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有可能流向存在競爭關(guān)系的供應(yīng)商或服務(wù)商。企業(yè)就能采取最有效的措施挽留欲流失客戶。
社交圖譜分析: Hadoop和下一代數(shù)據(jù)倉庫相結(jié)合,通過挖掘社交網(wǎng)絡(luò)數(shù)據(jù),可以確定社交網(wǎng)絡(luò)中哪些客戶對其他客戶產(chǎn)生最大的影響力。這有助于企業(yè)確定其“最重要”的客戶,不總是那些購買最多產(chǎn)品或花最多錢的,而是那些最能夠影響他人購買行為的客戶。
用戶體驗分析: 面向消費者的企業(yè)使用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動渠道(如呼叫中心,網(wǎng)上聊天,微博等)數(shù)據(jù)整合在一起, ,以獲得對客戶體驗的完整視圖。這使企業(yè)能夠了解客戶交互渠道之間的相互影響,從而優(yōu)化整個客戶生命周期的用戶體驗。
網(wǎng)絡(luò)監(jiān)控:Hadoop 和其他大數(shù)據(jù)技術(shù)被用來獲取,分析和顯示來自服務(wù)器,存儲設(shè)備和其他IT硬件的數(shù)據(jù),使管理員能夠監(jiān)視網(wǎng)絡(luò)活動,診斷瓶頸等問題。這種類型的分析,也可應(yīng)用到交通網(wǎng)絡(luò),以提高燃料效率,當(dāng)然也可以應(yīng)用到其他網(wǎng)絡(luò)。
研究與發(fā)展: 有些企業(yè)(如制藥商)使用Hadoop技術(shù)進(jìn)行大量文本及歷史數(shù)據(jù)的研究,以協(xié)助新產(chǎn)品的開發(fā)。
當(dāng)然,上述這些都只是大數(shù)據(jù)用例的舉例。事實上,在所有企業(yè)中大數(shù)據(jù)最引人注目的用例可能尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望。
大數(shù)據(jù)技能差距
企業(yè)運(yùn)用大數(shù)據(jù)的最大障礙是缺乏相關(guān)的技能,如Hadoop管理技能、大數(shù)據(jù)分析技能或數(shù)據(jù)科學(xué)。為了讓大數(shù)據(jù)真正被大量采用,并且實現(xiàn)其全部潛力,縮小技能上的差距就至關(guān)重要了。這需要從兩條戰(zhàn)線進(jìn)行攻擊:
首先,這意味著開源社區(qū)和商業(yè)大數(shù)據(jù)廠商必須開發(fā)易于使用的大數(shù)據(jù)管理和分析工具和技術(shù),為傳統(tǒng)的IT和商業(yè)智能專業(yè)人士降低進(jìn)入的門檻。這些工具和技術(shù),必須從底層數(shù)據(jù)處理框架抽象掉盡可能多的復(fù)雜性??梢酝ㄟ^圖形用戶界面,類似于向?qū)У陌惭b功能和日常任務(wù)自動化的組合方式實現(xiàn)。
其次,社會必須開發(fā)更多的教育資源,培養(yǎng)現(xiàn)有的IT和商業(yè)智能專業(yè)人士以及高中生和大學(xué)生成為我們未來所需要的大數(shù)據(jù)從業(yè)者。
據(jù)麥肯錫公司研究,到2018年僅美國就有可能面臨14萬~19萬具備專業(yè)分析技能的人才,以及懂得使用大數(shù)據(jù)分析做出有效決策的150萬經(jīng)理和分析師的短缺。造成短缺的部分原因是數(shù)據(jù)科學(xué)本身的規(guī)律導(dǎo)致的,因為數(shù)據(jù)科學(xué)要求各種綜合技能。
具體來說,數(shù)據(jù)科學(xué)家必須具備的技術(shù)技能側(cè)重于統(tǒng)計、計算機(jī)科學(xué)和數(shù)學(xué)。但他們還必須具有商業(yè)頭腦,即了解現(xiàn)有業(yè)務(wù),并且能找到大數(shù)據(jù)可以業(yè)務(wù)提供最大價值的方向?;蛟S同樣重要的是,數(shù)據(jù)科學(xué)家必須具備專業(yè)的溝通技巧,以及通過大數(shù)據(jù)的可視化,向業(yè)務(wù)同事講故事的能力。
正如本報告中提到的,一些大數(shù)據(jù)廠商開始提供大數(shù)據(jù)培訓(xùn)課程。IT從業(yè)者具有極好的機(jī)會,利用這些培訓(xùn)和教育活動的優(yōu)勢磨練自己的數(shù)據(jù)分析技能,并可以在企業(yè)內(nèi)部確定新的職業(yè)道路。同樣,在南加州大學(xué)、北卡羅來納州立大學(xué)、紐約大學(xué)和其他地方,幾門關(guān)于大數(shù)據(jù)和高級分析技術(shù)的大學(xué)級別的課程也應(yīng)運(yùn)而生。但大數(shù)據(jù)的發(fā)展和普及還是需要更多的課程。
只有通過兩條戰(zhàn)線-更好的工具和技術(shù),更好的教育和培訓(xùn)-才能克服大數(shù)據(jù)技術(shù)差距。
大數(shù)據(jù):企業(yè)和供應(yīng)商的后續(xù)動作
對企業(yè)和為他們服務(wù)的供應(yīng)商雙方而言,大數(shù)據(jù)都具有很大的潛力,但首先必須先采取行動。Wikibon的建議如下。
行動項目:各個行業(yè)的企業(yè)應(yīng)評估現(xiàn)有和潛在的大數(shù)據(jù)用例,參與大數(shù)據(jù)社區(qū)了解最新的技術(shù)發(fā)展。與大數(shù)據(jù)社區(qū)里志趣相投的企業(yè)和供應(yīng)商一起識別大數(shù)據(jù)能夠提供商業(yè)價值的領(lǐng)域。接下來,考慮企業(yè)內(nèi)部的大數(shù)據(jù)技術(shù)水平,確定是否開始大數(shù)據(jù)方法,如Hadoop的試驗。如果是這樣,與IT部門和業(yè)務(wù)部門一起制定計劃,將大數(shù)據(jù)工具、技術(shù)和方法整合到企業(yè)現(xiàn)有的IT基礎(chǔ)架構(gòu)。
最重要的是,首先要在所有工作人員中培養(yǎng)數(shù)據(jù)驅(qū)動的文化,鼓勵數(shù)據(jù)實驗。當(dāng)這個基礎(chǔ)已經(jīng)奠定,開始使用大數(shù)據(jù)的技術(shù)和方法提供最大的業(yè)務(wù)價值,并不斷地重新評估新成熟的大數(shù)據(jù)方法。
IT供應(yīng)商應(yīng)該幫助企業(yè)找出最有利可圖、最實用的大數(shù)據(jù)用例,開發(fā)使大數(shù)據(jù)技術(shù)更易于部署、管理和使用的產(chǎn)品和服務(wù)。擁有開放而不專有的心態(tài),給予客戶嘗試新的大數(shù)據(jù)技術(shù)和工具所需要的靈活性。同樣地,開始建立大數(shù)據(jù)服務(wù),幫助企業(yè)發(fā)展部署和管理大數(shù)據(jù)方法(如Hadoop)所需要的技能。最重要的是,隨著大數(shù)據(jù)部署方案的成熟和成長,及時傾聽和回應(yīng)客戶的反饋