大數(shù)據(jù)來襲 傳統(tǒng)IT廠商緊握Hadoop機遇
大數(shù)據(jù)時代已經(jīng)來臨,并悄悄的影響著我們的生活。根據(jù)IDC最近一項研究顯示,在Facebook上每20分鐘就有100萬個新鏈接被分享,1000萬條用戶評論被發(fā)布。Facebook和其他所有互聯(lián)網(wǎng)網(wǎng)站、互聯(lián)網(wǎng)應(yīng)用,已經(jīng)逐漸變成了整個數(shù)據(jù)采集、分析、處理、增值的數(shù)據(jù)架構(gòu)。
在中國,社交網(wǎng)絡(luò)同樣如火如荼。新浪副總裁王高飛就曾表示,新浪微博的注冊用戶已超過3億,用戶平均每天發(fā)布超過1億條微博內(nèi)容,相當于每10個中國人里面,就會有一人每天發(fā)布一條微博。每位用戶的平均在線時長為60分鐘,活躍用戶中有60%通過移動終端登錄,所有來自移動終端的原創(chuàng)內(nèi)容中,有40%的微博分享照片。在社交網(wǎng)絡(luò)的影響下,用戶通過移動設(shè)備能夠在任何時間、任何地點、任何狀態(tài)下消費和創(chuàng)造數(shù)據(jù)。
社交網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)的發(fā)展催生出大量的非結(jié)構(gòu)化數(shù)據(jù),這是一種有別于傳統(tǒng)結(jié)構(gòu)化的一種數(shù)據(jù)類型,常見的圖像、視頻、音樂、辦公文檔、Web頁面、微博、即時通信和傳感器產(chǎn)生的數(shù)據(jù)等都屬于非結(jié)構(gòu)化數(shù)據(jù)。據(jù)英特爾亞太研發(fā)有限公司總經(jīng)理、軟件與服務(wù)事業(yè)部中國區(qū)總經(jīng)理何京翔博士介紹,當前每48小時產(chǎn)生的數(shù)據(jù)量相當于人類文明到2003年產(chǎn)生的數(shù)據(jù)量總和,未來隨著物聯(lián)網(wǎng)和智能城市的發(fā)展,這一數(shù)字將更加驚人,且多為傳感器等數(shù)據(jù)采集裝置所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。
除此之外,傳統(tǒng)企業(yè)同樣面臨大數(shù)據(jù)的挑戰(zhàn)。據(jù)Gartner預(yù)測,企業(yè)數(shù)據(jù)將在五年內(nèi)增加800%,其中80%是非結(jié)構(gòu)化的。來自團體、社區(qū),以及社交網(wǎng)絡(luò)的非業(yè)務(wù)數(shù)據(jù)會成為這種趨勢中的大部分。非結(jié)構(gòu)化數(shù)據(jù)的爆炸式增長,使傳統(tǒng)數(shù)據(jù)庫面臨巨大挑戰(zhàn),Hadoop逐漸成為全球IT產(chǎn)業(yè)的寵兒。
Hadoop是一個100%的分布式文件系統(tǒng),被稱為繼Linux以來最成功的開源軟件,其最大的優(yōu)勢就是存儲和計算非結(jié)構(gòu)化數(shù)據(jù)。Hadoop可以利用高性價比的X86服務(wù)器組成高性能集群,當數(shù)據(jù)量增加到無法負荷的時候,只需增加相應(yīng)節(jié)點即可滿足計算需求,價格低廉的存儲和計算是大數(shù)據(jù)的推動力。#p#
傳統(tǒng)數(shù)據(jù)庫的Hadoop夢想
與Hadoop不同,數(shù)據(jù)庫自誕生之日起,就承載了企業(yè)中結(jié)構(gòu)化數(shù)據(jù)的日常管理。數(shù)據(jù)庫的發(fā)展經(jīng)歷了人工管理、文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng)三個階段,在市場趨勢的影響下,數(shù)據(jù)庫朝著新的方向不斷變革。據(jù)IDC統(tǒng)計,2011年全球數(shù)據(jù)總量已經(jīng)達到了1.8ZB,2020年將達到35ZB,這意味著全球數(shù)據(jù)將進入大爆炸的時代。傳統(tǒng)數(shù)據(jù)庫廠商紛紛推出各自的大數(shù)據(jù)解決方案,這些解決方案有一個共同的關(guān)鍵詞——Hadoop。
Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu),主要由HDFS、MapReduce和HBase組成,是一個能夠便捷的開發(fā)和運行處理大數(shù)據(jù)的軟件平臺。Hadoop不等于數(shù)據(jù)庫,它們之間最大的區(qū)別就在于,數(shù)據(jù)庫擅長處理結(jié)構(gòu)化數(shù)據(jù),而Hadoop擅長處理非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型多樣化則是大數(shù)據(jù)的特征之一。Hadoop對數(shù)據(jù)庫廠商而言,既是威脅,也是機遇,如果能夠讓Hadoop為數(shù)據(jù)庫所用,將為數(shù)據(jù)庫打造一片新的天空。下面筆者將對支持Hadoop的數(shù)據(jù)庫進行盤點,并對其大數(shù)據(jù)策略簡要分析。
·Oracle:甲骨文公司在數(shù)據(jù)庫領(lǐng)域一直處于領(lǐng)先地位,其旗下的Oracle數(shù)據(jù)庫是一款最受歡迎的關(guān)系型數(shù)據(jù)庫產(chǎn)品。甲骨文公司全球副總裁、大中華區(qū)技術(shù)總經(jīng)理喻思成曾表示,甲骨文公司更專注的是結(jié)構(gòu)化的工具和RDBMS平臺,但在過去的一年中,甲骨文公司也開始走進大數(shù)據(jù)時代。事實也的確如此,甲骨文公司意識到Hadoop在大數(shù)據(jù)處理方面的潛力,推出以Hadoop為基礎(chǔ)的大數(shù)據(jù)機(Big Data Application),其中包括開源Apache Hadoop、Oracle NoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、Oracle Hadoop裝載器以及開源R,并與Cloudera公司合作提供Apache Hadoop系列軟件。
·IBM DB2:IBM是關(guān)系型數(shù)據(jù)庫的創(chuàng)造者,對數(shù)據(jù)庫的誕生和發(fā)展舉足輕重,然而處在大數(shù)據(jù)的新時期,老牌關(guān)系型數(shù)據(jù)庫也需要不斷創(chuàng)新、迎接挑戰(zhàn)。IBM中國研究院院士、首席技術(shù)官王云曾在2012中國數(shù)據(jù)庫技術(shù)大會上表示,大數(shù)據(jù)不能用傳統(tǒng)方法處理,傳統(tǒng)關(guān)系型數(shù)據(jù)庫起源于OLTP功能,能夠保證數(shù)據(jù)準確記錄;而大數(shù)據(jù)是新的應(yīng)用,是OLAP的體現(xiàn),這也是關(guān)系型數(shù)據(jù)庫不能滿足大數(shù)據(jù)的原因。IBM推出的大數(shù)據(jù)平臺包括Hadoop和Stream Computing兩個組件,通過新的路徑解決大數(shù)據(jù)分析處理。
·SQL Server:微軟作為全球知名的軟件公司,在數(shù)據(jù)庫領(lǐng)域的地位不容小覷。微軟SQL Server 2012引入Hadoop,幫助客戶無縫存儲和處理所有類型的數(shù)據(jù),包括結(jié)構(gòu)化、非結(jié)構(gòu)化和實時數(shù)據(jù)。除此之外,微軟還將同時在Windows Azure平臺和Windows Server上提供 Hadoop,形成完整的大數(shù)據(jù)解決方案。正如微軟亞太研發(fā)集團首席技術(shù)官孫博凱所說,微軟與Hadoop是一個強強組合,能夠把Hadoop的高性能、高可擴展與微軟產(chǎn)品易用、易部署的傳統(tǒng)優(yōu)勢融合到一起。
·SAP:SAP公司是全球知名的企業(yè)管理軟件供應(yīng)商,自2010年SAP收購Sybase以來,開始成為數(shù)據(jù)庫界一顆冉冉升起的新星。SAP將數(shù)據(jù)庫技術(shù)作為2012年重點發(fā)展領(lǐng)域之一,形成了以SAP HANA為核心,以SAP Sybase數(shù)據(jù)庫為基礎(chǔ)的大數(shù)據(jù)戰(zhàn)略。在這一戰(zhàn)略中,特別重要的一環(huán)就是Hadoop。通過SAP HANA和SAP Sybase IQ與Hadoop的集成,增強對Hadoop等大數(shù)據(jù)源的獲取能力,并提供深度集成的預(yù)處理基礎(chǔ)架構(gòu)。
·EMC Greenplum:EMC是全球知名信息存儲服務(wù)提供商,與SAP相似,在2010年收購了Greenplum,開始發(fā)展其數(shù)據(jù)庫市場。目前Greenplum的數(shù)據(jù)庫產(chǎn)品包括傳統(tǒng)的Greenplum Database和Greenplum HD(Hadoop),前者用來應(yīng)對企業(yè)結(jié)構(gòu)化數(shù)據(jù),后者可以將非結(jié)構(gòu)化數(shù)據(jù)導入Greenplum中進行存儲和分析。EMC在中國的市場戰(zhàn)略,以“大數(shù)據(jù)推動業(yè)務(wù)轉(zhuǎn)型”為核心,EMC數(shù)據(jù)計算產(chǎn)品部大中華區(qū)總經(jīng)理劉偉光曾對筆者表示,EMC之所以會推出Greenplum Hadoop版本,是對Hadoop的未來發(fā)展前景充滿信心。
除了以上提到的五款主流數(shù)據(jù)庫,仍有越來越多的傳統(tǒng)數(shù)據(jù)庫廠商正在加入Hadoop陣營,這其中還包括Teradata、Informatica、Pentaho、Talend等數(shù)據(jù)庫、數(shù)據(jù)倉庫及商業(yè)智能服務(wù)提供商。此外,Hadoop還是NoSQL數(shù)據(jù)庫的主要架構(gòu)之一。