撥開迷霧:大數(shù)據(jù)所帶來的變革其實(shí)并沒那么夸張
譯文如今的世界仍然由關(guān)系型數(shù)據(jù)庫(簡稱RDBMS)所掌控,不過以Hadoop及NoSQL為代表的新型技術(shù)方案已經(jīng)開始快速興起并開始在結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域留下自己的足跡及影響。
這正是由戴爾軟件公司贊助的Unisphere調(diào)查報(bào)告所發(fā)現(xiàn)的一大關(guān)鍵性轉(zhuǎn)變,其中指出目前75%的企業(yè)數(shù)據(jù)仍然被牢牢鎖定在關(guān)系型數(shù)據(jù)庫當(dāng)中——對(duì)于大多數(shù)企業(yè)來說,主要為甲骨文數(shù)據(jù)庫以及微軟SQL Server。更令人意外的是,在全部組織機(jī)構(gòu)當(dāng)中,只有不足三分之一在采取積極的非結(jié)構(gòu)化數(shù)據(jù)管理機(jī)制。
現(xiàn)在不是大數(shù)據(jù)時(shí)代么?這些企業(yè)到底還生活在什么年代?
有趣的是,雖然調(diào)查報(bào)告揭示出了NoSQL與Hadoop在接納與實(shí)施層面的顯著增長,但其***發(fā)現(xiàn)卻在于、真正了解企業(yè)關(guān)鍵性數(shù)據(jù)該如何加以管理秘訣的仍然是那些保守派數(shù)據(jù)庫管理員。
從結(jié)構(gòu)化方案到結(jié)構(gòu)化數(shù)據(jù)
關(guān)系型數(shù)據(jù)庫可以說是人類技術(shù)發(fā)展歷史上的一次偉大創(chuàng)新。早期的數(shù)據(jù)庫方案(例如IMS)強(qiáng)迫開發(fā)人員提前考慮查詢機(jī)制設(shè)計(jì)及架構(gòu)實(shí)現(xiàn)思路,這往往會(huì)在數(shù)據(jù)需要進(jìn)行變更時(shí)對(duì)靈活性造成巨大限制。
不過,關(guān)系型數(shù)據(jù)庫的SQL(即結(jié)構(gòu)化查詢語言)會(huì)將查詢?cè)O(shè)計(jì)從架構(gòu)設(shè)計(jì)當(dāng)中解耦出來,從而允許開發(fā)人員以更具信心的方式專注于架構(gòu)設(shè)計(jì)、從而在未來的使用中根據(jù)需要實(shí)現(xiàn)數(shù)據(jù)查詢。這一顯著轉(zhuǎn)變極大提升了數(shù)據(jù)庫方案的可訪問性,從而使其更為強(qiáng)大。
不過隨著非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)的不斷涌現(xiàn),原本舒適安樂的關(guān)系型數(shù)據(jù)庫領(lǐng)域開始面臨著一波又一波重壓與挑戰(zhàn)。大部分此類新型數(shù)據(jù)是由被Geoffrey Moore描述為所謂參與系統(tǒng)所生成,甚至在過去幾十年來這類數(shù)據(jù)就已經(jīng)開始在記錄系統(tǒng)中出現(xiàn)(例如ERP以及CRM系統(tǒng))。總而言之,當(dāng)數(shù)據(jù)本身在變化、速度以及容量規(guī)模方面擁有可預(yù)測(cè)性時(shí),關(guān)系型數(shù)據(jù)庫依然在發(fā)揮著不可替代的關(guān)鍵性作用。
但我們的大數(shù)據(jù)世界可絕對(duì)不會(huì)老老實(shí)實(shí)遵循以下預(yù)測(cè)軌跡。
即便如此,未來的到來仍然需要經(jīng)過相當(dāng)長的一段時(shí)間。有鑒于此,無怪乎我們會(huì)在Unisphere的調(diào)查報(bào)告中看到受訪者們?nèi)匀粚⒅饕P(guān)注重點(diǎn)放在結(jié)構(gòu)化數(shù)據(jù)身上:
·83%的企業(yè)認(rèn)為,交易性數(shù)據(jù)(其中包括電子商務(wù))的持續(xù)增長將成為所在組織內(nèi)結(jié)構(gòu)化數(shù)據(jù)總量增長的最主要來源,而51%的受訪者則認(rèn)為管理數(shù)據(jù)亦有所增長——例如ERP系統(tǒng)。
·盡管目前已經(jīng)有越來越多的行業(yè)開始將社交數(shù)據(jù)的不斷增殖納入議事日程,但內(nèi)部文檔的創(chuàng)建仍然被視為非結(jié)構(gòu)化數(shù)據(jù)總量增長的首要推動(dòng)力,并得到了超過50%受訪者的認(rèn)同。
盡管這類數(shù)據(jù)具有關(guān)系型數(shù)據(jù)庫友好屬性,但同樣值得指出的是,其對(duì)于NoSQL與Hadoop的依賴性也在日益提高:
·在全部正在使用MongoDB的受訪者當(dāng)中,約有70%比例運(yùn)行的數(shù)據(jù)庫數(shù)量在100套以上,30%比例所運(yùn)行的數(shù)據(jù)庫數(shù)量超過500套,而且這部分受訪者有接近60%供職于員工數(shù)量超過五千名的大型企業(yè)。
·在目前正在使用Hadoop的受訪者當(dāng)中,約有70%比例運(yùn)行的數(shù)據(jù)庫數(shù)量在100套以上,45%比例所運(yùn)行的數(shù)據(jù)庫數(shù)量超過500套,而且這部分受訪者有三分之二左右供職于員工數(shù)量超過一千名的企業(yè)。
既然非關(guān)系型數(shù)據(jù)技術(shù)方案的表現(xiàn)如此出色,為什么普及程度仍然不盡如人意?答案(也許)在于,數(shù)據(jù)庫管理員應(yīng)當(dāng)為此負(fù)責(zé)。
#p#
為什么普及程度不盡如人意?
正如報(bào)告所指出,在所在企業(yè)同時(shí)采用Hadoop與NoSQL的受訪者當(dāng)中,約有72%比例需要由數(shù)據(jù)庫管理員負(fù)責(zé)管理非關(guān)系型技術(shù)方案。事實(shí)上,這部分?jǐn)?shù)據(jù)庫管理員占據(jù)了受訪者群體的48%比例; IT事務(wù)主管則占據(jù)了另外20%比例。
這些角色在面對(duì)領(lǐng)先性技術(shù)的采納需求時(shí)往往處于滯后——而非領(lǐng)先——位置。這部分?jǐn)?shù)據(jù)庫管理員的整個(gè)職業(yè)生涯緊緊圍繞著甲骨文數(shù)據(jù)庫或者微軟SQL Server而建立,因此我們也可以理解其仍然固守于自己所熟知的這一切。
調(diào)查報(bào)告同時(shí)發(fā)現(xiàn),只有約10%的受訪者采用了NoSQL數(shù)據(jù)庫(而且有超過半數(shù)受訪者表示其在未來三年內(nèi)沒有采納相關(guān)方案的計(jì)劃),而使用Hadoop的受訪者比例也僅為20%(其中57%受訪者表示其在未來三內(nèi)年沒有采納相關(guān)方案的計(jì)劃)。由此可以得出結(jié)論,如果我們將這部分群體作為推廣更多現(xiàn)代數(shù)據(jù)技術(shù)的主力軍,那么所得到的意見與結(jié)論必然較為負(fù)面。
事實(shí)上,最令人意外的是那些正在運(yùn)行NoSQL與Hadoop方案的受訪者同樣給出了消極的回應(yīng)。
換個(gè)角度看,在我們意料之中的是,此類受訪者其實(shí)根本沒有什么空間可以發(fā)揮或者說選擇。要想實(shí)現(xiàn)當(dāng)下企業(yè)所需要的規(guī)模化與靈活性水平,現(xiàn)代數(shù)據(jù)技術(shù)的重要性正表現(xiàn)得愈發(fā)重要。
這部分接受調(diào)查的受訪者還宣稱,他們的主要關(guān)注重點(diǎn)在于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的規(guī)模增長(占66%),以及云計(jì)算帶來的影響。他們目前還沒能將這兩大趨勢(shì)聯(lián)系起來,然而二者所帶來的正是大數(shù)據(jù)時(shí)代下的標(biāo)志性產(chǎn)物——Hadoop與NoSQL。
#p#
遠(yuǎn)超你的想象
不過其它以非數(shù)據(jù)庫管理員受訪者為主要受眾的調(diào)查報(bào)告則給出了不同的結(jié)果。
因此,F(xiàn)orrester公司自己的調(diào)查報(bào)告顯示NoSQL目前已經(jīng)獲得了高達(dá)20%的采納比例,而這一數(shù)字將在2017年迎來倍增。至于用于實(shí)現(xiàn)數(shù)據(jù)庫優(yōu)先級(jí)排序的DB-Engines(根據(jù)各類求職數(shù)據(jù)以及領(lǐng)英信息等等)則指出,目前在前十大人氣數(shù)據(jù)庫當(dāng)中已經(jīng)有三款屬于NoSQL,且排名甚至高于DB2以及Postgres等已經(jīng)相當(dāng)成熟的關(guān)系型數(shù)據(jù)庫。
而在Hadoop方面,沒錯(cuò),451研究報(bào)告(自2013年起)顯示Hadoop所把持的全球企業(yè)整體存儲(chǔ)容量尚不足3%,不過Gartner則強(qiáng)調(diào)稱對(duì)于大數(shù)據(jù)庫、具體而言特別是Hadoop、的接納趨勢(shì)將表現(xiàn)得愈發(fā)明確。每一年,Gartner方面都會(huì)向企業(yè)客戶詢問其大數(shù)據(jù)發(fā)展計(jì)劃,在其之中Hadoop往往占據(jù)著重要比重,而且很多使用企業(yè)已經(jīng)明顯度過了概念驗(yàn)證階段:
幾年之前,Billy Marshall曾經(jīng)指出“CIO們是***知情的群體”,表示CIO往往對(duì)于企業(yè)內(nèi)開源方案的大規(guī)模介入一無所知。時(shí)至今日,Hadoop與NoSQL的情況也遵循同樣的態(tài)勢(shì)。
不,Hadoop與NoSQL當(dāng)下的地位與普及度還遠(yuǎn)遠(yuǎn)無法與甲骨文數(shù)據(jù)庫或者微軟SQL Server相比肩,而且它們也不適用于傳統(tǒng)用例。然而隨著企業(yè)開始著眼于通過更出色的方式對(duì)總量持續(xù)增長的非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)加以存儲(chǔ)及處理,數(shù)據(jù)庫管理員們將不得不使用Hadoop與NoSQL。理由很簡單——他們別無選擇。
原文標(biāo)題:Big data has changed things less than you think