如何保證Hadoop數(shù)據(jù)湖不變成“數(shù)據(jù)洪水”
1、數(shù)據(jù)湖:一不留神變數(shù)據(jù)洪
數(shù)據(jù)湖的提出距今已經(jīng)有了幾年時(shí)間了,特別是在當(dāng)今時(shí)代中,基于Hadoop建立的數(shù)據(jù)湖在大數(shù)據(jù)處理中占有的位置越來越重要。但是如何保證數(shù)據(jù)湖不像南方水災(zāi)一樣泛濫,依然是一個(gè)耐人尋味的話題。
數(shù)據(jù)湖已滿,如何防泛濫
數(shù)據(jù)湖洪水泛濫
數(shù)據(jù)湖十分靈活,同時(shí)具備可擴(kuò)展和低成本的特點(diǎn)。其最初建立的目的十分簡(jiǎn)單,就是將所有形式的數(shù)據(jù)集中在同一處,這些數(shù)據(jù)包括了結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)可以是日志文件、點(diǎn)擊流、郵件、圖像、音頻視頻或者文本文件。
數(shù)據(jù)湖中數(shù)據(jù)類型繁雜
在這些數(shù)據(jù)中,非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)占據(jù)了很大一部分,但是由于我們的處理能力不同,一些數(shù)據(jù)可能在數(shù)據(jù)湖中存儲(chǔ)了很長(zhǎng)時(shí)間而不能被處理掉,這樣就會(huì)一直積攢下來保留的現(xiàn)在。
誠然,數(shù)據(jù)湖可以幫助處理各種形式的數(shù)據(jù),這其中以結(jié)構(gòu)化數(shù)據(jù)為主。而且數(shù)據(jù)湖具備數(shù)據(jù)庫的大部分特質(zhì),可以提供數(shù)據(jù)查詢、結(jié)構(gòu)化數(shù)據(jù)處理報(bào)告等業(yè)務(wù)。數(shù)據(jù)湖的***價(jià)值在于數(shù)據(jù)利用、探索大數(shù)據(jù)的價(jià)值,預(yù)測(cè)未來結(jié)果并為企業(yè)提出相關(guān)建議,進(jìn)而指導(dǎo)企業(yè)的進(jìn)一步?jīng)Q策和行動(dòng)。
“數(shù)據(jù)洪”一觸即發(fā)
但是,問題也就發(fā)生在這里。因?yàn)榛贖adoop部署的數(shù)據(jù)湖的能力并不足以應(yīng)付一切,而用戶對(duì)數(shù)據(jù)湖又疏于管理。數(shù)據(jù)量隨時(shí)間而增加,數(shù)據(jù)湖開始泛濫,進(jìn)而有逐步發(fā)展成洪水的趨勢(shì)。數(shù)據(jù)不能得到有效的分配,“數(shù)據(jù)洪”隨時(shí)可能沖潰堤壩,水漫金山。
2、數(shù)據(jù)湖管理需更好的工具
抗洪還得靠管理
那么數(shù)據(jù)湖要如何才能避免成為數(shù)據(jù)洪的悲劇呢?首先應(yīng)該從根本上改變傳統(tǒng)對(duì)數(shù)據(jù)湖的看法。把數(shù)據(jù)湖當(dāng)作一個(gè)整體庫存來管理是存在問題的,對(duì)于管理人員來講,基于數(shù)據(jù)類型需要把數(shù)據(jù)湖分成一個(gè)個(gè)的區(qū),分別處理管理。
基于Hadoop的數(shù)據(jù)湖需要分類
基于Hadoop的數(shù)據(jù)湖的區(qū)域劃分歸類對(duì)其而言十分重要。管理者需要對(duì)其需要提取的數(shù)據(jù)進(jìn)行原始數(shù)據(jù)的保留,并且對(duì)其進(jìn)行元數(shù)據(jù)標(biāo)記,標(biāo)明數(shù)據(jù)源、數(shù)據(jù)類型等。當(dāng)被提取的數(shù)據(jù)處理完畢之后要對(duì)其統(tǒng)一規(guī)劃并進(jìn)行后續(xù)處理。
如果用戶需要選擇一些特定應(yīng)用程序的數(shù)據(jù),那么可以通過收集、轉(zhuǎn)換,將來自不同數(shù)據(jù)源的數(shù)據(jù)全部帶走并進(jìn)行處理。***,在處理工作完成后可以通過數(shù)據(jù)軌跡、處理日志等工具對(duì)處理過程進(jìn)行審核,保障數(shù)據(jù)處理的完成度。
數(shù)據(jù)分類管理
這些問題說起來簡(jiǎn)單,但是做起來卻是一件相當(dāng)麻煩的事情。這要求企業(yè)擁有一套十分成熟的數(shù)據(jù)提取工具,用于數(shù)據(jù)轉(zhuǎn)化、分類、標(biāo)記以及其他任務(wù)。
而且不僅僅是企業(yè)關(guān)注這一問題,在Apache的Hadoop社區(qū)也有好多團(tuán)隊(duì)在致力于開發(fā)此類工具。事實(shí)上,此類工具更趨向于數(shù)據(jù)管理專業(yè),這些對(duì)于企業(yè)來講并不熟悉。而好消息是,一些相關(guān)的生態(tài)鏈已經(jīng)在Hadoop領(lǐng)域開始形成,相信解決數(shù)據(jù)湖管理難題的工具將在不久后出現(xiàn)。