Hadoop+數(shù)據(jù)倉庫到底是夢幻組合還是命中的宿敵?
想一想數(shù)據(jù)管理世界中的那個(gè)偉大的存在–數(shù)據(jù)倉庫吧。在過去的二十年中,盡管其他的系統(tǒng)和軟件在許許多多的迭代、變革中演進(jìn),甚至完全被新模型所拋棄,數(shù)據(jù)倉庫這個(gè)老骨干卻安然屹立。她可能會(huì)偷偷地給自己的面頰,皺紋整容,也可能會(huì)激起一些不那么令人深刻的模仿,但是沒有什么能長期的吸引她的注意力。
直到現(xiàn)在。自從Hadoop出現(xiàn)在舞臺(tái)上之后,一直有人嘀咕說,這個(gè)閃亮的新星正在為一些最好的數(shù)據(jù)管理角色提供服務(wù)–這些角色就是,在幾年前,數(shù)據(jù)倉庫已穩(wěn)操勝券。
但是現(xiàn)在真的到了數(shù)據(jù)倉庫要退休的時(shí)候了嗎?Hadoop甚至想要進(jìn)入她的鞋子里嗎?還有誰在后面等著呢?
讓我們仔細(xì)看看這些據(jù)報(bào)道的競爭對(duì)手的全部本領(lǐng)。
數(shù)據(jù)倉庫持久吸引力的背后是什么?
簡單地說,數(shù)據(jù)倉庫意味著將不同來源的數(shù)據(jù)聚合為一個(gè)用于報(bào)告和分析的中央存儲(chǔ)庫。它長期成為實(shí)際解決方案的原因如下:因?yàn)檫@些數(shù)據(jù)是被聚合的,在經(jīng)歷抽取,轉(zhuǎn)換,加載過程后,協(xié)調(diào)成為“真理的唯一版本”,緩和矛盾,重構(gòu)數(shù)據(jù)格式化的方式,從而適應(yīng)預(yù)定的模式。
結(jié)果是一個(gè)完整的、可靠的,一致的數(shù)據(jù)來源,這些數(shù)據(jù)可用于商業(yè)智能軟件查詢。
Hadoop究竟是什么?
對(duì)于需要處理海量數(shù)據(jù)集的用戶來說,這是一個(gè)開源的編程框架。使用分布式存儲(chǔ)系統(tǒng),它給用戶一種存儲(chǔ)、清理和處理大量數(shù)據(jù)的方法。
為了使數(shù)據(jù)達(dá)到千兆兆字節(jié)的傳輸速度,Hadoop分布式文件系統(tǒng)(HDFS)沿著成千上萬的硬件節(jié)點(diǎn)讀取數(shù)據(jù)。即使許多節(jié)點(diǎn)由于技術(shù)故障而停止工作,系統(tǒng)仍能保持正常運(yùn)行。這意味著存在低風(fēng)險(xiǎn)的數(shù)據(jù)丟失–對(duì)于那些使用大量數(shù)據(jù)進(jìn)行非常復(fù)雜的分析的企業(yè)來說,這是一種真正的恐懼。
難怪Hadoop正在轉(zhuǎn)向一個(gè)尋求可靠的方法來運(yùn)行大數(shù)據(jù)處理任務(wù)的行業(yè)。
另外,它是開源的–這是一個(gè)巨大的吸引力。它具有無限的可伸縮性和無限的可定制性。包含定制應(yīng)用程序、查詢和方法的范圍是無限的。數(shù)據(jù)挖掘的復(fù)雜性可以隨著數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的數(shù)量而增長。
它哪里比數(shù)據(jù)倉庫更出色?
大數(shù)據(jù)正變得越來越大,許多大型數(shù)據(jù)倉庫都試圖采取定制的多處理器設(shè)備來應(yīng)對(duì)不斷飆升的存儲(chǔ)需求。但是除了最大的組織外,所有這些都需要付費(fèi)。
與此同時(shí),Hadoop可以靈活地處理滾雪球般的數(shù)據(jù)。然后用戶可以將它與數(shù)據(jù)倉庫層或頂部構(gòu)建的服務(wù)相結(jié)合,無論是像Presto的SQL軟件,或者用相似方式工作的Hive,或者像HBase類的NoSQL。
但這并不意味著Hadoop將取關(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫。事實(shí)上,我們馬上就會(huì)看到,這很可能是最好的支持,而不是取代。
那么他們是競爭對(duì)手嗎?
完全不是。簡單地說,他們沒有扮演相同的角色。
數(shù)據(jù)專家趨向于把Hadoop看作現(xiàn)有數(shù)據(jù)倉庫架構(gòu)的一個(gè)補(bǔ)充,并且可以為他們節(jié)省大量現(xiàn)金。通過把數(shù)據(jù)塊遷移到Hadoop,可以減少關(guān)系型數(shù)據(jù)庫的壓力,從而使數(shù)據(jù)倉庫平臺(tái)更便宜,并且可以在不增加語速那的情況下進(jìn)行擴(kuò)展。
用這種方式,Hadoop可以降低數(shù)據(jù)倉庫的總成本,而不是取代它的某些東西。
它如何使數(shù)據(jù)倉庫的性能更好?
數(shù)據(jù)倉庫的構(gòu)建成本很高,運(yùn)行成本和增長成本昂貴。隨著收集的數(shù)據(jù)量的增長,存儲(chǔ)需求和花費(fèi)也會(huì)呈指數(shù)級(jí)增長。
此外,這些龐大的數(shù)據(jù)集合意味著用戶每次運(yùn)行查詢的時(shí)候,不能進(jìn)入數(shù)據(jù)倉庫的全部范圍–而且他們的硬件也無法處理這個(gè)問題。這意味著使用分析數(shù)據(jù)集來給業(yè)務(wù)中的各個(gè)部門訪問數(shù)據(jù)倉庫特定區(qū)域的數(shù)據(jù)。
它是一個(gè)不完美的系統(tǒng)。不僅限制了用戶在數(shù)據(jù)上執(zhí)行分析的范圍,也是一個(gè)定時(shí)炸彈。
隨著越來越多的數(shù)據(jù)涌入倉庫,每個(gè)數(shù)據(jù)集都可能變得如此不堪重負(fù),以致難以使用。你可以通過限制訪問來減輕硬件壓力,但是那意味著給各個(gè)部門越來越窄的數(shù)據(jù)分析選擇。對(duì)于嚴(yán)格的商業(yè)智能來說,這樣的做法并不夠好。
Hadoop并沒有遭受這些挫折。進(jìn)入門檻很低,而且對(duì)增量投資是開源的。它可以隨著時(shí)間的推移而建立起來,你可以不斷增大數(shù)據(jù)量而不需要花大量的成本來匹配。
對(duì)于那些剛剛進(jìn)入數(shù)據(jù)行業(yè)的公司--沒有對(duì)大型機(jī)或者基于Unix的數(shù)據(jù)倉庫的投資–這種可擴(kuò)展的、增量式的框架是非常吸引人的。但是Hadop是一個(gè)框架,而不是一個(gè)完美的解決方案。它在處理巨大數(shù)據(jù)集方面很出色,但是它從來沒有打算要替代數(shù)據(jù)倉庫。
那么Hadoop和數(shù)據(jù)倉庫是最終的BI夢想團(tuán)隊(duì)嗎?
哇哦,請(qǐng)等一下。使用Hadoop與數(shù)據(jù)倉庫處理了數(shù)據(jù)存儲(chǔ)問題。但是存儲(chǔ)數(shù)據(jù)只是商業(yè)智能的一個(gè)要素。
廣義上說,一個(gè)功能性的、可用的BI系統(tǒng)應(yīng)該由五個(gè)部分組成:
在某個(gè)地方幾種存儲(chǔ)數(shù)據(jù)。
劃分這些數(shù)據(jù)的工具,如:地理,操作或者其他業(yè)務(wù)需要的工具。
為數(shù)據(jù)分析準(zhǔn)備工具。
幫助您快速處理此數(shù)據(jù)的ETL數(shù)據(jù)引擎。
顯示所有這些數(shù)據(jù)的前端(通常是某種儀表盤)。
即使Hadoop和數(shù)據(jù)倉庫在最好的情況協(xié)同工作,他們也只處理這些組件中的第一個(gè)。現(xiàn)在,BI技術(shù)的創(chuàng)新,同時(shí)提供了所有的五個(gè)組件,很快將夢想團(tuán)隊(duì)降級(jí)為二類組合。
誰,誰會(huì)為了搶風(fēng)頭而出風(fēng)頭?
正如我們看到的,數(shù)據(jù)倉庫和Hadoop是一個(gè)成功的雙重行為。但是,要執(zhí)行來自多個(gè)源的快速、高性能的數(shù)據(jù)分析,您并不需要它們中的任何一個(gè)。
現(xiàn)在,我們正在見證一顆新星的崛起。
整體的“單棧”解決方案消除了關(guān)系數(shù)據(jù)庫的需要,直接鏈接源數(shù)據(jù),無論來自何處,并在現(xiàn)場執(zhí)行英語教學(xué)功能。最好的工作是創(chuàng)建一個(gè)元數(shù)據(jù)(抽象)層,用于在任意數(shù)量的表中查詢數(shù)據(jù),這種格式是以任意格式的任意來源繪制的。
正確的方法是通過構(gòu)建像柱狀數(shù)據(jù)庫和內(nèi)存處理這樣的智能的、節(jié)省硬盤的方法來解決通常伴隨巨大數(shù)據(jù)集而來的問題。首先通過只加載正在用的數(shù)據(jù)簡化處理過程,而后確保將這些數(shù)據(jù)加載到計(jì)算機(jī)的主內(nèi)存中,而不是占用RAM。這意味著你可以獲得完全的、不受限制的訪問所有數(shù)據(jù)的權(quán)限,而不需要像好萊塢山那樣大小的計(jì)算機(jī)來處理它。
一個(gè)唱歌、跳舞的超級(jí)巨星
更勝一籌的是,使用一個(gè)完整的BI系統(tǒng)消除了對(duì)非技術(shù)用戶可理解數(shù)據(jù)的額外軟件層的需求。
正如我們看到的,數(shù)據(jù)倉庫和Hadoop的不足之處在于它們是嚴(yán)格的“后端”解決方案——它們只處理外層數(shù)據(jù)。
為了使您的前端用戶能夠訪問數(shù)據(jù),您仍然需要引入和集成各種各樣的應(yīng)用程序,這些應(yīng)用程序允許業(yè)務(wù)團(tuán)隊(duì)提取并可視化他們需要的見解。
雖然Hadoop是開源的,但它不是“免費(fèi)的”。讓它做你想做的事情,并將它與你的數(shù)據(jù)倉庫集成,你的工具來處理和準(zhǔn)備數(shù)據(jù)分析,以及前端的儀表板界面,要么需要大量的資源投入,要么需要引入第三方來管理它。另外,當(dāng)然,你仍然需要投資它需要運(yùn)行的硬件。
有了一個(gè)像樣的單棧替代,您可以查詢源數(shù)據(jù),使用ETL數(shù)據(jù)引擎快速處理它,并在一步生成新的報(bào)和表指示板?,F(xiàn)在這種創(chuàng)新挑戰(zhàn)了數(shù)據(jù)倉庫、Hadoop或沒有Hadoop的未來。
所以,是的,也許是時(shí)候讓這個(gè)(國際)國家寶藏退后一步,讓下一代數(shù)據(jù)技術(shù)接手。但并不是因?yàn)镠adoop竊取了她的皇冠,而是因?yàn)閱螚<夹g(shù)正在為BI提供冗余存儲(chǔ)數(shù)據(jù)解決方案。