自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="daibm"><p id="daibm"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Hadoop+數(shù)據(jù)倉庫到底是夢幻組合還是命中的宿敵？

作者：Shelby Blitz 2017-06-30 09:29:00

大數(shù)據(jù) 數(shù)據(jù)分析數(shù)據(jù)倉庫 Hadoop

現(xiàn)在。自從Hadoop出現(xiàn)在舞臺(tái)上之后，一直有人嘀咕說，這個(gè)閃亮的新星正在為一些最好的數(shù)據(jù)管理角色提供服務(wù)–這些角色就是，在幾年前，數(shù)據(jù)倉庫已穩(wěn)操勝券。

想一想數(shù)據(jù)管理世界中的那個(gè)偉大的存在–數(shù)據(jù)倉庫吧。在過去的二十年中，盡管其他的系統(tǒng)和軟件在許許多多的迭代、變革中演進(jìn)，甚至完全被新模型所拋棄，數(shù)據(jù)倉庫這個(gè)老骨干卻安然屹立。她可能會(huì)偷偷地給自己的面頰，皺紋整容，也可能會(huì)激起一些不那么令人深刻的模仿，但是沒有什么能長期的吸引她的注意力。

直到現(xiàn)在。自從Hadoop出現(xiàn)在舞臺(tái)上之后，一直有人嘀咕說，這個(gè)閃亮的新星正在為一些最好的數(shù)據(jù)管理角色提供服務(wù)–這些角色就是，在幾年前，數(shù)據(jù)倉庫已穩(wěn)操勝券。

但是現(xiàn)在真的到了數(shù)據(jù)倉庫要退休的時(shí)候了嗎?Hadoop甚至想要進(jìn)入她的鞋子里嗎?還有誰在后面等著呢?

讓我們仔細(xì)看看這些據(jù)報(bào)道的競爭對(duì)手的全部本領(lǐng)。

數(shù)據(jù)倉庫持久吸引力的背后是什么?

簡單地說，數(shù)據(jù)倉庫意味著將不同來源的數(shù)據(jù)聚合為一個(gè)用于報(bào)告和分析的中央存儲(chǔ)庫。它長期成為實(shí)際解決方案的原因如下：因?yàn)檫@些數(shù)據(jù)是被聚合的，在經(jīng)歷抽取，轉(zhuǎn)換，加載過程后，協(xié)調(diào)成為“真理的唯一版本”，緩和矛盾，重構(gòu)數(shù)據(jù)格式化的方式，從而適應(yīng)預(yù)定的模式。

結(jié)果是一個(gè)完整的、可靠的，一致的數(shù)據(jù)來源，這些數(shù)據(jù)可用于商業(yè)智能軟件查詢。

Hadoop究竟是什么?

對(duì)于需要處理海量數(shù)據(jù)集的用戶來說，這是一個(gè)開源的編程框架。使用分布式存儲(chǔ)系統(tǒng)，它給用戶一種存儲(chǔ)、清理和處理大量數(shù)據(jù)的方法。

為了使數(shù)據(jù)達(dá)到千兆兆字節(jié)的傳輸速度，Hadoop分布式文件系統(tǒng)(HDFS)沿著成千上萬的硬件節(jié)點(diǎn)讀取數(shù)據(jù)。即使許多節(jié)點(diǎn)由于技術(shù)故障而停止工作，系統(tǒng)仍能保持正常運(yùn)行。這意味著存在低風(fēng)險(xiǎn)的數(shù)據(jù)丟失–對(duì)于那些使用大量數(shù)據(jù)進(jìn)行非常復(fù)雜的分析的企業(yè)來說，這是一種真正的恐懼。

難怪Hadoop正在轉(zhuǎn)向一個(gè)尋求可靠的方法來運(yùn)行大數(shù)據(jù)處理任務(wù)的行業(yè)。

另外，它是開源的–這是一個(gè)巨大的吸引力。它具有無限的可伸縮性和無限的可定制性。包含定制應(yīng)用程序、查詢和方法的范圍是無限的。數(shù)據(jù)挖掘的復(fù)雜性可以隨著數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的數(shù)量而增長。

它哪里比數(shù)據(jù)倉庫更出色?

大數(shù)據(jù)正變得越來越大，許多大型數(shù)據(jù)倉庫都試圖采取定制的多處理器設(shè)備來應(yīng)對(duì)不斷飆升的存儲(chǔ)需求。但是除了最大的組織外，所有這些都需要付費(fèi)。

與此同時(shí)，Hadoop可以靈活地處理滾雪球般的數(shù)據(jù)。然后用戶可以將它與數(shù)據(jù)倉庫層或頂部構(gòu)建的服務(wù)相結(jié)合，無論是像Presto的SQL軟件，或者用相似方式工作的Hive，或者像HBase類的NoSQL。

但這并不意味著Hadoop將取關(guān)系型數(shù)據(jù)庫或者數(shù)據(jù)倉庫。事實(shí)上，我們馬上就會(huì)看到，這很可能是最好的支持，而不是取代。

那么他們是競爭對(duì)手嗎?

完全不是。簡單地說，他們沒有扮演相同的角色。

數(shù)據(jù)專家趨向于把Hadoop看作現(xiàn)有數(shù)據(jù)倉庫架構(gòu)的一個(gè)補(bǔ)充，并且可以為他們節(jié)省大量現(xiàn)金。通過把數(shù)據(jù)塊遷移到Hadoop，可以減少關(guān)系型數(shù)據(jù)庫的壓力，從而使數(shù)據(jù)倉庫平臺(tái)更便宜，并且可以在不增加語速那的情況下進(jìn)行擴(kuò)展。

用這種方式，Hadoop可以降低數(shù)據(jù)倉庫的總成本，而不是取代它的某些東西。

它如何使數(shù)據(jù)倉庫的性能更好?

數(shù)據(jù)倉庫的構(gòu)建成本很高，運(yùn)行成本和增長成本昂貴。隨著收集的數(shù)據(jù)量的增長，存儲(chǔ)需求和花費(fèi)也會(huì)呈指數(shù)級(jí)增長。

此外，這些龐大的數(shù)據(jù)集合意味著用戶每次運(yùn)行查詢的時(shí)候，不能進(jìn)入數(shù)據(jù)倉庫的全部范圍–而且他們的硬件也無法處理這個(gè)問題。這意味著使用分析數(shù)據(jù)集來給業(yè)務(wù)中的各個(gè)部門訪問數(shù)據(jù)倉庫特定區(qū)域的數(shù)據(jù)。

它是一個(gè)不完美的系統(tǒng)。不僅限制了用戶在數(shù)據(jù)上執(zhí)行分析的范圍，也是一個(gè)定時(shí)炸彈。

隨著越來越多的數(shù)據(jù)涌入倉庫，每個(gè)數(shù)據(jù)集都可能變得如此不堪重負(fù)，以致難以使用。你可以通過限制訪問來減輕硬件壓力，但是那意味著給各個(gè)部門越來越窄的數(shù)據(jù)分析選擇。對(duì)于嚴(yán)格的商業(yè)智能來說，這樣的做法并不夠好。

Hadoop并沒有遭受這些挫折。進(jìn)入門檻很低，而且對(duì)增量投資是開源的。它可以隨著時(shí)間的推移而建立起來，你可以不斷增大數(shù)據(jù)量而不需要花大量的成本來匹配。

對(duì)于那些剛剛進(jìn)入數(shù)據(jù)行業(yè)的公司--沒有對(duì)大型機(jī)或者基于Unix的數(shù)據(jù)倉庫的投資–這種可擴(kuò)展的、增量式的框架是非常吸引人的。但是Hadop是一個(gè)框架，而不是一個(gè)完美的解決方案。它在處理巨大數(shù)據(jù)集方面很出色，但是它從來沒有打算要替代數(shù)據(jù)倉庫。

那么Hadoop和數(shù)據(jù)倉庫是最終的BI夢想團(tuán)隊(duì)嗎?

哇哦，請(qǐng)等一下。使用Hadoop與數(shù)據(jù)倉庫處理了數(shù)據(jù)存儲(chǔ)問題。但是存儲(chǔ)數(shù)據(jù)只是商業(yè)智能的一個(gè)要素。

廣義上說，一個(gè)功能性的、可用的BI系統(tǒng)應(yīng)該由五個(gè)部分組成：

在某個(gè)地方幾種存儲(chǔ)數(shù)據(jù)。

劃分這些數(shù)據(jù)的工具，如：地理，操作或者其他業(yè)務(wù)需要的工具。

為數(shù)據(jù)分析準(zhǔn)備工具。

幫助您快速處理此數(shù)據(jù)的ETL數(shù)據(jù)引擎。

顯示所有這些數(shù)據(jù)的前端(通常是某種儀表盤)。

即使Hadoop和數(shù)據(jù)倉庫在最好的情況協(xié)同工作，他們也只處理這些組件中的第一個(gè)。現(xiàn)在，BI技術(shù)的創(chuàng)新，同時(shí)提供了所有的五個(gè)組件，很快將夢想團(tuán)隊(duì)降級(jí)為二類組合。

誰，誰會(huì)為了搶風(fēng)頭而出風(fēng)頭?

正如我們看到的，數(shù)據(jù)倉庫和Hadoop是一個(gè)成功的雙重行為。但是，要執(zhí)行來自多個(gè)源的快速、高性能的數(shù)據(jù)分析，您并不需要它們中的任何一個(gè)。

現(xiàn)在，我們正在見證一顆新星的崛起。

整體的“單棧”解決方案消除了關(guān)系數(shù)據(jù)庫的需要，直接鏈接源數(shù)據(jù)，無論來自何處，并在現(xiàn)場執(zhí)行英語教學(xué)功能。最好的工作是創(chuàng)建一個(gè)元數(shù)據(jù)(抽象)層，用于在任意數(shù)量的表中查詢數(shù)據(jù)，這種格式是以任意格式的任意來源繪制的。

正確的方法是通過構(gòu)建像柱狀數(shù)據(jù)庫和內(nèi)存處理這樣的智能的、節(jié)省硬盤的方法來解決通常伴隨巨大數(shù)據(jù)集而來的問題。首先通過只加載正在用的數(shù)據(jù)簡化處理過程，而后確保將這些數(shù)據(jù)加載到計(jì)算機(jī)的主內(nèi)存中，而不是占用RAM。這意味著你可以獲得完全的、不受限制的訪問所有數(shù)據(jù)的權(quán)限，而不需要像好萊塢山那樣大小的計(jì)算機(jī)來處理它。

一個(gè)唱歌、跳舞的超級(jí)巨星

更勝一籌的是，使用一個(gè)完整的BI系統(tǒng)消除了對(duì)非技術(shù)用戶可理解數(shù)據(jù)的額外軟件層的需求。

正如我們看到的，數(shù)據(jù)倉庫和Hadoop的不足之處在于它們是嚴(yán)格的“后端”解決方案——它們只處理外層數(shù)據(jù)。

為了使您的前端用戶能夠訪問數(shù)據(jù)，您仍然需要引入和集成各種各樣的應(yīng)用程序，這些應(yīng)用程序允許業(yè)務(wù)團(tuán)隊(duì)提取并可視化他們需要的見解。

雖然Hadoop是開源的，但它不是“免費(fèi)的”。讓它做你想做的事情，并將它與你的數(shù)據(jù)倉庫集成，你的工具來處理和準(zhǔn)備數(shù)據(jù)分析，以及前端的儀表板界面，要么需要大量的資源投入，要么需要引入第三方來管理它。另外，當(dāng)然，你仍然需要投資它需要運(yùn)行的硬件。

有了一個(gè)像樣的單棧替代，您可以查詢源數(shù)據(jù)，使用ETL數(shù)據(jù)引擎快速處理它，并在一步生成新的報(bào)和表指示板?，F(xiàn)在這種創(chuàng)新挑戰(zhàn)了數(shù)據(jù)倉庫、Hadoop或沒有Hadoop的未來。

所以，是的，也許是時(shí)候讓這個(gè)(國際)國家寶藏退后一步，讓下一代數(shù)據(jù)技術(shù)接手。但并不是因?yàn)镠adoop竊取了她的皇冠，而是因?yàn)閱螚＜夹g(shù)正在為BI提供冗余存儲(chǔ)數(shù)據(jù)解決方案。

責(zé)任編輯：武曉燕來源： 36大數(shù)據(jù)

Hadoop 數(shù)據(jù)倉庫

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營