自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tt id="s6o83"><tbody id="s6o83"><object id="s6o83"></object></tbody></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大數(shù)據(jù)與Hadoop之間的關(guān)系

作者：IT168 2012-05-31 14:54:59

運維系統(tǒng)運維 Hadoop

大數(shù)據(jù)，一種新興的數(shù)據(jù)挖掘技術(shù)，它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進入超級計算時代，很快便可應(yīng)用于普通企業(yè)，在遍地開花的過程中，它將改變許多行業(yè)業(yè)務(wù)經(jīng)營的模式。但是很多人對大數(shù)據(jù)存在誤解，下面就來縷一縷大數(shù)據(jù)與Hadoop之間的關(guān)系。

我們都聽過這個預測：到2020年，電子數(shù)據(jù)存儲量將在2009年的基礎(chǔ)上增加44倍，達到35萬億GB。根據(jù)IDC數(shù)據(jù)顯示，截止到2010年，這個數(shù)字已經(jīng)達到了120萬PB，或1.2ZB。如果把所有這些數(shù)據(jù)都存入DVD光盤，光盤高度將等同于從地球到月球的一個來回也就是大約 480,000英里。

　　對于那些喜歡杞人憂天的人來說，這是數(shù)據(jù)存儲的末日即將到來的不祥預兆。而對于機會主義者們而言，這就好比是個信息金礦，隨著技術(shù)的進步，金礦開采會變得越來越容易。

　　走進大數(shù)據(jù)，一種新興的數(shù)據(jù)挖掘技術(shù)，它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進入超級計算時代，很快便可應(yīng)用于普通企業(yè)，在遍地開花的過程中，它將改變許多行業(yè)業(yè)務(wù)經(jīng)營的模式。

　　在計算機世界里，大數(shù)據(jù)被定義為一種使用非傳統(tǒng)的數(shù)據(jù)過濾工具，對大量有序或無序數(shù)據(jù)集合進行的挖掘過程，它包括但不僅限于分布式計算(Hadoop)。

　　大數(shù)據(jù)已經(jīng)站在了數(shù)據(jù)存儲宣傳的風口浪尖，也存在著大量不確定因素，這點上非常像“云”。我們請教了一些分析人士和大數(shù)據(jù)愛好者，請他們解釋一下大數(shù)據(jù)究竟是什么，以及它對于未來數(shù)據(jù)存儲的意義。

　　大數(shù)據(jù)走進歷史舞臺

　　適用于企業(yè)的大數(shù)據(jù)已經(jīng)出現(xiàn)，這在部分程度上要歸功于計算能耗的降低以及系統(tǒng)已具備執(zhí)行多重處理的能力這樣一個事實。而且隨著主存儲器成本的不斷下降，和過去相比，公司可以將更多的數(shù)據(jù)存到存儲器中。并且，將多臺計算機連到服務(wù)器集群也變得更容易了。這三個變化加在一起成就了大數(shù)據(jù)，IDC 數(shù)據(jù)庫管理分析師Carl Olofson如是說。

　　“我們不僅要把這些事情做好，還要能承受得起相應(yīng)的開支”，他說。 “過去的某些超級計算機也具有執(zhí)行系統(tǒng)多重處理的能力，(這些系統(tǒng)緊密相連，形成了一個集群)但因為要使用專門的硬件，它的成本高達幾十萬美元甚至更多。”現(xiàn)在我們可以使用普通硬件完成相同的配置。正因為這樣，我們能更快更省得處理更多數(shù)據(jù)。"

　　大數(shù)據(jù)技術(shù)還沒有在有大型數(shù)據(jù)倉庫的公司中得到廣泛普及。IDC認為，想讓大數(shù)據(jù)技術(shù)得到認可，首先技術(shù)本身一定要足夠便宜，然后，必須滿足IBM稱之為3V標準中的2V，即：類型(variety)，量(volume)和速度(velocity)。

　　種類要求指的是待存儲數(shù)據(jù)的類型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。量是指存儲和分析的數(shù)據(jù)量可以很龐大。 “數(shù)據(jù)量不只是幾百TB，”

　　Olofson說： “要視具體情況而定，因為速度和時間的關(guān)系，有時幾百GB可能就算很多了。如果我現(xiàn)在一秒能完成過去要花一小時才能完成的300GB的數(shù)據(jù)分析，那結(jié)果將大為不同。大數(shù)據(jù)就是這樣一種技術(shù)，它可以滿足這三個要求中的至少兩個，并且普通企業(yè)也能夠部署。”

　　關(guān)于大數(shù)據(jù)的三大誤解

　　對于大數(shù)據(jù)是什么以及大數(shù)據(jù)能干什么存在很多誤會。下面就是有關(guān)大數(shù)據(jù)的三個誤解：

　　1、關(guān)系數(shù)據(jù)庫無法大幅增容，因此不能被認為是大數(shù)據(jù)技術(shù)(不對)

　　2、無需考慮工作負載或具體使用情況，Hadoop或以此類推的任何MapReduce都是大數(shù)據(jù)的最佳選擇。(也不對)

　　3、圖解式管理系統(tǒng)時代已經(jīng)結(jié)束。圖解的發(fā)展只會成為大數(shù)據(jù)應(yīng)用的攔路虎。(可笑的錯誤)

　　大數(shù)據(jù)與開源的關(guān)系

　　“很多人認為Hadoop和大數(shù)據(jù)基本上是一個意思。這是錯誤的，”Olofson說。并解釋道： Teradata, MySQL和“智能聚合技術(shù)”的某些安裝啟用都用不到Hadoop，但它們也可以被認為是大數(shù)據(jù)。

　　Hadoop是一種用于大數(shù)據(jù)的應(yīng)用程序，因為它是建立在MapReduce基礎(chǔ)上的，所以引起了極大的關(guān)注。(MapReduce是一種用于超級計算的普通方法，之后經(jīng)過了主要由Google資助的一個項目的優(yōu)化，因此被簡化并變得考究了。) Hadoop是幾個緊密關(guān)聯(lián)的Apache項目組成的混合體的主要安裝啟用程序，其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫。

　　為了充分利用Hadoop和類似的先進技術(shù)，軟件開發(fā)商們絞盡腦汁研發(fā)出了各種各樣的技術(shù)，其中很多都是在開源社區(qū)里開發(fā)出來的。

　　Olofson 說“他們已經(jīng)開發(fā)出了大量的所謂noSQL數(shù)據(jù)庫，種類之多讓人眼花繚亂，其中大部分都是鍵值配對數(shù)據(jù)庫，能利用多種技術(shù)對性能或種類或容量進行優(yōu)化。”

　　開源技術(shù)還沒有得到商業(yè)支持。“所以在這方面還需要經(jīng)過一段時間的發(fā)展完善，這一過程可能需要幾年?；谶@個原因，大數(shù)據(jù)可能需要一些時日才能在市場上走向成熟”他補充道。

　　據(jù)IDC預計，年內(nèi)至少有三家商業(yè)公司能以某種方式給予Hadoop支持。同時，包括Datameer 在內(nèi)的幾家企業(yè)將發(fā)布配有Hadoop組件的分析工具，這種工具能幫助企業(yè)開發(fā)自己的應(yīng)用程序。Cloudera和Tableau公司的產(chǎn)品清單里已經(jīng)出現(xiàn)了Hadoop。

責任編輯：黃丹來源： IT168

Hadoop 大數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營