自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop 3.0版本測試,終將計算與存儲解耦!

大數(shù)據(jù) Hadoop
2018年,關(guān)于大數(shù)據(jù)基礎(chǔ)設(shè)施的討論不再圍繞使用高質(zhì)量的數(shù)據(jù)布局算法減少網(wǎng)絡(luò)流量的方法展開。相反,現(xiàn)在有更多關(guān)于如何可靠地降低分布式存儲成本的討論。

傳統(tǒng)的Hadoop架構(gòu)是建立在相信通過大規(guī)模分布式數(shù)據(jù)處理獲得良好性能的***途徑是將計算帶入數(shù)據(jù)。在本世紀(jì)初,這確實是事實。當(dāng)時,典型的企業(yè)數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)架構(gòu)不能完成在服務(wù)器之間移動大量數(shù)據(jù)的任務(wù),數(shù)據(jù)必須與計算機共存。

現(xiàn)在,企業(yè)數(shù)據(jù)中心的網(wǎng)絡(luò)基礎(chǔ)設(shè)施以及公有云提供商的網(wǎng)絡(luò)基礎(chǔ)設(shè)施不再是大數(shù)據(jù)計算的瓶頸,是時候?qū)adoop的計算與存儲解耦。不少行業(yè)分析師也認(rèn)識到了這一點,正如最近IDC關(guān)于分離大數(shù)據(jù)部署計算和存儲的報告中指出:

“解耦計算和存儲在大數(shù)據(jù)部署中被證明是有用的,它提供了更高的資源利用率,更高的靈活性和更低的成本。” - Ritu Jyoti,IDC

2018年,關(guān)于大數(shù)據(jù)基礎(chǔ)設(shè)施的討論不再圍繞使用高質(zhì)量的數(shù)據(jù)布局算法減少網(wǎng)絡(luò)流量的方法展開。相反,現(xiàn)在有更多關(guān)于如何可靠地降低分布式存儲成本的討論。

Hadoop 3.0版本測試,終將計算與存儲解耦!

Hadoop開源社區(qū)最近引入了Apache Hadoop版本3.0,即便被Gartner連續(xù)唱衰,但Hadoop發(fā)布的3.0版本還是有不少值得注意的改進。這一版本的發(fā)布也將計算和存儲解耦的討論推向輿論高峰。Hadoop 3.0的一個關(guān)鍵特性是Hadoop分布式文件系統(tǒng)(HDFS)的Erasure Coding (擦除編碼)。作為歷史悠久的HDFS 3x數(shù)據(jù)復(fù)制的替代方案,在配置相同的情況下,Erasure Coding與傳統(tǒng)3x數(shù)據(jù)復(fù)制相比,可以將HDFS存儲成本降低約50%。

在過去幾年,Hadoop社區(qū)已經(jīng)討論了Erasure Coding將為HDFS帶來的潛在存儲成本的降低。鑒于過去十年在硬件和網(wǎng)絡(luò)方面的進步,許多人質(zhì)疑3x數(shù)據(jù)復(fù)制是否有存在的意義?,F(xiàn)在,HDFS Erasure Coding已經(jīng)從根本改變了Hadoop的存儲經(jīng)濟性——Hadoop社區(qū)也最終承認(rèn)這一事實:數(shù)據(jù)不必與計算位于同一位置。

為了了解這個結(jié)果有多么戲劇性,我們可以比較一下2010年雅虎發(fā)布的關(guān)于Hadoop擴展的性能數(shù)據(jù),并將其與HDFS和Erasure Coding進行比較。

如下的幻燈片上呈現(xiàn)的是DFSIO基準(zhǔn)測試,讀取吞吐量為66 MB / s,寫入吞吐量為40 MB / s。Sort基準(zhǔn)測試的性能數(shù)據(jù)是基于非常仔細的調(diào)優(yōu)之后獲得的。曾經(jīng),在HDFS中使用3x復(fù)制被認(rèn)為是數(shù)據(jù)保護和性能提高的強大工具。 

Hadoop 3.0版本測試,終將計算與存儲解耦!

在如下的幻燈片上,同樣基于DFSIO基準(zhǔn),具有3x復(fù)制的HDFS讀取吞吐量為1,262MB / s,而對于使用Erasure Coding(6+3 Striping)的HDFS,讀取吞吐量為2,321MB / s。這是30個同步映射器,并沒有提到仔細的應(yīng)用程序調(diào)優(yōu)!HDFS使用的3x復(fù)制現(xiàn)在被視為實現(xiàn)(有限)數(shù)據(jù)可靠性的陳舊、昂貴和不必要的開銷。 

Hadoop 3.0版本測試,終將計算與存儲解耦!

帶有Erasure Coding(EC)的HDFS利用網(wǎng)絡(luò)為每個文件讀寫。這也在間接承認(rèn)網(wǎng)絡(luò)不是性能的瓶頸。事實上,HDFS EC的主要性能影響是由于其CPU周期消耗而非網(wǎng)絡(luò)延遲。 總的來說,這表明存儲成本顯著降低(在這種情況下,可降低6美元/ TB),而不會犧牲性能。

即便接連被不看好,但Hadoop依舊是大數(shù)據(jù)領(lǐng)域堅實的底層基礎(chǔ)。隨著新版本被正式推入生產(chǎn)環(huán)境,Hadoop生態(tài)也開始逐漸壯大,取其精華,去其糟粕,Hadoop生態(tài)一直在努力改善表現(xiàn)不佳的組件,并不斷根據(jù)新的業(yè)務(wù)需求進行擴展,Hadoop生態(tài)或許并不是老了,而是成熟了。

責(zé)任編輯:未麗燕 來源: it168網(wǎng)站原創(chuàng)
相關(guān)推薦

2018-04-18 08:47:17

Alluxio構(gòu)建存儲

2010-08-24 17:13:12

傲游3.0廣告過濾

2009-06-18 08:51:03

Spring3.0 M

2009-05-04 09:34:43

緩存TerracottaJava

2013-01-10 16:56:53

瀏覽器淘寶瀏覽器

2022-09-02 08:23:12

軟件開發(fā)解耦架構(gòu)

2010-01-05 15:40:17

Ubuntu 9.10

2010-01-05 14:35:48

Ubuntu 9.10

2009-12-29 10:12:27

Ubuntu 9.10

2013-09-16 10:19:08

htmlcssJavaScript

2016-11-30 15:30:42

架構(gòu)工具和方案

2021-06-29 20:53:10

邊緣計算AI人工智能

2013-09-13 15:56:11

梭子魚云存儲梭子魚

2012-11-16 09:50:32

Windbg

2023-11-29 21:21:57

微軟ML.NET?3.0機器學(xué)習(xí)

2023-09-01 14:32:56

云計算邊緣計算

2020-11-20 15:22:32

架構(gòu)運維技術(shù)

2010-06-08 09:45:27

openSUSE 11

2012-05-07 23:45:54

FantomJavaJVM

2012-03-06 13:45:43

JavaJActor
點贊
收藏

51CTO技術(shù)棧公眾號