Hadoop創(chuàng)始人Doug Cutting談未來大數(shù)據(jù)的技術(shù)
Cloudera***架構(gòu)師就內(nèi)存及云計(jì)算相關(guān)技術(shù)發(fā)表討論,Hadoop將如何在大數(shù)據(jù)方面發(fā)揮更大價值。
在Doug Cutting十年前創(chuàng)建Hadoop架構(gòu)的時候,他從未想過這會為企業(yè)界帶來如此超大規(guī)模的計(jì)算。“毫無疑問,我當(dāng)初預(yù)想的情況比我們現(xiàn)在所看到的要稍微保守一些。“他在近期倫敦的Strata+Hadoop World大會上說。
在今天,Hadoop被很多家喻戶曉的名字使用,它幫助Facebook分析其每月超過16億的用戶流量,幫助VISA發(fā)現(xiàn)了數(shù)十億美元的金融欺詐。
Hadoop的吸引力在于,它使大數(shù)據(jù)處理更便宜,從某些方面來說,更加簡單。這個平臺提供了一系列技術(shù),允許大型數(shù)據(jù)集分布在商業(yè)服務(wù)器的大型集群中,對數(shù)據(jù)進(jìn)行并行處理。
然而該平臺還有一定的局限性。如今,Hadoop集群能處理大型數(shù)據(jù)集的速度受到二級存儲(SSD或更慢的旋轉(zhuǎn)磁盤)與計(jì)算機(jī)內(nèi)存及CPU之間的數(shù)據(jù)傳遞率的限制。這種輸入/輸出(I/O)瓶頸的發(fā)生,是因?yàn)樘幚砥魉俣群托实脑鲩L要快于存儲讀寫速度。
內(nèi)存中的PB數(shù)據(jù)
但是現(xiàn)在的存儲技術(shù)將經(jīng)歷一次重大變革,對此Doug Cutting表示這將有利于釋放大數(shù)據(jù)處理的潛力。
今年,Intel計(jì)劃發(fā)布其3D XPoint存儲芯片,可以比通常用于SSD中的NAND閃存快1000倍的速度來檢索數(shù)據(jù),同時也能以超過現(xiàn)今常用的內(nèi)存類型DRAM 十倍的密度存儲數(shù)據(jù)。
Xpoint將在一開始以O(shè)ptane品牌SSD的形式提供存儲,而Intel也計(jì)劃推出XPoint內(nèi)存模塊以便跟進(jìn)。由于Xpoint以比傳統(tǒng) DRAM有更高的密度來存儲數(shù)據(jù),這些模塊將會使服務(wù)器具備遠(yuǎn)遠(yuǎn)大于現(xiàn)今標(biāo)準(zhǔn)的內(nèi)存空間。Intel將在明年推出Intel Xeon服務(wù)器,含6TB內(nèi)存,由DDR4 DRAM和Xpoint結(jié)合組成。也就是說,Xpoint在性能上并不會與DDR4 DRAM相匹配。預(yù)發(fā)行的Xpoint SSD有七微秒延遲以及78,000讀/寫IOPS,要慢于DRAM,并且據(jù)估計(jì)比高性能SSD快不到20倍。
Doug Cutting預(yù)測,盡管如此,Xpoint的使用以及Hadoop集群的其他非揮發(fā)性內(nèi)存將會使Hadoop平臺面向更多新的用例,允許用戶在內(nèi)存中處理更大的數(shù)據(jù)集,這樣也可以分流從磁盤獲取數(shù)據(jù)的過程中的延遲。
“如果內(nèi)存中有1PB的數(shù)據(jù),并且可以從循環(huán)中的任一節(jié)點(diǎn)訪問這些數(shù)據(jù),如果是用于各種算法的,這就會是跨越幾個級別的性能提升。”Doug Cutting如此說道,他目前是Cloudera的***架構(gòu)師,Cloudera提供自有版本的Hadoop,即非常流行的CDH。
“圖像運(yùn)算等等各種五花八門的迭代機(jī)器學(xué)習(xí)算法、集群等這些在傳統(tǒng)上意義上花費(fèi)了很長時間、非常昂貴的事物,現(xiàn)在都能基于大量的數(shù)據(jù)快速實(shí)現(xiàn)。
“過大的數(shù)據(jù)集以及太慢的計(jì)算依然存在,但我認(rèn)為現(xiàn)在已經(jīng)有了很大的改變。“Doug Cutting補(bǔ)充說道,遠(yuǎn)程直接管理訪問及千兆以太網(wǎng)交換也能減少與網(wǎng)絡(luò)流量有關(guān)的延遲。
2014年,Intel對Cloudera進(jìn)行了大約7.4億美元的投資。作為雙方合作的一部分,Intel會告知Cloudera其在研發(fā)安排中新的特性和硬件,確保Cloudera的Hadoop版本能夠充分利用這些新技術(shù)。
“對于在內(nèi)存中訪問數(shù)據(jù)架構(gòu)方面,我們非常努力的令CPU使用達(dá)到最小。”Doug Cutting說道,并指出Cloudera盡量防止不必要的操作,這些操作會引起CPU成為內(nèi)存數(shù)據(jù)處理的瓶頸。
Hadoop和云計(jì)算
Doug Cutting也希望簡化Hadoop集群在云計(jì)算中的部署,讓更廣泛的人群能夠使用Hadoop。在各種云平臺上構(gòu)建Hadoop集群已經(jīng)成為可能。舉例來說,運(yùn)行CDH(Cloudera的Hadoop發(fā)行版),就可以使用Cloudera Director來部署AWS和Google云平臺上的虛擬服務(wù)器集群。
然而,Doug Cutting也說到,如何使處理進(jìn)程變的更為簡單,仍然有很多限制需要解決,而Cloudera也在計(jì)劃改進(jìn)從AWS S3及其他云存儲向Hadoop數(shù)據(jù)處理引擎中輸入數(shù)據(jù)的支持。
“我們需要對Hadoop做一些調(diào)整,使其能夠更好地適應(yīng)云計(jì)算。我們需要重視像亞馬遜S3這樣的存儲,配合HDFS(Hadoop分布式文件系統(tǒng))來進(jìn)行輸入輸出,這樣人們就可以動態(tài)地部署集群。”他說。
在云計(jì)算環(huán)境中,集群更有可能被啟動和關(guān)閉,Cloudera還要改進(jìn)縮短啟動時間。
另一個需要解決的問題,在于簡化Hadoop在不同云平臺之間的遷移,Doug Cutting對現(xiàn)階段的云平臺鎖定表示失望。
“我們應(yīng)該讓人們在云供應(yīng)商之間能夠?qū)崿F(xiàn)轉(zhuǎn)移,這在我們看來是非常有價值的?,F(xiàn)在,如果你開始是在某云平臺上開發(fā)的應(yīng)用,那么很快就被鎖定在這個云平臺上了。”
Doug Cutting表示,在CDH上,Cloudera正在構(gòu)建“一個軟件層,可以決定工作負(fù)載是運(yùn)行在本地,還是放到亞馬遜、谷歌、微軟或其他云供應(yīng)商上”。
今天,這一功能在某種程度上來說可通過Cloudera Director實(shí)現(xiàn),他說,“這正是我們要繼續(xù)推進(jìn)并使其更加無縫”。 “
Doug Cutting相信,最終,Hadoop的傳承將會扮演重要角色,讓大數(shù)據(jù)成為常態(tài)、讓開源成為軟件的標(biāo)準(zhǔn)選擇,讓關(guān)系型數(shù)據(jù)庫逐漸成為小眾市場。
“我們將不會再討論大數(shù)據(jù),而是探討數(shù)據(jù)系統(tǒng)。開源架構(gòu)將不再是新鮮事物,它將成為主流。關(guān)系型系統(tǒng)將基本等同于Cobol語言,而成為歷史。我們在十年的時間中向前邁出了一大步。“