Tachyon:吞吐量超過HDFS 300多倍
Hadoop足夠快嗎?美國加州大學(xué)伯克利分校的AMPLab基于Hadoop的核心組件開發(fā)出一個更快的版本Tachyon。AMPLab從底層重建了Hadoop平臺,“沒有最快,只有更快”。

AMPLab在大數(shù)據(jù)領(lǐng)域最知名的產(chǎn)品是Spark,它是一個內(nèi)存中并行處理的框架,Spark的創(chuàng)造者聲稱:使用Shark運行并行處理Job速度要比MapReduce快100倍。又因為Spark是在內(nèi)存運行,所以Shark可與Druid或者SAP's HANA系統(tǒng)一較高下。Spark也為ClearStory下一代分析和可視化服務(wù)提供處理引擎。如果你喜歡用Hive作為Hadoop的數(shù)據(jù)倉庫,那么你一定會喜歡Shark,因為它代表了“Hive on Spark”。
AMPLab的最新目標就是Hadoop分布式文件系統(tǒng)(HDFS),不過HDFS在可用性和速度方面一直受人詬病,所以AMPLab創(chuàng)建了Tachyon( 在High Scalability上非常奪目,引起了Derrick Harris的注意),“Tachyon是一個高容錯的分布式文件系統(tǒng),允許文件以內(nèi)存的速度在集群框架中進行可靠的共享,類似Spark和 MapReduce。通過利用lineage信息,積極地使用內(nèi)存,Tachyon的吞吐量要比HDFS高300多倍。Tachyon都是在內(nèi)存中處理緩存文件,并且讓不同的 Jobs/Queries以及框架都能內(nèi)存的速度來訪問緩存文件”。
當(dāng)然,AMPLab并不是第一個對HDFS提出質(zhì)疑的組織,同時也有很多商業(yè)版本可供選擇,像Quantcast就自己開發(fā)了開源文件系統(tǒng),聲稱其在運行大規(guī)模文件系統(tǒng)時速度更快、更高效。

誠然,AMPLab所做的工作就是打破現(xiàn)有商業(yè)軟件的瓶頸限制。如果碰巧破壞了現(xiàn)狀,那么就順其自然吧!不過,對于用戶來說,AMPLab只是為那些尋找合適工具的人員提供了一種新的選擇,AMPLab的合作伙伴和贊助商包括谷歌,F(xiàn)acebook,微軟和亞馬遜網(wǎng)絡(luò)服務(wù),它們當(dāng)然非常樂意看到這些新技術(shù),如果很有必要的話。
AMPLab的其他項目包括PIQL,類似于一種基于鍵/值存儲的SQL查詢語言;MLBase,基于分布式系統(tǒng)的機器學(xué)習(xí)系統(tǒng);Akaros,一個多核和大型SMP系統(tǒng)的操作系統(tǒng);Sparrow,一個低延遲計算集群調(diào)度系統(tǒng)。