Alluxio1.0發(fā)布:API順暢銜接大數(shù)據(jù)應(yīng)用與存儲(chǔ)
譯文【51CTO.com快譯】最初定名為Tachyon的Alluxio公司正積極構(gòu)建API方案,旨在幫助大數(shù)據(jù)應(yīng)用程序以更快速度通過統(tǒng)一化接入方式訪問數(shù)據(jù)所駐留的存儲(chǔ)體系。
Alluxio的存儲(chǔ)API能夠支持Amazon S3、Google Cloud Storage、OpenStack Swift、EMC以及NetApp。
目前已經(jīng)迎來1.0版本的Alluxio API方案能夠幫助Spark、MapReduce、Flink或者Presto等框架訪問多種存儲(chǔ)系統(tǒng)類型。除了Amazon S3、Google Cloud Storage以及OpenStack Swift等受支持云存儲(chǔ)供應(yīng)商外,EMC與NetApp等傳統(tǒng)存儲(chǔ)方案供應(yīng)商亦在其支持列表當(dāng)中。
從表面上看,Alluxio似乎屬于一套類似于Memcached或者Redis的內(nèi)存緩存系統(tǒng)。但恰恰相反,它立足于分布式計(jì)算應(yīng)用與存儲(chǔ)體系之間,并通過提供統(tǒng)一化API幫助前者與后者順暢對(duì)接。各應(yīng)用程序能夠利用Alluxio的API享受到出色的訪問速度,同時(shí)擺脫各類傳統(tǒng)API(例如HDFS實(shí)現(xiàn)機(jī)制)糟糕的速度與兼容性表現(xiàn)。
在本月早些時(shí)候發(fā)布的一篇博文當(dāng)中,英特爾公司的工程師們描述了Alluxio如何幫助其解決大數(shù)據(jù)框架使用當(dāng)中所出現(xiàn)的各類常見難題,例如在不同應(yīng)用程序之間進(jìn)行數(shù)據(jù)共享。相較于將數(shù)據(jù)寫入至HDFS再重新加以讀取,現(xiàn)在用戶能夠?qū)?shù)據(jù)寫入至Alluxio的內(nèi)存內(nèi)存儲(chǔ)體系,并以更快速度完成二次讀取。
同樣的,一直困擾著Spark等大數(shù)據(jù)框架的JVM垃圾回收與堆緩存問題亦可通過Alluxio得到切實(shí)解決。IBM公司早在Alluxio尚處于Tachyon時(shí)代時(shí)即給出過類似的結(jié)論,表示其能夠?qū)?nèi)存內(nèi)HDFS的寫入速度提升110倍,同時(shí)“將端到端現(xiàn)實(shí)工作流延遲削減至原本的四分之一”。
Alluxio還能夠?qū)ζ渌鉀Q方案做出補(bǔ)充; 舉例來說,通過將Apache Arrow與適合現(xiàn)代CPU之應(yīng)用程序格式相對(duì)接以顯著提高數(shù)據(jù)處理速度。Arrow所需要的存儲(chǔ)數(shù)據(jù)全部由Alluxio負(fù)責(zé)供應(yīng)。
作為Tachyon的化身,Alluxio已經(jīng)開始為多個(gè)大數(shù)據(jù)項(xiàng)目提供支持,而Spark則正是其中的典型代表。該公司計(jì)劃進(jìn)一步面向其它大數(shù)據(jù)項(xiàng)目及存儲(chǔ)系統(tǒng)供應(yīng)商構(gòu)建更為全面的支持能力。
原文鏈接:Big data, but faster: API speeds links between apps and storage
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】