下一代 Hadoop 技術演進路線展望
譯文Hadoop峰會即將到來,行業(yè)最杰出的精英人才將在這里探討Hadoop與大數(shù)據(jù)的未來。
云集全球各大技術勢力的圣何塞Hadoop峰會召開在即,而其中的一大熱點議題在于解答Hadoop的未來發(fā)展方向。Hortonworks公司創(chuàng)始人兼架構師Sanjay Radia將主持13項與該議題相關的討論。面對這些討論將如何展開這一問題,Sanjay回應稱:
“Hadoop仍然在以極高速度推動創(chuàng)新,而下一代Hadoop目前正在構建當中。這條發(fā)展道路承載著一系列Hadoop核心創(chuàng)新以及相關技術。與會者將了解到多個關鍵性項目——包括HDFS與YARN——的發(fā)展進程,外加以Hadoop平臺為中心的各類孵化器項目與行業(yè)倡議。與會者們將與多位技術領導者、貢獻者以及專業(yè)用戶交流Hadoop生態(tài)系統(tǒng)中即將出現(xiàn)的各發(fā)展路線圖、關鍵性功能以及先進技術研究成果。”
我同時問到,如果時間有限而必須從中選擇3次討論活動參加,那么該如何做出選擇。他給出的建議是:
Apache Hive 2.0 SQL速度提升
主講人: Alan Gates,來自Hortonworks 公司
Apache Hive可謂Hadoop領域最為常用的SQL接口,而其最為活躍的舞臺則為數(shù)據(jù)倉庫應用。為了滿足客戶的倉儲需求,我們有必要將其規(guī)模擴展至PB級別,提供用戶所需要的SQL,同時立足于交互時間執(zhí)行任務。Hive社區(qū)正在努力構建Hive 2.0版本,其中包含一系列重要的新功能與性能改進。具體包括:
- 添加LLAP,用于實現(xiàn)亞秒級響應時間的守護程序層。
- 添加HBase作為Hive元數(shù)據(jù)存儲選項,從而加快元數(shù)據(jù)訪問速度并降低查詢規(guī)劃時間。
- 改進Hive從調整輸入內容中獲取數(shù)據(jù)的能力,包括Apache Flume與Apache Storm。
- 添加SQL MERGE命令,旨在改進并擴展Hive通過事務一致方式管理變更數(shù)據(jù)的能力。
- 通過部署Apache Calcite幫助Hive獲得多存儲引擎(例如HBase)的使用能力。這一對話活動將涵蓋相關用例、功能構建中的架構調整,同時分享可供參考的Hive實際提速效果。
多彩的YARN:應用與一流服務支持
主講人: Vinod Kumar Vavilapalli,來自Hortonworks 公司
Apache Hadoop YARN是一套現(xiàn)代資源管理平臺,能夠面向批處理(MapReduce)、交互(Hive、Tez、Spark)以及實時處理(Storm)等工作負載管理多套數(shù)據(jù)處理引擎。這些應用可全部同時存在于YARN當中并共享單一數(shù)據(jù)中心,從而以低成本方式解決資源管理、隔離及多租戶等實際問題。在本次演講中,我們將探討YARN社區(qū)作為下一步發(fā)展方向的新型用例組合——服務。YARN作為一項技術方案,一直都在堅實支持著各類應用與服務。即使這樣,將對現(xiàn)有及新型服務的支持引入YARN還是開創(chuàng)了新的前進思路。為了讓這些服務得到有效簡化及出色的效果,我們將交流Apache Hadoop YARN如何針對各類平臺進行調整以支持相關服務并實現(xiàn)開箱即用。企業(yè)客戶希望盡可能降低對基礎設施的關注,而更多著眼于端到端用戶實例。有鑒于此,我們還將探討API、工具集以及多彩的YARN如何為開發(fā)者業(yè)界帶來強大助力。
將HDFS演進至一套通用型分布式存儲子系統(tǒng)
主講人: Sanjay Radia與Jitendra Pandey,來自Hortonworks公司
我們正在將HDFS演進為一套分布式存儲系統(tǒng),其不僅能夠支持分布式文件系統(tǒng),同時亦支持其它存儲服務。我們計劃將Datanodes的容錯塊存儲層升級為一套通用型子系統(tǒng),并以此為基礎構建包括HDFS以及對象存儲在內的其它存儲服務。我們還引入了存儲容器抽象,通過對其進行復制實現(xiàn)可靠性保障。最初的兩種容器類型為塊容器與對象容器。塊容器屬于經(jīng)過復制的HDFS塊集合,其能夠在較低塊報告負荷的前提下實現(xiàn)可擴展性,同時允許相關文件實現(xiàn)同地協(xié)作。對象容器則一般包含大量小型對象,主要針對對象存儲服務(例如S3)。我們還計劃利用LSM-tress等結構化存儲容器為HBase提供出色支持。我們的方案擁有多種優(yōu)勢,其使得Datanode的物理存儲能夠在不同存儲服務之間進行共享,且不會產(chǎn)生碎片化后果。存儲容器還能夠隔離各實現(xiàn)方案與客戶端協(xié)議,從而確保各容器類型獨立演進。未來,我們還將在容器方案中引入復制、位置服務以及清退等容器與存儲全局管理功能。
原文標題:The Future of Apache Hadoop