大數(shù)據(jù)存儲領域的八位明星
正如存儲技術分析師Greg Schulz所言,“大數(shù)據(jù)無與倫比,它擁有承載一切的能力。”也就是說目前市場上已經存在多款獨立存儲工具,旨在幫助存儲管理員打理規(guī)模日益膨脹的大數(shù)據(jù)海洋。同樣在意料之中的是,其中大部分與Hadoop關系密切。
SGI InfiniteStorage
SGI InfiniteStorage通過虛擬化技術讓存儲轉化為一整套混合體系,其中既包含性能超群的閃存機制、又擁有成本低廉的磁帶方案。而這一切都建立在數(shù)據(jù)始終在線的基礎之上,也就是實現(xiàn)數(shù)據(jù)對用戶的透明化。
“SGI InfiniteStorage硬件及軟件生態(tài)系統(tǒng)是過去二十年來SGI解決大數(shù)據(jù)問題的有力保障,同時也為全球范圍內包括氣象預報、生命科學、制造業(yè)、媒體與教育等要求最嚴苛的數(shù)據(jù)管理環(huán)境提供應對方案,”SGI公司存儲產品營銷部門主管Floyd Christofferson指出。
Red Hat Storage Server 2.0
根據(jù)Linux基金會最近發(fā)布的一份報告稱,Linux已經成為大數(shù)據(jù)實施的主要系統(tǒng)平臺。由此看來,紅帽公司在大數(shù)據(jù)存儲領域占有一席之地也就不難理解了。Red Hat Storage Server 2.0使得被保存及管理在某處的數(shù)據(jù)能夠接受多種企業(yè)工作負載的訪問,紅帽存儲業(yè)務部門副總裁兼總經理Ranga Rangachari表示。
“鑒于目前數(shù)據(jù)規(guī)模的持續(xù)增長,企業(yè)用戶已經很難承受由此帶來的專用存儲需求,”Rangachari解釋道。“理想的解決辦法是將數(shù)據(jù)駐留在一套通用型企業(yè)資料庫中,并允許各類企業(yè)工作負載隨時加以訪問。”
有鑒于此,紅帽公司已經與英特爾開展合作,意在創(chuàng)建一套更加理想的開源大數(shù)據(jù)應用。作為宏大構想的第一步,紅帽充分利用英特爾近期推出的Apache Hadoop軟件發(fā)行版中的優(yōu)勢,將其與Red Hat Storage Server 2.0與紅帽企業(yè)Linux操作系統(tǒng)相整合。除此之外,紅帽公司開發(fā)的Storage Apache Hadoop插件也即將推向開源技術社區(qū),進而成為企業(yè)Hadoop部署工作中的存儲選項之一。
“紅帽公司在企業(yè)級大數(shù)據(jù)解決方案領域可謂獨領風騷,而且根據(jù)IDC公司的預測,這部分市場總份額將由2011年的60億美元迅速增長至2016年的238億美元,”IDC公司分析師Ashish Nadkarni告訴我們。“紅帽公司是僅有的幾家能夠提供綜合性大數(shù)據(jù)解決方案的基礎設施供應商之一,這得益于該公司在本地或云交付模式領域所擁有的雄厚基礎設施解決方案及應用平臺。”
EMC Pivotal HD
說起最新Hadoop發(fā)行版,EMC公司的Pivotal HD絕對值得一提,它的作用在于將大數(shù)據(jù)與EMC Greenplum大規(guī)模并行處理(簡稱MPP)數(shù)據(jù)庫相整合。借由一套名為HAWQ的引擎技術,EMC賦予了Hadoop SQL流程在查詢及工作負載方面百倍以上的性能提升(據(jù)稱)。
“Hadoop意義非凡、同時也是解開大數(shù)據(jù)轉換潛能的關鍵;我們則希望能夠將其與Greenplum技術整合起來,進而推動Hadoop獲得更為廣泛的普及度,”EMC Greenplum部門產品高級副總裁Scott Yara宣稱。#p#
DataDirect Hadoop Apache Hive Driver
Hadoop最令人著迷的特性之一在于將非結構化數(shù)據(jù)轉化為足以補充傳統(tǒng)分析工作情報缺失的寶貴資源。這項挑戰(zhàn)的難點在于如何將Hadoop當中存儲的數(shù)據(jù)與現(xiàn)有商務智能及數(shù)據(jù)分析工具相對接。而根據(jù)Progress DataDirect公司數(shù)據(jù)連接部門副總裁Michael Benedict的說法,DataDirect driver for Apache Hive號稱是惟一一款能夠在多套Hadoop發(fā)行版中實現(xiàn)開箱即用的全兼容式驅動程序。

“如果沒有DataDirect Hive Driver的幫助,我們很難想象該如何訪問并分析數(shù)據(jù)——Hadoop的容量如此龐大,用戶幾乎無法訪問、尤其是快速訪問到自己需要的信息,”Benedict指出。“而DataDirect Hadoop Driver的意義正在于幫助用戶以實時方式從Hive Data Warehouse中訪問信息、進而簡化數(shù)據(jù)分析的難度。”
Adaptec HBA
PMC-Sierra公司剛剛為大數(shù)據(jù)存儲發(fā)布了一款主機總結適配器(簡稱HBA),這就是Adaptec 71605H總線適配器(或者被稱為Series 7H)。這些PCIe HBA在良好的兼容性前提下帶來了高性能I/O與低延遲表現(xiàn)。它們利用PMC的PM8018 16x6G SAS協(xié)議控制器并支持SAS與SATA接口。它們還能夠最高接入16款固態(tài)硬盤或磁盤驅動器。HBA每秒能夠執(zhí)行超過百萬次輸入/輸出操作(即IOPS),數(shù)據(jù)持續(xù)吞吐量則達到6.6 GB每秒。
“HBA最重要的適用范圍在于數(shù)據(jù)中心環(huán)境下應對大量接入存儲驅動器的同時,還要為持續(xù)增長的數(shù)據(jù)容量提供高密度存儲與低成本維護,”PMC公司企業(yè)存儲部門產品營銷主管Zaki Hassan表示。“Seris 7H HBA在可用端口數(shù)量方面達到市場同類商業(yè)解決方案的兩倍。這些端口數(shù)量龐大但卻更加低調的HBA幫助數(shù)據(jù)中心將壓縮運營成本、優(yōu)化存儲連接變?yōu)榭赡堋?rdquo;
Attunity RepliWeb for Enterprise File Replication
Attunity RepliWeb for Enterprise File Replication (即企業(yè)文件復制,簡稱EFR) 解決的是大數(shù)據(jù)技術面臨的另一個重要課題——如何對大規(guī)模存儲數(shù)據(jù)進行復制。它的設計目的在于簡化數(shù)據(jù)文件在Apache Hadoop數(shù)據(jù)集合之間的復制流程。Attunity公司全球營銷副總裁Matt Benati解釋稱,Hadoop平臺在設計初衷上只考慮到大量數(shù)據(jù)消耗狀況;然而某些企業(yè)可能還保留著一些較小的數(shù)據(jù)段,希望將其與大數(shù)據(jù)結合以進行更加精確的業(yè)務分析。Attunity公司能夠幫助這類企業(yè)用戶打理好從各類渠道進入Hadoop、有大有小的多種數(shù)據(jù)集。
“在合理的時耗之內通過廣域網移動數(shù)據(jù)絕非易事,”Benati補充道。“Attunity公司的內存內數(shù)據(jù)流處理能力及相關技術優(yōu)化使得大數(shù)據(jù)遷移更加輕松——無論是在本地還是云環(huán)境之下。”
Shadoop
Hadoop各款開源發(fā)行版在安全功能方面的關注并不突出,針對這一狀況,商業(yè)發(fā)行版也就應運而生。這類發(fā)行版通常會把訪問控制及登錄等機制納入進來。“Shadoop為Hadoop集群帶來了以角色為基礎的訪問控制機制,具備日志審計及Kerberos(由麻省理工學院開發(fā)的一套安全認證系統(tǒng))驗證功能,” Enterprise Management Associate分析師Scott Crawford解釋道。
IBM InfoSphere Guardium
Crawford指出,現(xiàn)有數(shù)據(jù)庫安全方案市場已經意識到大數(shù)據(jù)浪潮給自身帶來的巨大影響。雖然這一規(guī)模化數(shù)據(jù)管理領域蘊藏著豐厚的財富,但目前還沒有多少足以應用大數(shù)據(jù)技術挑戰(zhàn)的解決方案。不過情況正在發(fā)生變化。
IBM公司就是這方面的先驅者之一。“IBM InfoSphere Guardium專門針對大數(shù)據(jù)環(huán)境安全難題提供了應對工具,”Crawford如是說。