領(lǐng)先第二名40% 阿里云神龍加速引擎拿下TPCx-BB第一名
近日,國際標(biāo)準(zhǔn)化測試機構(gòu)TPC公布了大數(shù)據(jù)處理性能TPCx-BB SF3000的最新排名,阿里云自主研發(fā)的神龍大數(shù)據(jù)加速引擎以2187.42 BBQpm的成績刷新了世界紀錄,領(lǐng)先第二名達40%以上。
TPCx-BB是由國際標(biāo)準(zhǔn)化測試權(quán)威組織(TPC)發(fā)布的基于零售業(yè)場景構(gòu)建的端到端大數(shù)據(jù)測試基準(zhǔn),支持主流分布式大數(shù)據(jù)處理引擎,模擬了整個線上與線下業(yè)務(wù)流程,有30個查詢語句,涉及到描述性過程型查詢、數(shù)據(jù)挖掘以及機器學(xué)習(xí)的算法。
此次,阿里云參賽的是自研的神龍大數(shù)據(jù)加速引擎MRACC(ApasaraCompute MapReduce Accelerator)。MRACC針對大數(shù)據(jù)常用組件,如Spark、Hadoop、Alluxio等,結(jié)合自研神龍架構(gòu)的特性,進行軟硬一體化優(yōu)化,形成獨一無二的性能優(yōu)勢,最終,使復(fù)雜SQL查詢場景性能相比社區(qū)版spark提升2-3倍,使用eRDMA加速Spark性能提升30%。
具體來說,針對大數(shù)據(jù)任務(wù)重IO特性,阿里云MRACC在網(wǎng)絡(luò)和存儲方面結(jié)合云上的架構(gòu)優(yōu)勢進行軟硬件加速,包括軟件的SQL引擎優(yōu)化,使用緩存、文件裁剪、索引等優(yōu)化手段,并嘗試將壓縮等運算卸載到異構(gòu)器件;還使用eRDMA進行網(wǎng)絡(luò)加速,將shuffle階段的數(shù)據(jù)交換運行在eRDMA網(wǎng)絡(luò),使得延時降低、CPU利用率大幅提升。
據(jù)悉,TPCx-BB的測試結(jié)果,可以全面準(zhǔn)確的反映端到端的大數(shù)據(jù)系統(tǒng)的整體運行性能,涵蓋了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),能夠從客戶實際場景角度更全面的評估大數(shù)據(jù)系統(tǒng)軟硬件性能、性價比、服務(wù)和功耗等各個方面,對各行業(yè)的基礎(chǔ)設(shè)施選型有著重要參考意義。