阿里巴巴通用計算平臺負責人關濤:企業(yè)級大數(shù)據(jù)計算平臺的演進
計算的價值絕不止于計算本身,而是帶來更多的洞察和更強的驅(qū)動。
在2018杭州云棲大會主論壇上,阿里巴巴通用計算平臺負責人關濤表示,“最初我們希望數(shù)字化阿里巴巴,后來,希望把數(shù)字化普惠到企業(yè)層面,現(xiàn)在開始數(shù)字化一個城市。”同時,他還從計算力、聯(lián)合計算、智能化、企業(yè)級服務能力四個方面介紹了阿里巴巴統(tǒng)一大數(shù)據(jù)計算平臺的探索與實踐。
數(shù)字化城市背后的計算能力
MaxCompute是阿里巴巴9年前做飛天系統(tǒng)的三大件之分布式計算部分。9年后的今天,它已經(jīng)成為可以承載EB級的數(shù)據(jù)存儲能力,百PB級的單日計算能力,公共云覆蓋國內(nèi)外十幾個國家和地區(qū),專有云包含城市大腦在內(nèi)部署了超過100+套。
ET城市大腦作為杭州城市背后的數(shù)據(jù)支撐系統(tǒng),無疑是對數(shù)字和計算的一個***要求。要想做到算得起,算的快,算的準,必須有一個強大的計算平臺。
從系統(tǒng)架構上看,MaxCompute底層包含異構的計算集群,通過統(tǒng)一的元數(shù)據(jù)管理和調(diào)度系統(tǒng)聯(lián)動在一起。向上提供包括批計算、流計算、內(nèi)存計算、機器學習、迭代等一系列計算能力。
計算平臺:計算力是最核心的指標
2015年GraySort 競賽中,MaxCompute用377秒完成了100TB數(shù)據(jù)排序,獲得世界冠軍。2016年拿下CloudSort***成績,這表明不僅算得快,而且算得便宜。
2017年挑戰(zhàn)TPCX-Bigbench 100TB的30個query指標,成為***個測試通過的計算引擎。2018年在同樣100TB規(guī)模上,性能指標提升了一倍。另外在超小型10TB規(guī)模的指標上,性能超過其他開源競品3倍。
“通過對計算力的持續(xù)升級,使得計算力更便宜,智能化更普惠。”
計算下推比數(shù)據(jù)上移更高效
通常用戶上云,數(shù)據(jù)不會在一個系統(tǒng)里。對于在線服務,數(shù)據(jù)通常會在數(shù)據(jù)庫里支撐前臺業(yè)務,對于半結(jié)構化log和非結(jié)構化的音視圖等數(shù)據(jù)通常存儲在數(shù)據(jù)湖里。前端數(shù)據(jù)庫的數(shù)據(jù)有非常豐富的index的支持,可以算的非常高效,后端是超大規(guī)模存儲,中間是一個大數(shù)據(jù)體系,把結(jié)構化數(shù)據(jù)以列式的方式存儲下來,支撐超大規(guī)模的數(shù)據(jù)計算。
但這樣會面臨的一個挑戰(zhàn)就是用戶如何把所有數(shù)據(jù)放在一起來算,得到一個***的結(jié)果?面對這種挑戰(zhàn),通常有兩種解法,一種是數(shù)據(jù)上移概念,就是把所有數(shù)據(jù)上移到同一系統(tǒng)中,上傳同步后進行計算。而此時會有三個問題,一是出現(xiàn)數(shù)據(jù)冗余,相當于把同樣數(shù)據(jù)備份了一到兩份;二是同步存在延遲,在延遲里無法進行計算;三是實時性會受到影響。
“基于此提出了聯(lián)合計算的概念,我們認為計算下推比數(shù)據(jù)上移更高效。”
什么是聯(lián)合計算呢?就是不需要數(shù)據(jù)同步,通過在大數(shù)據(jù)系統(tǒng)中的一個作業(yè),可以聯(lián)動其它系統(tǒng)。每一部分都依賴于當時系統(tǒng)***的優(yōu)化,做***的決策,在這個層面上實現(xiàn)數(shù)據(jù)之間的聯(lián)動和打通。
Auto Data Warehouse讓大數(shù)據(jù)自動駕駛
五年前阿里巴巴正面對數(shù)據(jù)爆發(fā)式增長的巨大挑戰(zhàn),以人的理解力,無法理解這些數(shù)據(jù)之間的關系和作業(yè)之間的關系,因為它太過于復雜。數(shù)據(jù)有沒有冗余?計算是不是可以復用?如果某個作業(yè)失敗了,某個數(shù)據(jù)出了問題,到底影響面有多大?
所以五年前,從最基本的數(shù)據(jù)可發(fā)現(xiàn)開始,然后做數(shù)據(jù)血緣,找到數(shù)據(jù)間的關系,看數(shù)據(jù)冷熱之間分離能力,再看數(shù)據(jù)自動優(yōu)化。***,當有一張新數(shù)據(jù)表進來時,可以自動去找關聯(lián)關系,這就是Auto Data Warehouse數(shù)據(jù)自動駕駛系統(tǒng)。這套系統(tǒng)在阿里巴巴內(nèi)部實現(xiàn)了在計算優(yōu)化上提升了35%,在數(shù)據(jù)冗余去重層面降低了20%的存儲能力,在資源規(guī)劃上,提升了超過75%的計算效率。
MaxCompute是面向企業(yè)的完整服務,不只是單一引擎
杭州城市大腦除了對系統(tǒng)計算力的要求之外,還包含穩(wěn)定性,容災能力,可恢復能力,以及彈性能力等。當遇到突發(fā)情況時要有預警能力和自恢復能力。所有能力總結(jié)成一個詞就是“企業(yè)化的能力。” MaxCompute不止是計算引擎,而是一套完整的企業(yè)化服務。
除計算外,MaxCompute還包含賬號、項目管理、數(shù)據(jù)安全、監(jiān)控、金融性容災等系統(tǒng)等。今年新推出了DQC數(shù)據(jù)正確性驗證系統(tǒng),并全新升級了DataWorks開發(fā)和調(diào)試平臺,具備數(shù)據(jù)集成,作業(yè)pipline管理系統(tǒng),可實現(xiàn)與機器學習、數(shù)據(jù)分析和BI平臺的聯(lián)動。
“計算力,聯(lián)合計算,智能化和企業(yè)級服務能力,構成完整的面向企業(yè)的大數(shù)據(jù)平臺,阿里巴巴用整套大數(shù)據(jù)計算能力,持續(xù)驅(qū)動數(shù)字中國。”






