突破流計算極限挑戰(zhàn)的阿里,將發(fā)力圖計算及大規(guī)模機器學習
近日,體系結(jié)構(gòu)***會議ASPLOS***在中國舉辦,阿里巴巴副總裁、阿里云***科學家周靖人發(fā)表主旨演講,介紹了阿里巴巴云的大數(shù)據(jù)和AI計算平臺,以及其中廣泛的產(chǎn)品和服務(wù)。同時透露阿里接下來將在圖計算和大規(guī)模機器學習領(lǐng)域進一步發(fā)力。
圖為周靖人演講現(xiàn)場
阿里在流計算方面突破
隨著物聯(lián)網(wǎng)傳感器、移動應(yīng)用和在線服務(wù)的普及和廣泛應(yīng)用,越來越多的數(shù)據(jù)以流的形式源源不斷的產(chǎn)生?;跀?shù)據(jù)流的實時分析變得越來越重要,例如實時化的商業(yè)決策依賴高時效性的報表,在線服務(wù)優(yōu)化需要動態(tài)捕捉用戶行為等。這一系列應(yīng)用的背后離不開大規(guī)模流計算平臺的支撐。從系統(tǒng)架構(gòu)角度,海量數(shù)據(jù)流輸入需要大規(guī)模集群,7x24不間斷地連續(xù)計算,同時滿足高吞吐和低延時。大規(guī)模集群中各種軟、硬件故障和網(wǎng)絡(luò)異常,以及輸入流量和數(shù)據(jù)的動態(tài)變化等,都會給流計算帶來極大的挑戰(zhàn)。阿里大數(shù)據(jù)平臺在2016年雙十一支撐了每秒近1億日志事件的計算峰值,在6小時內(nèi)成功處理了100PB的數(shù)據(jù),在這一方面經(jīng)驗頗豐。
阿里在流計算方面突破
演講中,周靖人以容錯為例介紹了阿里系統(tǒng)設(shè)計中的一些關(guān)鍵技術(shù)。所謂容錯,就是當計算結(jié)點發(fā)生故障時,由于數(shù)據(jù)流的連續(xù)性,對上下游都會產(chǎn)生影響,同時計算狀態(tài)也會丟失。相比離線計算,復(fù)雜的系統(tǒng)依賴使得如何自動恢復(fù)流計算過程中的錯誤,成為關(guān)鍵挑戰(zhàn)。
周靖人介紹說,業(yè)界和開源的流計算系統(tǒng),往往以單一容錯策略為基礎(chǔ)來設(shè)計系統(tǒng),如輸入重算、全局快照和mini-batch。而真實場景中的大規(guī)模流計算應(yīng)用,往往由多個相互關(guān)聯(lián)但對計算吞吐和延時要求不盡相同的部分組合而成。例如某個高吞吐的輸入流和按小時更新的數(shù)據(jù)集合之間的關(guān)聯(lián)計算。由此對不同部分的容錯需求就需要相應(yīng)采用不同的策略,而如何在同一系統(tǒng)設(shè)計中允許組合不同的策略,是問題的關(guān)鍵。阿里在這方面做了很多創(chuàng)新的工作,例如在上下游之間建立虛擬管道抽象,將容錯設(shè)計和正確性分析與系統(tǒng)實現(xiàn)、優(yōu)化機制解耦。不但降低了系統(tǒng)的復(fù)雜性,還允許系統(tǒng)根據(jù)場景,靈活實現(xiàn)和組合多種策略,應(yīng)對大規(guī)模集群中各種復(fù)雜情況。
圖計算3大挑戰(zhàn)
據(jù)周靖人介紹,圖計算是阿里關(guān)注的重要技術(shù)之一,可以將電商平臺、用戶產(chǎn)品、支付寶賬戶等大量信息作為節(jié)點來建模處理,基于此可以產(chǎn)生很豐富的分析場景,當前圖計算已經(jīng)在阿里搜索推薦、反作弊、知識圖譜等領(lǐng)域大規(guī)模應(yīng)用。
靖人指出,由于實體模型中,存在許多關(guān)系以及數(shù)十億的結(jié)點和邊,并且以很快的速度動態(tài)更新,實時并發(fā)更新圖數(shù)據(jù)的同時進行復(fù)雜的圖分析是留給工業(yè)界和學術(shù)界的課題。具體來說存在3個方向的挑戰(zhàn)。
挑戰(zhàn)1:圖可視化,即如何有效地將圖背后的特征和信息展現(xiàn)出來,更好地與人交互,輔助推理、分析和決策。
挑戰(zhàn)2:模式匹配,根據(jù)業(yè)務(wù)的特征,在復(fù)雜關(guān)系網(wǎng)絡(luò)中定義并識別核心模式,并在大規(guī)模圖中實現(xiàn)快速匹配。常用的場景有反欺詐、風險控制和ID映射等等。
挑戰(zhàn)3:處理快速變化的圖,也就是當圖節(jié)點和邊動態(tài)更新下的圖計算問題。
此外,如何將圖計算和機器學習結(jié)合,利用人的在線行為模式來進一步提高推薦、搜索等效果,也是阿里技術(shù)人員正在解決的難題。
周靖人認為,阿里機器學習的優(yōu)勢來源于對億萬數(shù)據(jù)樣本和特征的高效利用,阿里的服務(wù)器架構(gòu)就是為了處理如此龐大的模型和數(shù)以億計的參數(shù)而開發(fā)的。“目前阿里大規(guī)模機器學習平臺,可以統(tǒng)一支持深度學習模型訓練以及模型更新,此外我們也建設(shè)了CPU、GPU、FPGA異構(gòu)計算平臺,可以針對不同業(yè)務(wù)特點做機器學習的計算優(yōu)化”。
據(jù)知情人士透露,阿里正在和知名高校在圖計算和大規(guī)模機器學習領(lǐng)域搭建合作平臺,希望和學界一起推動這些領(lǐng)域研究的快速發(fā)展。外界分析,這也是阿里此前公布的“NASA”計劃中的重要技術(shù)布局之一。