分享 | 美團深度學(xué)習(xí)系統(tǒng)的工程實踐
背景
深度學(xué)習(xí)作為AI時代的核心技術(shù),已經(jīng)被應(yīng)用于多個場景。在系統(tǒng)設(shè)計層面,由于其具有計算密集型的特性,所以與傳統(tǒng)的機器學(xué)習(xí)算法在工程實踐過程中存在諸多的不同。本文將介紹美團平臺在應(yīng)用深度學(xué)習(xí)技術(shù)的過程中,相關(guān)系統(tǒng)設(shè)計的一些經(jīng)驗。
本文將首先列舉部分深度學(xué)習(xí)算法所需的計算量,然后再介紹為滿足這些計算量,目前業(yè)界比較常見的一些解決方案。最后,我們將介紹美團平臺在NLU和語音識別兩個領(lǐng)域中,設(shè)計相關(guān)系統(tǒng)的經(jīng)驗。
深度學(xué)習(xí)的計算量
Model | Input Size | Param Size | Flops |
---|---|---|---|
AlexNet | 227 x 227 | 233 MB | 727 MFLOPs |
CaffeNet | 224 x 224 | 233 MB | 724 MFLOPs |
VGG-VD-16 | 224 x 224 | 528 MB | 16 GFLOPs |
VGG-VD-19 | 224 x 224 | 548 MB | 20 GFLOPs |
GoogleNet | 224 x 224 | 51 MB | 2 GFLOPs |
ResNet-34 | 224 x 224 | 83 MB | 4 GFLOPs |
ResNet-152 | 224 x 224 | 230 MB | 11 GFLOPs |
SENet | 224 x 224 | 440 MB | 21 GFLOPs |
數(shù)據(jù)來源
上表列舉了,ImageNet圖像識別中常見算法的模型大小以及單張圖片一次訓(xùn)練(One Pass)所需要的計算量。
自2012年,Hinton的學(xué)生Alex Krizhevsky提出AlexNet,一舉摘下ILSVRC 2012的桂冠后,ILSVRC比賽冠軍的準確率越來越高。與此同時,其中使用到的深度學(xué)習(xí)算法也越來越復(fù)雜,所需要的計算量也越來越大。SENet與AlexNet相比,計算量多了近30倍。我們知道,ImageNet大概有120萬張圖片,以SENet為例,如果要完成100個epoch的完整訓(xùn)練,將需要2.52 * 10^18的計算量。如此龐大的計算量,已經(jīng)遠遠超出傳統(tǒng)的機器學(xué)習(xí)算法的范疇。更別說,Google在論文《Revisiting Unreasonable Effectiveness of Data in Deep Learning Era》中提及的、比ImageNet大300倍的數(shù)據(jù)集。
物理計算性能
面對如此龐大的計算量,那么,我們業(yè)界當前常用的計算單元的計算力是多少呢?
- CPU 物理核:一般浮點運算能力在10^10 FLOPS量級。一臺16 Cores的服務(wù)器,大致上有200 GFLOPS的運算能力。實際運行,CPU 大概能用到80%的性能,那就160 GFLOPS的運算能力。完成上述SENet運行,需要182天。
- NVIDIA GPGPU: 目前的V100,單精度浮點運算的峰值大概為14 TFLOPS, 實際運行中,我們假設(shè)能用到50%的峰值性能,那就是7 TFLOPS,需要4天。
根據(jù)以上數(shù)據(jù)結(jié)果可以看出:在深度學(xué)習(xí)領(lǐng)域,GPU訓(xùn)練數(shù)據(jù)集所需要耗費的時間,遠遠少于CPU,這也是當前深度學(xué)習(xí)訓(xùn)練都是采用GPU的重要原因。
業(yè)界的解決方案
從前面的計算可知,即使使用GPU來計算,訓(xùn)練一次ImageNet 也需要4天的時間。但對于算法工程師做實驗、調(diào)參而言,這種耗時數(shù)天的等待是難以忍受的。為此,目前業(yè)界針對深度學(xué)習(xí)訓(xùn)練的加速,提出了各種各樣的解決方案。
異構(gòu)計算的并行方案
數(shù)據(jù)并行(Data Parallelism)
數(shù)據(jù)并行,即每個計算單元都保留一份完整的模型拷貝,分別訓(xùn)練不同的數(shù)據(jù),經(jīng)過一個Iteration或若干個Iteration后,把各個計算單元的模型做一次同步。這是最常見的深度學(xué)習(xí)訓(xùn)練方式,好處在于邏輯簡單、代碼實現(xiàn)方便。
模型并行(Model Parallelism)
模型并行,即各個計算單元存儲同一層模型數(shù)據(jù)的不同部分,訓(xùn)練相同的數(shù)據(jù)。相對于數(shù)據(jù)并行,因為各個運算單元每訓(xùn)練完一層神經(jīng)網(wǎng)絡(luò),就必須要同步一次,頻繁的同步通信導(dǎo)致系統(tǒng)不能充分地利用硬件的運算能力,所以更為少見。但是在一些業(yè)務(wù)場景下,Softmax層需要分類的類別可能會有很多,導(dǎo)致Softmax層太大,單個計算單元無法存儲,這個時候,需要把模型切割成若干部分,存儲在不同的運算單元。模型并行常見于NLU、推薦、金融等領(lǐng)域。
流式并行(Stream Parallelism)
流式并行,即每個計算單元都存儲不同層的模型數(shù)據(jù),訓(xùn)練相同的數(shù)據(jù)。如上圖所示,GPU1只負責(zé)第一層神經(jīng)網(wǎng)絡(luò)的計算,GPU2只負責(zé)2~5層神經(jīng)網(wǎng)絡(luò)的計算,GPU3只負責(zé)第6層的計算。流式并行的好處在于每個運算單元之間的通信和計算重疊(overlap),如果配置得當,可以非常充分地利用硬件資源。缺點在于,根據(jù)不同的模型,需要平衡好各個計算單元的計算量,如果配置不好,很容易形成“堰塞湖”。如上圖所示,很有可能出現(xiàn)GPU1 負責(zé)的運算量太少,而GPU2 負責(zé)的運算量太多,導(dǎo)致GPU1 和GPU2 之間堵塞住大量的Mini-batch,更常見于線上環(huán)境。
混合并行(Hybrid Parallelism)
混合并行,即上面提到的并行方式的混合。如對于一些圖像識別任務(wù)來說,可能前幾層使用數(shù)據(jù)并行,最后的Softmax層,使用模型并行。
異構(gòu)計算的硬件解決方案
- 單機單卡:一個主機內(nèi)安裝上一塊GPU運算卡。常見于個人計算機。
- 單機多卡:一個主機內(nèi)安裝上多塊GPU運算卡。常見的有:1機4卡,1機8卡,甚至有1機10卡。一般公司都采取這種硬件方案。
- 多機多卡:多臺主機內(nèi)安裝多塊GPU運算卡。常見于公司內(nèi)部的計算集群,一般多機之間采取Infiniband 來實現(xiàn)網(wǎng)絡(luò)的快速通信。
- 定制化:即類似于Google的TPU解決方案。常見于“巨無霸”公司內(nèi)部。
異構(gòu)計算的通信解決方案
根據(jù)上面的硬件解決方案,我們以ResNet為例:模型的大小為230M,單張圖片運算量為11 GFLPOS,Mini-batch假設(shè)為128??梢杂嬎愠龈鱾€硬件模塊在深度學(xué)習(xí)訓(xùn)練中的耗時比較:
- GPU:對于V100,假設(shè)有6 TFLOPS,一次Mini-batch 理論耗時:0.23s。
- PCI-E:常見PCI-E 3.0 * 16,速度為10 GB/s,傳輸一個模型的理論耗時為:0.023s。
- 網(wǎng)絡(luò):假設(shè)為10 GB/s的高速網(wǎng)絡(luò),傳輸一個模型的理論耗時:0.023s。
- Disk:普通的磁盤,我們假設(shè)200M/s的讀取速度,讀取一次Mini-batch所需要的圖片耗時:0.094s。
根據(jù)上面的數(shù)據(jù)結(jié)果,我們似乎可以得出一個結(jié)論:PCI-E和網(wǎng)絡(luò)的傳輸耗時,相對于GPU來說,整整少了一個數(shù)量級,所以網(wǎng)絡(luò)通信同步的時間可以忽略不計。然而問題并沒有那么簡單,上面例子中的耗時只是單個模型的耗時,但是對于8卡的集群來說,如果使用數(shù)據(jù)并行,每次同步就需要傳輸8份模型,這就導(dǎo)致數(shù)據(jù)傳輸?shù)臅r間和GPU的計算時間“旗鼓相當”。這樣的話,GPU就得每訓(xùn)練完一個Mini-batch,都得等候很久的一段時間(采取同步更新),這會浪費很多計算資源。因此,網(wǎng)絡(luò)通信也需要制定對應(yīng)的解決方案。下面我們以Nvidia NCCL中單機多卡的通信解決方案為例介紹,而多機多卡的通信解決方案其實是類似的。
上圖是單機4卡機器,在硬件上,兩種不同的通信體系。左邊為普通的PCI-E通信,即4個GPU之間組成一個環(huán)狀。右邊為NVLink通信,即兩兩之間相互連接。
常見的通信類型如下圖所示:
對于深度學(xué)習(xí)訓(xùn)練而言,關(guān)鍵的兩種通信類型為:Broadcast和Reduce。Broadcast用于Master分發(fā)最新的模型給各個GPU。Reduce 用于各個GPU計算完Mini-batch后,把模型更新值匯總到Master上。以Broadcast為例,最簡單的通信方式是Master往各個GPU上發(fā)送數(shù)據(jù),這樣的耗時就是4次模型傳輸?shù)臅r間,通信時間就會太長,一種簡單的優(yōu)化方法如下圖所示:
即把所需要傳輸?shù)臄?shù)據(jù)分成若干塊,然后通過接力的方式逐個傳遞,每個GPU都把自己最新的一塊數(shù)據(jù)發(fā)送到下一個GPU卡上。這種傳輸方式能充分利用硬件層面的通信結(jié)構(gòu),使得需要的耗時大幅縮減。與此類似的,Reduce的通信優(yōu)化也可以采取相同的方式進行提速。
美團的定制化深度學(xué)習(xí)系統(tǒng)
盡管目前在業(yè)界已經(jīng)推出了很多著名的深度學(xué)習(xí)訓(xùn)練平臺,通用的訓(xùn)練平臺如TensorFlow、MxNet等等,還有領(lǐng)域?qū)S玫挠?xùn)練平臺,如語音識別中的Kaldi,但是我們經(jīng)過調(diào)研后,決定內(nèi)部自主開發(fā)一套深度學(xué)習(xí)系統(tǒng),理由如下:
- 通用的訓(xùn)練平臺,缺乏了領(lǐng)域特色的功能。如語音識別中的特征提取模塊和算法。
- 通用的訓(xùn)練平臺,通常是基于Data-flow Graph,來對計算圖中的每個operator進行建模,所以顆粒度很小,需要調(diào)度的單元多,導(dǎo)任務(wù)調(diào)度復(fù)雜。
- 領(lǐng)域特色的訓(xùn)練平臺,如Kaldi,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時候,性能不足。
- 線上業(yè)務(wù)存在很多特殊性,如果使用TensorFlow之類作為訓(xùn)練平臺,不太適合線上業(yè)務(wù)的情景。
NLU線上系統(tǒng)
線上系統(tǒng)的業(yè)務(wù)特點
我們在設(shè)計NLU線上系統(tǒng)時,考慮了NLU業(yè)務(wù)的一些特性。發(fā)現(xiàn)其具備如下的一些特點:
- 隨著業(yè)務(wù)和技術(shù)的變化,算法流程也經(jīng)常發(fā)生變化。
- 算法流程是多個算法串聯(lián)組成的,不單純的只有深度學(xué)習(xí)算法。如分詞等算法就不是DL算法。
- 為了能夠快速響應(yīng)一些緊急問題,需要經(jīng)常對模型進行熱更新。
- 更重要的是,我們希望構(gòu)建一個能以“數(shù)據(jù)驅(qū)動”的自動迭代閉環(huán)。
業(yè)務(wù)多變
NLU任務(wù)的算法流程是多層級的,并且業(yè)務(wù)經(jīng)常發(fā)生變化。如下圖所示:
即隨著業(yè)務(wù)要求的變化,NLU系統(tǒng)一開始的算法流程,只需要把一個Query分為兩個類,但是到后面,極有可能會變成需要分為三個類別。
熱更新
根據(jù)業(yè)務(wù)需求,或者為了緊急處理一些特殊問題,NLU線上系統(tǒng)經(jīng)常需要做出快速響應(yīng),熱更新算法模型。如最近的熱點詞“skr”,幾乎是一夜之間,突然火爆起來。如下圖所示的微博,如果不能正確理解“skr”的正確語義,可能就不能準確理解這條微博想要表達的意思。
為了避免影響用戶體驗,我們可能會對NLU系統(tǒng),馬上進行熱更新,把新模型緊急進行上線。
數(shù)據(jù)驅(qū)動的自動迭代閉環(huán)
對于線上系統(tǒng)而言,構(gòu)建如上圖所示的自動迭代閉環(huán),能更好地利用業(yè)務(wù)數(shù)據(jù)來提升服務(wù)質(zhì)量。
NLU線上系統(tǒng)的核心設(shè)計
算法流程的抽象
為了適應(yīng)線上系統(tǒng)串聯(lián)、多變的算法流程,我們把線上系統(tǒng)的算法進行抽象,如下圖所示:
即每一個算法,都依賴于若干個槽位(Slot)和資源(Resource),一旦槽位和資源就位,就會觸發(fā)對應(yīng)的算法執(zhí)行。算法的執(zhí)行先通過算法適配器,來適配槽位和資源中的數(shù)據(jù),轉(zhuǎn)換成算子的輸入格式。然后算子執(zhí)行算法本身,執(zhí)行完算子后,再經(jīng)過算法解析器。算法解析器主要用于解析算法執(zhí)行的結(jié)果,觸發(fā)對應(yīng)的槽位。如根據(jù)算法的結(jié)果,觸發(fā)Top 3的結(jié)果。
多個算法串聯(lián)起來,就構(gòu)建成如下結(jié)果:
熱更新流程的設(shè)計
如上圖所示,我們把算法的熱更新流程設(shè)計如上。初試狀態(tài)為左上角,即多個Query使用同一份模型數(shù)據(jù)。當遇到模型更新的請求后,系統(tǒng)將會block住新的query(右上角狀態(tài))。然后更新模型完后,新的query使用新的模型,舊query依然使用舊模型(右下角狀態(tài))。最后,當使用舊模型的query結(jié)束后,把舊的模型從內(nèi)存中刪除(左下角),然后系統(tǒng)恢復(fù)到初始狀態(tài)。
聲學(xué)模型訓(xùn)練系統(tǒng)
因為TensorFlow等通用深度學(xué)習(xí)訓(xùn)練平臺,缺乏了特征提取等業(yè)務(wù)相關(guān)的領(lǐng)域功能,而Kaldi的聲學(xué)模型訓(xùn)練過程又太慢。所以美團開發(fā)了一個聲學(xué)模型訓(xùn)練系統(tǒng)——Mimir,其具備如下特性:
- 使用比TensorFlow更粗顆粒度的建模單元,使得任務(wù)調(diào)度、優(yōu)化更簡單方便易行。
- 使用數(shù)據(jù)并行的并行方案,單機多卡可達到近線性加速。(采取同步更新策略下,4卡加速比達到3.8)
- 移植了Kaldi的一些特有的訓(xùn)練算法。
- 速度上為Kaldi的6~7倍。(800個小時的訓(xùn)練數(shù)據(jù),單機單卡的條件下,Kaldi需要6~7天, Mimir只需20個小時)
- 業(yè)務(wù)上,移植了Kaldi的特征提取等領(lǐng)域的相關(guān)模塊。