自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

新聞 人工智能
從節(jié)點(diǎn)架構(gòu)到網(wǎng)絡(luò)架構(gòu),再到通信算法,阿里巴巴把自研的高性能AI集群技術(shù)細(xì)節(jié)寫成了論文,并對(duì)外公布。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

從節(jié)點(diǎn)架構(gòu)到網(wǎng)絡(luò)架構(gòu),再到通信算法,阿里巴巴把自研的高性能AI集群技術(shù)細(xì)節(jié)寫成了論文,并對(duì)外公布。

論文名為EFLOPS: Algorithm and System Co-design for a High Performance Distributed Training Platform,被計(jì)算機(jī)體系結(jié)構(gòu)頂級(jí)會(huì)議HPCA 2020收錄。阿里是國內(nèi)唯一有論文收錄的企業(yè),論文作者之一、阿里資深技術(shù)專家蔣曉維在會(huì)議現(xiàn)場分享了論文內(nèi)容。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

除了展示AI集群技術(shù)細(xì)節(jié),他還介紹了其如何為阿里巴巴內(nèi)部業(yè)務(wù)和算法帶來價(jià)值。這一集群已應(yīng)用于阿里巴巴計(jì)算平臺(tái)的人工智能訓(xùn)練平臺(tái)(PAI),服務(wù)阿里巴巴的人工智能業(yè)務(wù)的模型訓(xùn)練:

能將拍立淘百萬分類大模型的訓(xùn)練速度提升4倍,并首次支持千萬分類模型的訓(xùn)練;在提升阿里巴巴翻譯模型精度的同時(shí),能將訓(xùn)練時(shí)間從100小時(shí)降低至12小時(shí)。

而且與世界頂級(jí)的AI計(jì)算系統(tǒng)相比,阿里的AI集群雖然使用了性能較低的硬件資源,但表現(xiàn)出了相當(dāng)?shù)男阅堋?/p>

這是阿里巴巴首次對(duì)外披露高性能AI集群的性能,具體情況如何?我們根據(jù)阿里研究團(tuán)隊(duì)提供的解讀一一來看。

從業(yè)務(wù)出發(fā),優(yōu)化AI集群架構(gòu)

由于深度神經(jīng)網(wǎng)絡(luò)的技術(shù)突破,圍繞AI的技術(shù)研究,如AI算法模型、訓(xùn)練框架、以及底層的加速器設(shè)計(jì)等,引起越來越多的關(guān)注,而且應(yīng)用越來廣泛,已經(jīng)落地到社會(huì)生活的各個(gè)方面。

“然而極少有人從集群架構(gòu)角度探究過,AI業(yè)務(wù)的運(yùn)行模式與傳統(tǒng)大數(shù)據(jù)處理業(yè)務(wù)的差別,以及AI集群的架構(gòu)設(shè)計(jì)應(yīng)該如何優(yōu)化,“阿里研究團(tuán)隊(duì)表示。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

他們認(rèn)為,雖然AI業(yè)務(wù)存在很強(qiáng)的數(shù)據(jù)并行度,但與大數(shù)據(jù)處理業(yè)務(wù)和高性能計(jì)算業(yè)務(wù)特征存在明顯的不同。核心差別有兩點(diǎn):

第一,AI業(yè)務(wù)的子任務(wù)獨(dú)立性很低,需要周期性地進(jìn)行通信,實(shí)現(xiàn)梯度的同步;第二,AI業(yè)務(wù)的運(yùn)行以加速部件為中心,加速部件之間直接通信的并發(fā)度顯著高于傳統(tǒng)服務(wù)器。

因此,在傳統(tǒng)數(shù)據(jù)中心的服務(wù)器架構(gòu)和網(wǎng)絡(luò)架構(gòu)上運(yùn)行AI業(yè)務(wù),會(huì)存在很多嚴(yán)重的問題。

具體來說,服務(wù)器架構(gòu)問題,主要是資源配置不平衡導(dǎo)致的擁塞問題,以及PCIe鏈路的QoS問題。

一般情況下,傳統(tǒng)服務(wù)器配備一張網(wǎng)卡用于節(jié)點(diǎn)間通信,為了支持AI業(yè)務(wù)會(huì)配置多個(gè)GPU。

但AI訓(xùn)練經(jīng)常需要在GPU之間進(jìn)行梯度的同步,多GPU并發(fā)訪問網(wǎng)絡(luò),唯一的網(wǎng)卡就會(huì)成為系統(tǒng)的瓶頸。

此外,PCIe鏈路上的帶寬分配與路徑長度密切相關(guān),長路徑獲得的帶寬分配較低,而跨Socket通信的問題更加嚴(yán)重。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

網(wǎng)絡(luò)架構(gòu)問題,主要在于AI訓(xùn)練中同步通信導(dǎo)致的短板效應(yīng)。網(wǎng)絡(luò)擁塞本是一個(gè)非常普遍的問題,相關(guān)研究已經(jīng)持續(xù)了幾十年。

但擁塞控制算法的最終目的,在于對(duì)兩個(gè)碰撞的流進(jìn)行限速,使其盡快達(dá)到均分物理帶寬的目的,并不能解決AI訓(xùn)練集群的通信效率問題。

由于AI業(yè)務(wù)通信的同步性,每個(gè)通信事務(wù)的最終性能決定于最慢的連接。均分帶寬意味著事務(wù)完成時(shí)間的成倍提升,會(huì)嚴(yán)重影響AI通信的性能。

基于此,阿里巴巴決定為AI業(yè)務(wù)自研高性能AI集群。

阿里AI集群的關(guān)鍵技術(shù)

阿里巴巴自研的高性能AI集群名為EFlops,關(guān)鍵技術(shù)一共有三個(gè):網(wǎng)絡(luò)化異構(gòu)計(jì)算服務(wù)器架構(gòu)、高擴(kuò)展性網(wǎng)絡(luò)架構(gòu)、與系統(tǒng)架構(gòu)協(xié)同的高性能通信庫。

為了避免網(wǎng)卡上的數(shù)據(jù)擁塞,他們?yōu)槊總€(gè)GPU提供專用的網(wǎng)卡,來負(fù)責(zé)與其他GPU的通信。

此外,基于Top-of-Server的設(shè)計(jì)思想,將節(jié)點(diǎn)內(nèi)加速器之間的通信導(dǎo)出到節(jié)點(diǎn)外,并利用成熟的以太網(wǎng)QoS機(jī)制來保證擁塞流量之間的公平性。

研究團(tuán)隊(duì)認(rèn)為,隨著加速器芯片計(jì)算能力的快速提升,對(duì)通信性能提出越來越高的需求,這種多網(wǎng)卡的網(wǎng)絡(luò)化異構(gòu)計(jì)算服務(wù)器架構(gòu)將很快成為主流。

在網(wǎng)絡(luò)架構(gòu)層面,EFlops設(shè)計(jì)了BiGraph網(wǎng)絡(luò)拓?fù)?,在兩層網(wǎng)絡(luò)之間提供了豐富的鏈路資源,提供了跨層路由的可控性。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

配合多網(wǎng)卡服務(wù)器結(jié)構(gòu),他們在EFlops項(xiàng)目中提出了BiGraph網(wǎng)絡(luò)拓?fù)?,其與傳統(tǒng)的Fat-tree拓?fù)溆邢嗨浦帲泊嬖诟镜膮^(qū)別。

與Fat-tree拓?fù)漕愃频牡胤皆谟?,他們將網(wǎng)絡(luò)中的分為兩部分(Upper和Lower),各部分之間通過Clos架構(gòu)進(jìn)行互連,形如兩層Fat-tree拓?fù)涞腟pine和Leaf交換機(jī)。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

與Fat-tree不同的是,他們在兩部分交換機(jī)上都可以直接接入計(jì)算服務(wù)器;即每一個(gè)交換機(jī)都扮演了Fat-tree拓?fù)渲械腟pine和Leaf兩個(gè)角色,最大跳步數(shù)為3。

也給BiGraph拓?fù)鋷砹藘蓚€(gè)重要的特性:

一方面,在兩層交換機(jī)之間提供了豐富的物理鏈路資源。在N個(gè)計(jì)算服務(wù)器的系統(tǒng)中,兩層交換機(jī)之間至少存在著N/2個(gè)物理鏈路可供使用。另一方面,接入不同層次的任意兩個(gè)計(jì)算服務(wù)器之間的最短路徑具有唯一性。

因此,他們可以充分利用這一特性,在通信庫甚至更高層次進(jìn)行服務(wù)器間通信模式的管理。比如,在建立連接的時(shí)候,選擇合適源和目的服務(wù)器,來控制網(wǎng)絡(luò)上的路徑選擇。

想要說清楚這一點(diǎn),需要引入一個(gè)新的概念:Allreduce——數(shù)據(jù)并行訓(xùn)練場景下的最主要集合通信操作。

其中常用的通信算法有Ring-based(Ring)、Tree-based(Tree)和Halving-Doubling(HD)等。

在阿里巴巴的這篇論文中,主要關(guān)注的是Ring和HD,前者是應(yīng)用范圍最廣的算法之一,后者是他們在這一研究中的優(yōu)化對(duì)象。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

Ring和HD算法在數(shù)據(jù)傳輸量上沒有區(qū)別,都是2S;其中S是Message的大小。從通信次數(shù)角度看,Ring算法需要N-1個(gè)Step的通信,而HD算法只需要log2N個(gè)Step;其中N是參與節(jié)點(diǎn)個(gè)數(shù)。

而Ring算法只需要N個(gè)連接,而HD算法需要N*log2N個(gè)連接。需要特別指出的是,HD算法的每個(gè)Step只需要N/2個(gè)連接。

結(jié)合BiGraph拓?fù)涞奶匦赃M(jìn)行分析,可以看到:BiGraph拓?fù)鋬蓪咏粨Q機(jī)之間存在N/2個(gè)物理鏈路,而HD算法每個(gè)step需要N/2個(gè)連接。

BiGraph拓?fù)鋬蓪咏粨Q機(jī)之間最短路徑的確定性,提供了一種可能性:將HD算法的連接和BiGraph拓?fù)涞奈锢礞溌愤M(jìn)行一一映射,避免它們之間的鏈路爭用,以徹底解決網(wǎng)絡(luò)擁塞問題。

基于此,他們也進(jìn)一步提出了Rank映射算法,將HD算法的通信連接一一映射至BiGraph網(wǎng)絡(luò)的物理鏈路,避免了網(wǎng)絡(luò)的擁塞,該算法Halving-Doubling with Rank-Mapping(HDRM)已經(jīng)在阿里定制的集合式通信庫ACCL實(shí)現(xiàn)。具體步驟如下:

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

如此集群,性能如何?

為了評(píng)估EFlops系統(tǒng)的性能,他們部署了16個(gè)節(jié)點(diǎn),共計(jì)64個(gè)GPU的訓(xùn)練集群。其中每個(gè)節(jié)點(diǎn)配置了4個(gè)Tesla V100-32G的GPU,以及4個(gè)ConnectX-5 100Gbps網(wǎng)卡。

網(wǎng)絡(luò)環(huán)境按照BiGraph拓?fù)溥M(jìn)行設(shè)計(jì),其中8個(gè)物理交換機(jī)劃分為16個(gè)虛擬交換機(jī),分別部署于BiGraph的兩層。

研究團(tuán)隊(duì)用MLPerf的ResNet50模型評(píng)估了集群性能,具體方式是在達(dá)到指定準(zhǔn)確率之后,計(jì)算單位時(shí)間圖片處理數(shù)量。

下圖呈現(xiàn)了EFlops系統(tǒng)和單網(wǎng)卡系統(tǒng)的性能對(duì)比,包括全系統(tǒng)吞吐量和單GPU平均吞吐量。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

可以看到,EFlops系統(tǒng)的性能基本達(dá)到了線性擴(kuò)展,而單網(wǎng)卡系統(tǒng)的單位吞吐量明顯隨著規(guī)模逐步下降。

與世界頂級(jí)的AI計(jì)算系統(tǒng)相比,EFlops雖然使用了性能較低的硬件資源(V100-PCIe性能低于V100-SXM2約10%)也表現(xiàn)出了相當(dāng)?shù)男阅堋?/p>

此外,他們還分析了阿里巴巴內(nèi)部應(yīng)用的性能收益。以拍立淘百萬分類模型為例,EFlops系統(tǒng)可以提升通信性能5.57倍,端到端性能34.8%。

因?yàn)橥ㄐ帕空急炔桓撸琀DRM算法提升通信性能43.5%,整體性能4.3%。對(duì)BERT模型而言,通信量明顯高于拍立淘百萬分類模型,僅HDRM算法就可以提升通信性能36%,端到端性能15.8%。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

研究團(tuán)隊(duì)表示,可以預(yù)見,隨著系統(tǒng)規(guī)模進(jìn)一步增長,EFlops的性能收益將顯著提升。基于64節(jié)點(diǎn)集群的收益,他們進(jìn)一步搭建了512 GPUs的高性能AI訓(xùn)練集群。

初步的評(píng)測結(jié)果顯示,基于ImageNet訓(xùn)練集,在Resnet50模型上,EFlops集群仍然能保持接近線性的擴(kuò)展性。

阿里巴巴基礎(chǔ)設(shè)施團(tuán)隊(duì)打造

EFlops集群一共有17名阿里的技術(shù)專家參與打造,大多來自阿里巴巴基礎(chǔ)設(shè)施團(tuán)隊(duì),平頭哥團(tuán)隊(duì)提供支持。

阿里公開自研AI集群細(xì)節(jié):64個(gè)GPU,百萬分類訓(xùn)練速度提升4倍

論文的第一作者是董建波,畢業(yè)于中科院計(jì)算所,現(xiàn)在是阿里巴巴高級(jí)技術(shù)專家。論文的通訊作者是謝源——阿里巴巴達(dá)摩院高級(jí)研究員、平頭哥首席科學(xué)家。

謝源是計(jì)算體系結(jié)構(gòu)、芯片設(shè)計(jì)領(lǐng)域大牛級(jí)別的存在,研究方向是計(jì)算機(jī)體系結(jié)構(gòu)、集成電路設(shè)計(jì)、電子設(shè)計(jì)自動(dòng)化、和嵌入式系統(tǒng)設(shè)計(jì),已發(fā)表過300多篇頂級(jí)期刊和會(huì)議論文。

在獲得IEEE、AAAS、ACM Fellow稱號(hào)之后,他在2月28日再次獲得國際學(xué)術(shù)榮譽(yù)——IEEE CS 2020年度技術(shù)成就獎(jiǎng)。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-05-09 09:30:06

框架開源模型

2023-04-06 09:37:22

谷歌AI

2022-08-30 20:50:48

阿里云飛天人工智能

2020-06-19 10:33:16

阿里AIICML

2017-06-16 15:16:32

2023-03-22 13:53:26

芯片英偉達(dá)

2022-02-22 16:21:04

Windows 11微軟

2023-06-27 13:49:00

GPU通信RLHF

2024-03-18 09:02:53

AI模型

2024-10-29 08:21:05

2020-07-08 15:36:18

百度大腦

2022-02-25 23:46:16

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)AI

2009-11-26 11:29:46

Silverlight

2024-02-20 13:31:26

AI訓(xùn)練

2024-11-27 14:30:00

模型訓(xùn)練

2024-07-04 10:23:51

2018-09-19 21:34:12

阿里云芯片達(dá)摩院

2023-10-14 15:22:22

2018-04-03 12:41:30

UAI-Train計(jì)算運(yùn)維

2019-09-25 15:29:41

阿里云芯片
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)