自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福DAWNBench最新訓(xùn)練排名!華為云ModelArts用時10分28秒獲全球最快

企業(yè)動態(tài)
在最新公布的DAWNBenchmark成績排名中,在圖像識別(ResNet50-on-ImageNet,93%以上精度)的總訓(xùn)練時間上,華為云ModelArts以10分28秒的成績,比第二名提速近44%,拿下最新全球第一。

 還記得ModelArts嗎?

這是今年華為***發(fā)布的AI開發(fā)平臺,可以提供包括數(shù)據(jù)標注準備、模型訓(xùn)練、模型調(diào)優(yōu)、模型部署等AI應(yīng)用開發(fā)服務(wù)。

其中,模型訓(xùn)練更是在發(fā)布之時就備受關(guān)注。

因為華為云稱,ModelArts可以在模型訓(xùn)練階段通過各類優(yōu)化技術(shù),尤其通過級聯(lián)式混合并行技術(shù),在同樣的模型、數(shù)據(jù)集和同等硬件資源情況下,模型訓(xùn)練耗時都能大幅縮短。

但實際效果如何?現(xiàn)在有了國際權(quán)威成績來參考。

就在***公布的DAWNBenchmark成績排名中,在圖像識別(ResNet50-on-ImageNet,93%以上精度)的總訓(xùn)練時間上,華為云ModelArts以10分28秒的成績,比第二名提速近44%,拿下******。

DAWNBenchmark***成績

斯坦福DAWNBenchmark

DWANBench是斯坦福大學(xué)發(fā)起的國際權(quán)威基準測試平臺,主要用來衡量端到端的深度學(xué)習(xí)模型訓(xùn)練和推理性能,相應(yīng)的排行榜,也一直被視為全球業(yè)界深度學(xué)習(xí)平臺技術(shù)的***水準。

在深度學(xué)習(xí)模型構(gòu)建中,計算時間和成本是最關(guān)鍵資源之一。

DAWNBench為此提供了一套通用的深度學(xué)習(xí)評價指標,用于評估不同優(yōu)化策略、模型架構(gòu)、軟件框架、云和硬件上的訓(xùn)練時間、訓(xùn)練成本、推理延遲以及推理成本。

所以***成績公布后,華為云方面稱,進一步證明了ModelArts可以實現(xiàn)更低成本、更快速度、更***的AI開發(fā)體驗。

此外,華為云方面也就此分享了成績背后的模型打磨思路,介紹ModelArts用128塊GPU,10分鐘完成ImageNet訓(xùn)練的方法。

全文轉(zhuǎn)載如下:

近年來,深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于計算機視覺、語音識別、自然語言處理、視頻分析等領(lǐng)域,可服務(wù)于視頻監(jiān)控、自動駕駛、搜索推薦、對話機器人等場景,具有廣闊的商業(yè)價值。

為了達到更高的精度,通常深度學(xué)習(xí)所需數(shù)據(jù)量和模型都很大,訓(xùn)練非常耗時。

例如,在計算機視覺中,如果我們在ImageNet[1]數(shù)據(jù)集上用1塊P100 GPU訓(xùn)練一個ResNet-50模型, 則需要耗時將近1周。

這嚴重阻礙了深度學(xué)習(xí)應(yīng)用的開發(fā)進度。因此,深度學(xué)習(xí)訓(xùn)練加速一直是學(xué)術(shù)界和工業(yè)界所關(guān)注的重要問題,也是深度學(xué)習(xí)應(yīng)主要用的痛點。

Jeremy Howard等幾位教授領(lǐng)銜的fast.ai當前專注于深度學(xué)習(xí)加速,在ImageNet數(shù)據(jù)集上用128塊V100 GPU訓(xùn)練 ResNet-50模型的最短時間為18分鐘。

然而,最近BigGAN、NASNet、BERT等模型的出現(xiàn),預(yù)示著訓(xùn)練更好精度的模型需要更強大的計算資源。

可以預(yù)見,在未來隨著模型的增大、數(shù)據(jù)量的增加,深度學(xué)習(xí)訓(xùn)練加速將變得會更加重要。只有擁有端到端全棧的優(yōu)化能力,才能使得深度學(xué)習(xí)的訓(xùn)練性能做到***。

華為云ModelArts是一站式的AI開發(fā)平臺,已經(jīng)服務(wù)于華為公司內(nèi)部各大產(chǎn)品線的AI模型開發(fā),幾年下來已經(jīng)積累了跨場景、軟硬協(xié)同、端云一體等多方位的優(yōu)化經(jīng)驗。

ModelArts提供了自動學(xué)習(xí)、數(shù)據(jù)管理、開發(fā)管理、訓(xùn)練管理、模型管理、推理服務(wù)管理、市場等多個模塊化的服務(wù),使得不同層級的用戶都能夠很快地開發(fā)出自己的AI模型。

華為云ModelArts功能視圖

在模型訓(xùn)練部分,ModelArts通過硬件、軟件和算法協(xié)同優(yōu)化來實現(xiàn)訓(xùn)練加速。尤其在深度學(xué)習(xí)模型訓(xùn)練方面,華為將分布式加速層抽象出來,形成一套通用框架——MoXing(“模型”的拼音,意味著一切優(yōu)化都圍繞模型展開)。

采用與fast.ai一樣的硬件、模型和訓(xùn)練數(shù)據(jù),ModelArts可將訓(xùn)練時長可縮短到10分鐘,創(chuàng)造了新的記錄,為用戶節(jié)省44%的時間。

基于MoXing和ModelArts的訓(xùn)練速度提升

MoXing是華為云ModelArts團隊自研的分布式訓(xùn)練加速框架,它構(gòu)建于開源的深度學(xué)習(xí)引擎TensorFlow、MXNet、PyTorch、Keras之上,使得這些計算引擎分布式性能更高,同時易用性更好。

MoXing內(nèi)置了多種模型參數(shù)切分和聚合策略、分布式SGD優(yōu)化算法、級聯(lián)式混合并行技術(shù)、超參數(shù)自動調(diào)優(yōu)算法,并且在分布式訓(xùn)練數(shù)據(jù)切分策略、數(shù)據(jù)讀取和預(yù)處理、分布式通信等多個方面做了優(yōu)化,結(jié)合華為云Atlas高性能服務(wù)器,實現(xiàn)了硬件、軟件和算法協(xié)同優(yōu)化的分布式深度學(xué)習(xí)加速。

華為云MoXing架構(gòu)圖

易用性方面,上層開發(fā)者僅需關(guān)注業(yè)務(wù)模型,無需關(guān)注下層分布式相關(guān)的API,僅需根據(jù)實際業(yè)務(wù)定義輸入數(shù)據(jù)、模型以及相應(yīng)的優(yōu)化器即可,訓(xùn)練腳本與運行環(huán)境(單機或者分布式)無關(guān),上層業(yè)務(wù)代碼和分布式訓(xùn)練引擎可以做到完全解耦。

兩大指標看MoXing分布式加速關(guān)鍵技術(shù)

在衡量分布式深度學(xué)習(xí)的加速性能時,主要有如下2個重要指標:

  • 吞吐量,即單位時間內(nèi)處理的數(shù)據(jù)量;

  • 收斂時間,即達到一定的收斂精度所需的時間。

吞吐量一般取決于服務(wù)器硬件(如更多、更大FLOPS處理能力的AI加速芯片,更大的通信帶寬等)、數(shù)據(jù)讀取和緩存、數(shù)據(jù)預(yù)處理、模型計算(如卷積算法選擇等)、通信拓撲等方面的優(yōu)化,除了低bit計算和梯度(或參數(shù))壓縮等,大部分技術(shù)在提升吞吐量的同時,不會造成對模型精度的影響。

為了達到最短的收斂時間,需要在優(yōu)化吞吐量的同時,在調(diào)參方面也做調(diào)優(yōu)。如果調(diào)參調(diào)的不好,那么吞吐量有時也很難優(yōu)化上去,例如batch size這個超參不足夠大時,模型訓(xùn)練的并行度就會較差,吞吐量難以通過增加計算節(jié)點個數(shù)而提升。

對用戶而言,最終關(guān)心的指標是收斂時間,因此MoXing和ModelArts實現(xiàn)了全棧優(yōu)化,極大縮短了訓(xùn)練收斂時間。

  • 在數(shù)據(jù)讀取和預(yù)處理方面,MoXing通過利用多級并發(fā)輸入流水線使得數(shù)據(jù)IO不會成為瓶頸;

  • 在模型計算方面,MoXing對上層模型提供半精度和單精度組成的混合精度計算,通過自適應(yīng)的尺度縮放減小由于精度計算帶來的損失;

  • 在超參調(diào)優(yōu)方面,采用動態(tài)超參策略(如momentum、batch size等)使得模型收斂所需epoch個數(shù)降到***;

  • 在底層優(yōu)化方面,MoXing與底層華為自研服務(wù)器和通信計算庫相結(jié)合,使得分布式加速進一步提升。

測試結(jié)果對比

一般在ImageNet數(shù)據(jù)集上訓(xùn)練ResNet-50模型,當Top-5精度≥93%或者Top-1 精度≥75%時即可認為模型收斂。

我們測試的模型訓(xùn)練收斂曲線如下圖所示。此處Top-1和Top-5精度為訓(xùn)練集上的精度,為了達到***的訓(xùn)練速度,訓(xùn)練過程中采用了額外進程對模型進行驗證,最終驗證精度如表1所示(包含與fast.ai的對比)。

圖4(a)所對應(yīng)的模型在驗證集上Top-1 精度≥75%,訓(xùn)練耗時為10分06秒;圖4(b)所對應(yīng)的模型在驗證集上Top-5 精度≥93%,訓(xùn)練耗時為10分58秒。

ResNet50 on ImageNet訓(xùn)練收斂曲線

MoXing與fast.ai的訓(xùn)練結(jié)果對比

未來:更快的普惠AI開發(fā)平臺

華為云ModelArts致力于為用戶提供更快的普惠AI開發(fā)體驗,尤其在模型訓(xùn)練這方面,內(nèi)置的MoXing框架使得深度學(xué)習(xí)模型訓(xùn)練速度有了很大的提升。

正如前所述,深度學(xué)習(xí)加速屬于一個從底層硬件到上層計算引擎、再到更上層的分布式訓(xùn)練框架及其優(yōu)化算法多方面協(xié)同優(yōu)化的結(jié)果,具備全棧優(yōu)化能力才能將用戶訓(xùn)練成本降到***。

后續(xù),華為云ModelArts將進一步整合軟硬一體化的優(yōu)勢,提供從芯片(Ascend)、服務(wù)器(Atlas Server)、計算通信庫(CANN)到深度學(xué)習(xí)引擎(MindSpore)和分布式優(yōu)化框架(MoXing)全棧優(yōu)化的深度學(xué)習(xí)訓(xùn)練平臺。

并且,ModelArts會逐步集成更多的數(shù)據(jù)標注工具,擴大應(yīng)用范圍,將繼續(xù)服務(wù)于智慧城市、智能制造、自動駕駛及其它新興業(yè)務(wù)場景,在公有云上為用戶提供更普惠的AI服務(wù)。

[1] 文中所指的ImageNet數(shù)據(jù)集包含1000類個類別,共128萬張圖片,是最常用、最經(jīng)典的圖像分類數(shù)據(jù)集,是原始的ImageNet數(shù)據(jù)的一個子集。

傳送門

DAWNBenchmark:

https://dawn.cs.stanford.edu/benchmark/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2023-12-08 13:22:00

數(shù)據(jù)模型

2021-04-22 12:43:00

華為云IaaS

2019-03-24 12:11:47

AI 數(shù)據(jù)人工智能

2022-01-11 10:22:26

量子計算芯片超算

2025-03-12 10:38:05

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2019-12-16 14:33:01

AI人工智能斯坦福

2024-09-26 10:23:46

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2024-11-21 08:39:08

2021-03-04 14:50:11

計算機互聯(lián)網(wǎng) 技術(shù)

2017-11-28 14:18:29

2023-05-04 12:32:28

模型研究

2023-07-21 14:47:24

AI訓(xùn)練

2016-09-27 16:06:48

2022-12-31 13:39:48

AI法案

2023-06-25 13:28:21

點贊
收藏

51CTO技術(shù)棧公眾號