自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

人工智能 深度學(xué)習(xí)
GPU、TPU、CPU 都可以用于深度學(xué)習(xí)模型的訓(xùn)練,那么這幾個平臺各適用于哪種模型,又各有哪些瓶頸?在本文中,來自哈佛的研究者設(shè)計(jì)了一個用于深度學(xué)習(xí)的參數(shù)化基準(zhǔn)測試套件——ParaDnn,旨在系統(tǒng)地對這些深度學(xué)習(xí)平臺進(jìn)行基準(zhǔn)測試。

 GPU、TPU、CPU 都可以用于深度學(xué)習(xí)模型的訓(xùn)練,那么這幾個平臺各適用于哪種模型,又各有哪些瓶頸?在本文中,來自哈佛的研究者設(shè)計(jì)了一個用于深度學(xué)習(xí)的參數(shù)化基準(zhǔn)測試套件——ParaDnn,旨在系統(tǒng)地對這些深度學(xué)習(xí)平臺進(jìn)行基準(zhǔn)測試。

[[275723]]

ParaDnn 能夠?yàn)槿B接(FC)、卷積(CNN)和循環(huán)(RNN)神經(jīng)網(wǎng)絡(luò)生成端到端的模型。研究者使用 6 個實(shí)際模型對谷歌的云 TPU v2/v3、英偉達(dá)的 V100 GPU、以及英特爾的 Skylake CPU 平臺進(jìn)行了基準(zhǔn)測試。他們深入研究了 TPU 的架構(gòu),揭示了它的瓶頸,并重點(diǎn)介紹了能夠用于未來專業(yè)系統(tǒng)設(shè)計(jì)的寶貴經(jīng)驗(yàn)。他們還提供了平臺的全面對比,發(fā)現(xiàn)每個平臺對某些類型的模型都有自己獨(dú)特的優(yōu)勢。最后,他們量化了專用的軟件堆棧對 TPU 和 GPU 平臺提供的快速性能改進(jìn)。

  • 論文:Benchmarking TPU, GPU, and CPU Platforms for Deep Learning
  • 論文鏈接:https://arxiv.org/pdf/1907.10701.pdf

常用硬件及基準(zhǔn)都有啥

TPU v2 發(fā)布于 2017 年 5 月,它是一款定制的專用集成電路(ASIC)。每個 TPU v2 設(shè)備能夠在單板上提供 180 TFLOPS 的峰值算力。一年之后 TPU v3 發(fā)布,它將峰值性能提高到了 420 TFLOPS。云 TPU 于 2018 年 2 月開始提供學(xué)術(shù)訪問權(quán)限。這篇論文中使用的就是云 TPU。

英偉達(dá)的 Tesla V100 Tensor Core 是一塊具有 Volta 架構(gòu)的 GPU,于 2017 年發(fā)布。

CPU 已經(jīng)被證明在某些特定的用例中會更加適合訓(xùn)練,因此它也是一個重要的平臺,應(yīng)該被包含在比較內(nèi)容中。

這項(xiàng)研究表明,沒有一個平臺在所有的場景中是最佳的?;谒鼈兏髯缘奶攸c(diǎn),不同的平臺能夠?yàn)椴煌哪P吞峁﹥?yōu)勢。此外,由于深度學(xué)習(xí)模型的快速改進(jìn)和變化,基準(zhǔn)測試也必須持續(xù)更新并經(jīng)常進(jìn)行。

最近的基準(zhǔn)測試似乎都局限于任意的幾個 DNN 模型。只盯著著名的 ResNet50 和 Transformer 等模型可能會得到誤導(dǎo)性的結(jié)論。例如,Transformer 是一個大型的全連接模型,它在 TPU 上的訓(xùn)練速度比在 GPU 上快了 3.5 倍;但是,關(guān)注這一個模型并不能揭示 TPU 在超過 4000 個節(jié)點(diǎn)的全連接網(wǎng)絡(luò)上出現(xiàn)的嚴(yán)重的內(nèi)存帶寬瓶頸。這凸顯了為某些模型去過度優(yōu)化硬件和(或)編譯器的風(fēng)險(xiǎn)。

新一代硬件基準(zhǔn)測試

為了對最先進(jìn)的深度學(xué)習(xí)平臺進(jìn)行基準(zhǔn)測試,這篇論文提出了一個用于訓(xùn)練的深度學(xué)習(xí)模型集合。為了支持廣泛和全面的基準(zhǔn)測試研究,研究者引入了 ParaDnn 這一參數(shù)化的深度學(xué)習(xí)基準(zhǔn)測試組件。ParaDnn 能夠無縫地生成數(shù)千個參數(shù)化的多層模型,這些模型由全連接(FC)模型、卷積神經(jīng)網(wǎng)絡(luò)(CNN)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)組成。ParaDnn 允許對參數(shù)規(guī)模在近乎 6 個數(shù)量級的模型上進(jìn)行系統(tǒng)基準(zhǔn)測試,這已經(jīng)超越了現(xiàn)有的基準(zhǔn)測試的范圍。

研究者將這些參數(shù)化模型與 6 個現(xiàn)實(shí)模型結(jié)合起來,作為廣泛模型范圍內(nèi)的獨(dú)特點(diǎn),以提供對硬件平臺的全面基準(zhǔn)測試。表 1 總結(jié)了本文中描述的十 14 個觀察結(jié)果和見解,這些觀察和見解可以為未來的特定領(lǐng)域架構(gòu)、系統(tǒng)和軟件設(shè)計(jì)提供啟發(fā)信息。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

表 1:本文部分分組的主要觀察和見解總結(jié)

研究者特意標(biāo)記了通過 ParaDnn 得到的見解。他們從論文第 4 部分開始對 TPU v2 和 v3 的架構(gòu)進(jìn)行深入探討,揭示了算力中的架構(gòu)瓶頸、內(nèi)存帶寬、多片負(fù)載以及設(shè)備-主機(jī)平衡(第 1 到 5 個觀察)。論文第五部分提供了 TPU 和 GPU 性能的全面比較,突出了這兩個平臺的重要區(qū)別(第 6 到第 11 個觀察)。最后的 3 個觀察在論文第六部分有詳細(xì)描述,探討了專用軟件堆棧和量化數(shù)據(jù)類型帶來的性能改進(jìn)。

明確本研究的局限性非常重要。這篇論文著重研究了目前的架構(gòu)和系統(tǒng)設(shè)計(jì)中可以優(yōu)化的可能性,因?yàn)樗鼈優(yōu)槲磥淼脑O(shè)計(jì)提供了寶貴的經(jīng)驗(yàn)。優(yōu)化的細(xì)節(jié)不屬于本文的研究范圍。例如,本文的分析只聚焦于訓(xùn)練而不是推理。作者沒有研究多 GPU 平臺或 256 節(jié)點(diǎn) TPU 系統(tǒng)的性能,二者可能會導(dǎo)致不同的結(jié)論。

深度學(xué)習(xí)基準(zhǔn)測試

深度學(xué)習(xí)(DL)最近的成功驅(qū)動了關(guān)于基準(zhǔn)測試組件的研究?,F(xiàn)有的組件主要有兩種類型:一是像 MLPerf,、Fathom、BenchNN、以及 BenchIP 這種實(shí)際的基準(zhǔn)測試;二是 DeepBench、BenchIP 這類微基準(zhǔn)測試,但是它們都有一定的局限。

這些組件僅包含今天已有的深度學(xué)習(xí)模型,隨著深度學(xué)習(xí)模型的快速發(fā)展,這些模型可能會過時。而且,它們沒有揭示深度學(xué)習(xí)模型屬性和硬件平臺性能之間的深刻見解,因?yàn)榛鶞?zhǔn)測試只是巨大的深度學(xué)習(xí)空間中的稀疏點(diǎn)而已。

ParaDnn 對這項(xiàng)研究現(xiàn)有的基準(zhǔn)測試組件做出了補(bǔ)充,它具有以上這些方法的優(yōu)點(diǎn),目標(biāo)是提供「端到端」的、能夠涵蓋現(xiàn)有以及未來應(yīng)用的模型,并且將模型參數(shù)化,以探索一個更大的深度神經(jīng)網(wǎng)絡(luò)屬性的設(shè)計(jì)空間。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 1:這篇文章中所有負(fù)載的可訓(xùn)練參數(shù)的數(shù)量。ParaDnn 中的模型參數(shù)范圍在 1 萬到接近十億之間,如圖所示,它要比實(shí)際模型的參數(shù)范圍更大,如圖中的點(diǎn)所示。

硬件平臺

作者對硬件平臺的選擇反映了在論文提交時,云平臺上廣泛可用的最新配置。模型的詳細(xì)指標(biāo)在表 3 中。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

表 3:作為研究對象的硬件平臺

實(shí)驗(yàn)圖表

圖 2(a)–(c) 表明,這三種方法的 FLOPS 利用率是隨著 batch size 的增大而增大的。除此之外,全連接網(wǎng)絡(luò)的 FLOPS 利用率隨著每層節(jié)點(diǎn)數(shù)的增加而增大(圖 2(a));卷積神經(jīng)網(wǎng)絡(luò)的 FLOPS 利用率隨著濾波器的增加而增大,循環(huán)神經(jīng)網(wǎng)絡(luò)的 FLOPS 利用率隨著嵌入尺寸的增大而增大。圖 2(a)–(c) 中的 x 軸和 y 軸是圖 2(d)–(f) 中具有最大絕對值的超參數(shù)。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 2:FLOPS 的利用率及其與超參數(shù)的相關(guān)性。(a)–(c) 表示參數(shù)化模型的 FLOPS 利用率。(d)–(f) 使用線性回歸權(quán)重量化了模型超參數(shù)對 FLOPS 利用率的影響。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 3:全連接網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)在 TPU 上的 Roofline。矩陣相乘(MatMul)運(yùn)算的負(fù)載是計(jì)算密集型的。即使是 Transformer 和 ResNet-50 這樣的計(jì)算密集型模型也具有 10% 以上的內(nèi)存限制運(yùn)算。(a) 和 (c) 展示了參數(shù)化模型和實(shí)際模型的 roofline。(b) 和 (d) 展示了運(yùn)算的分解。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 4:多片系統(tǒng)中的通信開銷是不能忽略的,但是它會隨著 batch size 的增大而減小。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 5:FLOPS 利用率(頂部)和使用 float32 和 bfloat16 的實(shí)際模型在具有以及沒有數(shù)據(jù)準(zhǔn)備情況下的喂料時間(設(shè)備等待數(shù)據(jù)的時間)(底部)。具有較大喂料時間百分比的模型(例如 RetinaNet 和 SqueezeNet)會受到數(shù)據(jù)喂入的限制。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 6:(a) 是 TPU v3 在運(yùn)行端到端模型時與 v2 相比的加速比。(b) 和 (c) 是全連接和卷積神經(jīng)網(wǎng)絡(luò)的加速比。TPU v3 更大的內(nèi)存支持兩倍的 batch size,所以如果它們具有更大的 batch size,內(nèi)存受限的運(yùn)算會具獲得三倍加速,如果沒有更大的 batch size,則是 1.5 倍的加速。在 v3 上計(jì)算受限的運(yùn)算擁有 2.3 倍的加速。紅色的線 (75 Ops/Byte) 是 TPU v2 的 roofline 的拐點(diǎn)。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 7:具有固定層(64)的全連接模型的 Examples/second(樣本/秒)。Examples/second 隨著節(jié)點(diǎn)的增多而減小,隨著 batch size 的增大而增大。白色方塊表示模型遇到了內(nèi)存不足的問題。CPU 平臺運(yùn)行最大的模型,因?yàn)樗哂凶畲蟮膬?nèi)存。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 8:具有大 batch size 的小型全連接模型更偏好 TPU,具有小 batch size 的大型模型更加偏好 GPU,這意味著收縮陣列對大型矩陣更好,在 GPU 上對小型矩陣做變換更加靈活。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 9:相比于 CPU,具有大 batch size 的大型全連接模型更適合 GPU,因?yàn)?CPU 的架構(gòu)能夠更好地利用額外的并行。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 10:(a)–(c):對大型卷積神經(jīng)網(wǎng)絡(luò)而言,TPU 是比 GPU 更好的選擇,這意味著 TPU 是對卷積神經(jīng)網(wǎng)絡(luò)做了高度優(yōu)化的。(d)–(e):盡管 TPU 對 RNN 是更好的選擇,但是對于嵌入向量的計(jì)算,它并不像 GPU 一樣靈活。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 11:(頂部)在所有的負(fù)載上 TPU 相對 GPU 的加速比。需要注意的是,實(shí)際負(fù)載在 TPU 上會使用比 GPU 上更大的 batch size。ResNet-50 的英偉達(dá) GPU 版本來自于文獻(xiàn) [9]。(底部)所有平臺的 FLOPS 利用率對比。

 

TPU、GPU、CPU深度學(xué)習(xí)平臺哪家強(qiáng)?有人做了一個基準(zhǔn)測試研究

 

圖 12:(a)TPU 性能隨著 TensorFlow 版本更新發(fā)生的變化。所有的 ParaDnn 模型都有提升:Transformer, RetinaNet, 和 ResNet-50 提升穩(wěn)定。(b)CUDA 和 TF 的不同版本上 GPU 的加速比。CUDA 9.2 對卷積神經(jīng)網(wǎng)絡(luò)的提升要比其他 ParaDnn 模型更多,對 ResNet-50 的提升要比其他實(shí)際模型更多。CUDA 10 沒有提升 RNN 和 SqueezeNet。

責(zé)任編輯:武曉燕 來源: 今日頭條
相關(guān)推薦

2024-02-28 18:22:13

AI處理器

2020-09-16 11:20:03

流計(jì)算基準(zhǔn)測試

2024-09-09 04:00:00

GPU人工智能

2021-01-05 08:23:20

CPUGPUTPU

2018-11-13 13:10:10

CPUGPUTPU

2019-08-21 09:24:45

GPUCPU深度學(xué)習(xí)

2024-09-12 22:45:47

2014-10-23 17:36:19

百度

2014-10-13 15:17:59

代碼托管

2019-05-10 08:43:05

CPUGPUNPU

2019-09-11 15:38:15

CPUGPUNPU

2014-11-12 13:37:57

可穿戴設(shè)備英特爾

2017-06-22 09:45:58

阿里云GN5實(shí)例深度學(xué)習(xí)

2020-02-22 12:37:38

WindowsMac微軟

2025-01-06 06:10:00

開源.NEThttps://mp

2020-04-02 13:58:11

浪潮存儲SPC-1

2016-11-21 17:27:04

Android 推送

2022-05-06 12:13:55

模型AI

2017-01-20 13:58:31

英特爾GPUCPU

2023-10-20 09:49:46

AI技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號