CUDA編程模型都改了!英偉達(dá)架構(gòu)師團(tuán)隊(duì)撰文詳解:Hopper為啥這么牛?
?在英偉達(dá)GTC 2022大會(huì)上,老黃更新了服役近兩年的安培微架構(gòu)(Ampere),推出Hopper架構(gòu),并拋出一塊專為超算設(shè)計(jì)、包含800億個(gè)晶體管的顯卡Hopper H100,比老前輩A100顯卡的540億晶體管還要高出不少。
但光看名字和參數(shù)還不夠,Hopper到底牛在哪?
最近英偉達(dá)的架構(gòu)開發(fā)師們發(fā)布了一篇博客,深入講解和分析了Hopper架構(gòu)。文章作者包括英偉達(dá)首席GPU架構(gòu)師Michael Andersch,GPU架構(gòu)組杰出工程師Greg Palmer和Ronny Krashinsky,英偉達(dá)高級(jí)技術(shù)營銷總監(jiān)Nick Stam,高級(jí)開發(fā)技術(shù)工程師Vishal Mehta等核心開發(fā)成員。
Hopper牛在哪?
Hopper架構(gòu)的名字來自Grace Hopper女士,她被譽(yù)為計(jì)算機(jī)軟件工程第一夫人、編譯語言COBOL之母,她是耶魯大學(xué)第一位數(shù)學(xué)女博士、世界上第三位程序員、全球首個(gè)編譯器的發(fā)明者,也是第一位發(fā)現(xiàn)「bug」的人。
基于Hopper架構(gòu)的英偉達(dá)Hopper H100張量核心GPU已經(jīng)是第九代數(shù)據(jù)中心GPU了,相比上一代安培架構(gòu)的A100 GPU,Hopper架構(gòu)明顯強(qiáng)悍了很多,不僅晶體管數(shù)量有明顯提升,制作工藝也從7納米提升到4納米,為大規(guī)模AI和HPC提供了一個(gè)數(shù)量級(jí)的性能飛躍。
同時(shí)H100繼承了A100的主要設(shè)計(jì)重點(diǎn),提升了對(duì)AI和HPC工作負(fù)載的擴(kuò)展能力,并在架構(gòu)效率方面進(jìn)行了大幅改進(jìn)。
對(duì)于當(dāng)今的主流人工智能和高性能計(jì)算模型,帶有InfiniBand互連的H100可提供比A100強(qiáng)30倍的性能。
并且新的NVLink Switch System在針對(duì)一些大型計(jì)算工作負(fù)載任務(wù),比如需要在多個(gè)GPU加速節(jié)點(diǎn)上進(jìn)行模型并行化時(shí),能夠通過互聯(lián)調(diào)整負(fù)載,可以再次提高性能。在某些情況下,性能能夠在使用InfiniBand的H100基礎(chǔ)上再增加兩倍。
可以說H100 GPU專為高性能計(jì)算和超大規(guī)模AI模型加速而生,AI模型的推理速度少說也能提升10倍。
Hopper芯片利用了Arm架構(gòu)的靈活性,是一個(gè)完全重新設(shè)計(jì)、專為加速計(jì)算而設(shè)計(jì)的CPU和服務(wù)器架構(gòu)。H100能夠與英偉達(dá)Grace CPU搭配,借助超快英偉達(dá)chip-to-chip互聯(lián),可以提供高達(dá)900GB/s的總帶寬,比PCIe Gen5還要快7倍。
在TB級(jí)數(shù)據(jù)的高性能計(jì)算下,和世界上最快的服務(wù)器相比,新設(shè)計(jì)能夠提升10倍性能和30倍的總帶寬。
開發(fā)人員總結(jié)了一個(gè)長長的H100 GPU關(guān)鍵新特性列表。
首先H100有一個(gè)新的流式多處理器(SM, streaming multiprocessor),性能和效率都有所提升。
新的第四代張量核心與A100相比,chip-to-chip的性能提升6倍,速度提升主要來自更快的SM,更多的SM數(shù)量,以及H100中更高的時(shí)鐘頻率。在每個(gè)SM上,與上一代16位浮點(diǎn)選項(xiàng)相比,Tensor Cores在同等數(shù)據(jù)類型上的MMA(矩陣乘積)計(jì)算速率是A100 SM的2倍,使用新的FP8數(shù)據(jù)類型的速率是A100的4倍。稀疏性1功能利用了深度學(xué)習(xí)網(wǎng)絡(luò)中的細(xì)粒度結(jié)構(gòu)化稀疏性,使標(biāo)準(zhǔn)張量核心操作的性能提高了一倍。
新的DPX指令對(duì)動(dòng)態(tài)編程算法的加速比A100 GPU高7倍。在基因組學(xué)處理的Smith-Waterman算法,以及用于在動(dòng)態(tài)倉庫環(huán)境中為機(jī)器人車隊(duì)尋找最佳路線的Floyd-Warshall算法上驗(yàn)證后,證實(shí)了性能提升。
與A100相比,IEEE FP64和FP32的處理率在芯片間快了3倍,這是由于每個(gè)SM的clock-for-clock性能快了2倍,加上H100的額外SM數(shù)量和更高的時(shí)鐘。
新的線程塊集群功能能夠以大于單個(gè)SM上的單個(gè)線程塊的顆粒度對(duì)位置性進(jìn)行編程控制。擴(kuò)展了CUDA編程模型,為編程層次增加了一個(gè)層次,現(xiàn)在包括線程、線程塊、線程塊集群和網(wǎng)格。集群使多個(gè)線程塊可以在多個(gè)SM上并發(fā)運(yùn)行,以同步和協(xié)作方式獲取和交換數(shù)據(jù)。
分布式共享內(nèi)存允許在多個(gè)SM共享內(nèi)存塊上進(jìn)行SM到SM的直接通信,用于加載、存儲(chǔ)和原子學(xué)。
新的異步執(zhí)行功能包括一個(gè)新的張量內(nèi)存加速器(TMA)單元,可以在全局內(nèi)存和共享內(nèi)存之間有效地傳輸大型數(shù)據(jù)塊。TMA還支持集群中線程塊之間的異步拷貝。還有一個(gè)新的異步事務(wù)屏障,用于做原子數(shù)據(jù)移動(dòng)和同步。
新的Transformer引擎采用了軟件和定制的英偉達(dá)Hopper Tensor Core技術(shù)的組合,專門用于加速轉(zhuǎn)化器模型的訓(xùn)練和推理。Transformer引擎能夠智能管理并動(dòng)態(tài)選擇FP8和16位計(jì)算,自動(dòng)處理每一層中FP8和16位之間的重鑄和縮放,與上一代A100相比,在大型語言模型上的AI訓(xùn)練速度提升了9倍,AI推理速度提升了30倍。
HBM3內(nèi)存子系統(tǒng)比上一代增加了近2倍的帶寬。H100 SXM5 GPU是世界上第一個(gè)采用HBM3內(nèi)存的GPU,提供領(lǐng)先于同級(jí)別的3TB/秒的內(nèi)存帶寬。
50 MB L2 高速緩存架構(gòu)緩存了大量的模型和數(shù)據(jù)集,在重復(fù)訪問時(shí)減少了對(duì)HBM3的訪問。
與A100相比,第二代多實(shí)例GPU(MIG)技術(shù)為每個(gè)GPU實(shí)例提供了約3倍的計(jì)算能力和近2倍的內(nèi)存帶寬。也是首次提供具有MIG級(jí)TEE的機(jī)密計(jì)算能力。支持多達(dá)七個(gè)獨(dú)立的GPU實(shí)例,每個(gè)實(shí)例都有專用的NVDEC和NVJPG單元。每個(gè)實(shí)例都包括自己的一套性能監(jiān)控器,可與NVIDIA開發(fā)人員工具一起使用。
新的機(jī)密計(jì)算(Confidential Computing)支持可以保護(hù)用戶數(shù)據(jù),抵御硬件和軟件攻擊,并在虛擬化和MIG環(huán)境中更好地隔離和保護(hù)虛擬機(jī)(VM)。H100實(shí)現(xiàn)了世界上第一個(gè)原生機(jī)密計(jì)算GPU,并以全PCIe線速向CPU擴(kuò)展了可信執(zhí)行環(huán)境(TEE)。
第四代NVLink在all-reduce操作上提供了3倍的帶寬,比上一代NVLink增加了50%的通用帶寬,多GPU IO的總帶寬為900 GB/秒,操作帶寬是PCIe第五代的7倍。
第三代NVSwitch技術(shù)包括駐扎在節(jié)點(diǎn)內(nèi)部和外部的交換機(jī),用于連接服務(wù)器、集群和數(shù)據(jù)中心環(huán)境中的多個(gè)GPU。
節(jié)點(diǎn)內(nèi)的每個(gè)NVSwitch提供64個(gè)第四代NVLink鏈接端口,以加速多GPU連接。交換機(jī)的總吞吐量從上一代的7.2 Tbits/秒增加到13.6 Tbits/秒。新的第三代NVSwitch技術(shù)還為多播和NVIDIA SHARP網(wǎng)內(nèi)還原的集體操作提供了硬件加速。
新的NVLink Switch系統(tǒng)互連技術(shù)和基于第三代NVSwitch技術(shù)的新的二級(jí)NVLink Switches引入了地址空間隔離和保護(hù),使多達(dá)32個(gè)節(jié)點(diǎn)或256個(gè)GPU能夠通過NVLink以2:1的錐形樹狀拓?fù)溥B接起來。
這些連接的節(jié)點(diǎn)能夠提供57.6TB/秒的all-to-all帶寬,并能夠提供驚人的FP8稀疏AI計(jì)算的exaFLOP。PCIe Gen 5能夠提供128GB/秒的總帶寬(每個(gè)方向64GB/秒),而第四代PCIe的總帶寬為64GB/秒(每個(gè)方向32GB/秒)。PCIe Gen5使H100能夠與最高性能的x86 CPU和SmartNICs或數(shù)據(jù)處理單元(DPU)連接。
更多技術(shù)細(xì)節(jié)可以訪問原文查看??偠灾?,H100就是更快、更高、更強(qiáng)!(更貴)