GPU平臺(tái)生態(tài):英偉達(dá)CUDA和AMD ROCm對(duì)比分析
成熟且完善的平臺(tái)生態(tài)是 GPU 廠商的護(hù)城河。相較于持續(xù)迭代的微架構(gòu)帶來的技術(shù)壁壘硬實(shí)力,成熟的軟件生態(tài)形成的強(qiáng)大用戶粘性將在長(zhǎng)時(shí)間內(nèi)塑造 GPU廠商的軟實(shí)力。以英偉達(dá) CUDA 為例的軟硬件設(shè)計(jì)架構(gòu)提供了硬件的直接訪問接口,不必依賴圖形 API 映射,降低 GPGPU 開發(fā)者編譯難度,以此實(shí)現(xiàn)高粘性的開發(fā)者生態(tài)。目前主流的開發(fā)平臺(tái)還包括 AMD ROCm 以及 OpenCL。
CUDA(Compute Unified Device Architectecture),是 NVIDIA 于 2006 年推出的通用并行計(jì)算架構(gòu),包含 CUDA 指令集架構(gòu)(ISA)和 GPU 內(nèi)部的并行計(jì)算引擎。該架構(gòu)允許開發(fā)者使用高級(jí)編程語(yǔ)言(例如 C 語(yǔ)言)利用 GPU 硬件的并行計(jì)算能力并對(duì)計(jì)算任務(wù)進(jìn)行分配和管理,CUDA 提供了一種比 CPU 更有效的解決大規(guī)模數(shù)據(jù)計(jì)算問題的方案,在深度學(xué)習(xí)訓(xùn)練和推理領(lǐng)域被廣泛使用。
CUDA 除了是并行計(jì)算架構(gòu)外,還是 CPU 和 GPU 協(xié)調(diào)工作的通用語(yǔ)言。在CUDA 編程模型中,主要有 Host(主機(jī))和 Device(設(shè)備)兩個(gè)概念,Host 包含 CPU 和主機(jī)內(nèi)存,Device 包含 GPU 和顯存,兩者之間通過 PCI Express 總線進(jìn)行數(shù)據(jù)傳輸。在具體的 CUDA 實(shí)現(xiàn)中,程序通常劃分為兩部分,在主機(jī)上運(yùn)行的 Host 代碼和在設(shè)備上運(yùn)行的 Device 代碼。Host 代碼負(fù)責(zé)程序整體的流程控制和數(shù)據(jù)交換,而 Device 代碼則負(fù)責(zé)執(zhí)行具體的計(jì)算任務(wù)。
一個(gè)完整的 CUDA程序是由一系列的設(shè)備端函數(shù)并行部分和主機(jī)端的串行處理部分共同組成的,主機(jī)和設(shè)備通過這種方式可以高效地協(xié)同工作,實(shí)現(xiàn) GPU 的加速計(jì)算。
CUDA 在 Host 運(yùn)行的函數(shù)庫(kù)包括了開發(fā)庫(kù)(Libraries)、運(yùn)行時(shí)(Runtime)和驅(qū)動(dòng)(Driver)三大部分。其中,Libraries 提供了一些常見的數(shù)學(xué)和科學(xué)計(jì)算任務(wù)運(yùn)算庫(kù),Runtime API 提供了便捷的應(yīng)用開發(fā)接口和運(yùn)行期組件,開發(fā)者可以通過調(diào)用 API 自動(dòng)管理 GPU 資源,而 Driver API 提供了一系列 C 函數(shù)庫(kù),能更底層、更高效地控制 GPU 資源,但相應(yīng)的開發(fā)者需要手動(dòng)管理模塊編譯等復(fù)雜任務(wù)。
CUDA 在 Device 上執(zhí)行的函數(shù)為內(nèi)核函數(shù)(Kernel)通常用于并行計(jì)算和數(shù)據(jù)處理。在 Kernel 中,并行部分由 K 個(gè)不同的 CUDA 線程并行執(zhí)行 K 次,而有別于普通的 C/C++函數(shù)只有 1 次。每一個(gè) CUDA 內(nèi)核都以一個(gè)聲明指定器開始,程序員通過使用內(nèi)置變量__global__為每個(gè)線程提供一個(gè)唯一的全局 ID。一組線程被稱為 CUDA 塊(block)。CUDA 塊被分組為一個(gè)網(wǎng)格(grid),一個(gè)內(nèi)核以線程塊的網(wǎng)格形式執(zhí)行。每個(gè) CUDA 塊由一個(gè)流式多處理器(SM)執(zhí)行,不能遷移到 GPU 中的其他 SM,一個(gè) SM 可以運(yùn)行多個(gè)并發(fā)的 CUDA 塊,取決于CUDA 塊所需的資源,每個(gè)內(nèi)核在一個(gè)設(shè)備上執(zhí)行,CUDA 支持在一個(gè)設(shè)備上同時(shí)運(yùn)行多個(gè)內(nèi)核。
豐富而成熟的軟件生態(tài)是 CUDA 被廣泛使用的關(guān)鍵原因。
(1)編程語(yǔ)言:CUDA 從最初的 1.0 版本僅支持 C 語(yǔ)言編程,到現(xiàn)在的 CUDA 12.0 支持 C、C++、Fortran、Python 等多種編程語(yǔ)言。此外,NVIDIA 還支持了如 PyCUDA、ltimesh Hybridizer、OpenACC 等眾多第三方工具鏈,不斷提升開發(fā)者的使用體驗(yàn)。
(2)庫(kù):NVIDIA 在 CUDA 平臺(tái)上提供了名為 CUDA-X 的集合層,開發(fā)人員可以通過 CUDA-X 快速部署如 cuBLA、NPP、NCCL、cuDNN、TensorRT、OpenCV 等多領(lǐng)域常用庫(kù)。
(3)其他:NVIDIA 還為 CUDA 開發(fā)人員提供了容器部署流程簡(jiǎn)化以及集群環(huán)境擴(kuò)展應(yīng)用程序的工具,讓應(yīng)用程序更易加速,使得CUDA 技術(shù)能夠適用于更廣泛的領(lǐng)域。
ROCm (Radeon Open Compute Platform )是 AMD 基于開源項(xiàng)目的 GPU計(jì)算生態(tài)系統(tǒng),類似于 NVIDIA 的 CUDA。ROCm 支持多種編程語(yǔ)言、編譯器、庫(kù)和工具,以加速科學(xué)計(jì)算、人工智能和機(jī)器學(xué)習(xí)等領(lǐng)域的應(yīng)用。ROCm還支持多種加速器廠商和架構(gòu),提供了開放的可移植性和互操作性。
ROCm 支持HIP(類 CUDA)和 OpenCL 兩種 GPU 編程模型,可實(shí)現(xiàn) CUDA 到 ROCm 的遷移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器,包括TensorFlow 1.x、PyTorch 1.8、MXNet 等,同時(shí)改進(jìn)了 ROCm 庫(kù)和工具的性能和穩(wěn)定性,包括 MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND 等。
OpenCL(Open Compute Language),是面向異構(gòu)系統(tǒng)通用并行編程、可以在多個(gè)平臺(tái)和設(shè)備上運(yùn)行的開放標(biāo)準(zhǔn)。OpenCL 支持多種編程語(yǔ)言和環(huán)境,并提供豐富的工具來幫助開發(fā)和調(diào)試,可以同時(shí)利用 CPU、GPU、DSP 等不同類型的加速器來執(zhí)行任務(wù),并支持?jǐn)?shù)據(jù)傳輸和同步。
此外,OpenCL 支持細(xì)粒度和粗粒度并行編程模型,可根據(jù)應(yīng)用需求選擇合適模型提高性能和效率。而 OpenCL可移植性有限,不同平臺(tái)和設(shè)備的功能支持和性能表現(xiàn)存在一定差異,與 CUDA相比缺少?gòu)V泛的社區(qū)支持和成熟的生態(tài)圈。