自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPU平臺生態(tài)，英偉達CUDA和AMD ROCm對比分析

2023-05-18 07:30:16

商務(wù)辦公

OpenCL 支持細粒度和粗粒度并行編程模型，可根據(jù)應(yīng)用需求選擇合適模型提高性能和效率。而 OpenCL可移植性有限，不同平臺和設(shè)備的功能支持和性能表現(xiàn)存在一定差異，與 CUDA相比缺少廣泛的社區(qū)支持和成熟的生態(tài)圈。?

成熟且完善的平臺生態(tài)是 GPU 廠商的護城河。相較于持續(xù)迭代的微架構(gòu)帶來的技術(shù)壁壘硬實力，成熟的軟件生態(tài)形成的強大用戶粘性將在長時間內(nèi)塑造 GPU廠商的軟實力。以英偉達 CUDA 為例的軟硬件設(shè)計架構(gòu)提供了硬件的直接訪問接口，不必依賴圖形 API 映射，降低 GPGPU 開發(fā)者編譯難度，以此實現(xiàn)高粘性的開發(fā)者生態(tài)。目前主流的開發(fā)平臺還包括 AMD ROCm 以及 OpenCL。

CUDA（Compute Unified Device Architectecture），是 NVIDIA 于 2006 年推出的通用并行計算架構(gòu)，包含 CUDA 指令集架構(gòu)（ISA）和 GPU 內(nèi)部的并行計算引擎。該架構(gòu)允許開發(fā)者使用高級編程語言（例如 C 語言）利用 GPU 硬件的并行計算能力并對計算任務(wù)進行分配和管理，CUDA 提供了一種比 CPU 更有效的解決大規(guī)模數(shù)據(jù)計算問題的方案，在深度學習訓練和推理領(lǐng)域被廣泛使用。

CUDA 除了是并行計算架構(gòu)外，還是 CPU 和 GPU 協(xié)調(diào)工作的通用語言。在CUDA 編程模型中，主要有 Host（主機）和 Device（設(shè)備）兩個概念，Host 包含 CPU 和主機內(nèi)存，Device 包含 GPU 和顯存，兩者之間通過 PCI Express 總線進行數(shù)據(jù)傳輸。在具體的 CUDA 實現(xiàn)中，程序通常劃分為兩部分，在主機上運行的 Host 代碼和在設(shè)備上運行的 Device 代碼。Host 代碼負責程序整體的流程控制和數(shù)據(jù)交換，而 Device 代碼則負責執(zhí)行具體的計算任務(wù)。

一個完整的 CUDA程序是由一系列的設(shè)備端函數(shù)并行部分和主機端的串行處理部分共同組成的，主機和設(shè)備通過這種方式可以高效地協(xié)同工作，實現(xiàn) GPU 的加速計算。

CUDA 在 Host 運行的函數(shù)庫包括了開發(fā)庫（Libraries）、運行時（Runtime）和驅(qū)動（Driver）三大部分。其中，Libraries 提供了一些常見的數(shù)學和科學計算任務(wù)運算庫，Runtime API 提供了便捷的應(yīng)用開發(fā)接口和運行期組件，開發(fā)者可以通過調(diào)用 API 自動管理 GPU 資源，而 Driver API 提供了一系列 C 函數(shù)庫，能更底層、更高效地控制 GPU 資源，但相應(yīng)的開發(fā)者需要手動管理模塊編譯等復(fù)雜任務(wù)。

CUDA 在 Device 上執(zhí)行的函數(shù)為內(nèi)核函數(shù)（Kernel）通常用于并行計算和數(shù)據(jù)處理。在 Kernel 中，并行部分由 K 個不同的 CUDA 線程并行執(zhí)行 K 次，而有別于普通的 C/C++函數(shù)只有 1 次。每一個 CUDA 內(nèi)核都以一個聲明指定器開始，程序員通過使用內(nèi)置變量__global__為每個線程提供一個唯一的全局 ID。一組線程被稱為 CUDA 塊（block）。CUDA 塊被分組為一個網(wǎng)格（grid），一個內(nèi)核以線程塊的網(wǎng)格形式執(zhí)行。每個 CUDA 塊由一個流式多處理器（SM）執(zhí)行，不能遷移到 GPU 中的其他 SM，一個 SM 可以運行多個并發(fā)的 CUDA 塊，取決于CUDA 塊所需的資源，每個內(nèi)核在一個設(shè)備上執(zhí)行，CUDA 支持在一個設(shè)備上同時運行多個內(nèi)核。

豐富而成熟的軟件生態(tài)是 CUDA 被廣泛使用的關(guān)鍵原因。

（1）編程語言：CUDA 從最初的 1.0 版本僅支持 C 語言編程，到現(xiàn)在的 CUDA 12.0 支持 C、C++、Fortran、Python 等多種編程語言。此外，NVIDIA 還支持了如 PyCUDA、ltimesh Hybridizer、OpenACC 等眾多第三方工具鏈，不斷提升開發(fā)者的使用體驗。

（2）庫：NVIDIA 在 CUDA 平臺上提供了名為 CUDA-X 的集合層，開發(fā)人員可以通過 CUDA-X 快速部署如 cuBLA、NPP、NCCL、cuDNN、TensorRT、OpenCV 等多領(lǐng)域常用庫。

（3）其他：NVIDIA 還為 CUDA 開發(fā)人員提供了容器部署流程簡化以及集群環(huán)境擴展應(yīng)用程序的工具，讓應(yīng)用程序更易加速，使得CUDA 技術(shù)能夠適用于更廣泛的領(lǐng)域。

ROCm （Radeon Open Compute Platform ）是 AMD 基于開源項目的 GPU計算生態(tài)系統(tǒng)，類似于 NVIDIA 的 CUDA。ROCm 支持多種編程語言、編譯器、庫和工具，以加速科學計算、人工智能和機器學習等領(lǐng)域的應(yīng)用。ROCm還支持多種加速器廠商和架構(gòu)，提供了開放的可移植性和互操作性。

ROCm 支持HIP（類 CUDA）和 OpenCL 兩種 GPU 編程模型，可實現(xiàn) CUDA 到 ROCm 的遷移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器，包括TensorFlow 1.x、PyTorch 1.8、MXNet 等，同時改進了 ROCm 庫和工具的性能和穩(wěn)定性，包括 MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND 等。

OpenCL（Open Compute Language），是面向異構(gòu)系統(tǒng)通用并行編程、可以在多個平臺和設(shè)備上運行的開放標準。OpenCL 支持多種編程語言和環(huán)境，并提供豐富的工具來幫助開發(fā)和調(diào)試，可以同時利用 CPU、GPU、DSP 等不同類型的加速器來執(zhí)行任務(wù)，并支持數(shù)據(jù)傳輸和同步。

此外，OpenCL 支持細粒度和粗粒度并行編程模型，可根據(jù)應(yīng)用需求選擇合適模型提高性能和效率。而 OpenCL可移植性有限，不同平臺和設(shè)備的功能支持和性能表現(xiàn)存在一定差異，與 CUDA相比缺少廣泛的社區(qū)支持和成熟的生態(tài)圈。

責任編輯：武曉燕來源：架構(gòu)師技術(shù)聯(lián)盟

OpenCL GPU 平臺生態(tài)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="4nl19"></style>