自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

詳解GPU技術(shù)關(guān)鍵參數(shù)和應(yīng)用場景

商務(wù)辦公
隨著云計算,大數(shù)據(jù)和人工智能技術(shù)發(fā)展,邊緣計算發(fā)揮著越來越重要的作用,補充數(shù)據(jù)中心算力需求。計算架構(gòu)要求多樣化,需要不同的CPU架構(gòu)來滿足不斷增長的算力需求,同時需要GPU,NPU和FPGA等技術(shù)加速特定領(lǐng)域的算法和專用計算。以此,不同CPU架構(gòu),不同加速技術(shù)應(yīng)用而生。

[[314754]]

 

隨著云計算,大數(shù)據(jù)和人工智能技術(shù)發(fā)展,邊緣計算發(fā)揮著越來越重要的作用,補充數(shù)據(jù)中心算力需求。計算架構(gòu)要求多樣化,需要不同的CPU架構(gòu)來滿足不斷增長的算力需求,同時需要GPU,NPU和FPGA等技術(shù)加速特定領(lǐng)域的算法和專用計算。以此,不同CPU架構(gòu),不同加速技術(shù)應(yīng)用而生。

 

備注:筆者對算力服務(wù)器相關(guān)知識做了梳理,整理成“數(shù)據(jù)中心服務(wù)器知識全解”電子書,全書共190頁,分18個章節(jié),詳情可通過原文鏈接獲取。

 

理解 GPU 和 CPU 之間區(qū)別的一種簡單方式是比較它們?nèi)绾翁幚砣蝿?wù)。CPU 由專為順序串行處理而優(yōu)化的幾個核心組成,而 GPU 則擁有一個由數(shù)以千計的更小、更高效的核心(專為同時處理多重任務(wù)而設(shè)計)組成的大規(guī)模并行計算架構(gòu)。

 

CPU是一個有多種功能的優(yōu)秀領(lǐng)導(dǎo)者。它的優(yōu)點在于調(diào)度、管理、協(xié)調(diào)能力強,計算能力則位于其次。而GPU相當于一個接受CPU調(diào)度的“擁有大量計算能力”的員工。

 

詳解GPU技術(shù)關(guān)鍵參數(shù)和應(yīng)用場景
 

GPU可以利用多個CUDA核心來做并行計算,而CPU只能按照順序進行串行計算,同樣運行3000次的簡單運算,CPU需要3000個時鐘周期,而配有3000個CUDA核心的GPU運行只需要1個時鐘周期。

 

簡而言之,CPU擅長統(tǒng)領(lǐng)全局等復(fù)雜操作,GPU擅長對大數(shù)據(jù)進行簡單重復(fù)操作。CPU是從事復(fù)雜腦力勞動的教援,而GPU是進行大量并行計算的體力勞動者。那么,GPU的重要參數(shù)有哪些呢?

  • CUDA核心;CUDA核心數(shù)量決定了GPU并行處理的能力,在深度學(xué)習、機器學(xué)習等并行計算類業(yè)務(wù)下,CUDA核心多意味著性能好一些
  • 顯存容量:其主要功能就是暫時儲存GPU要處理的數(shù)據(jù)和處理完畢的數(shù)據(jù)。顯存容量大小決定了GPU能夠加載的數(shù)據(jù)量大小。(在顯存已經(jīng)可以滿足客戶業(yè)務(wù)的情況下,提升顯存不會對業(yè)務(wù)性能帶來大的提升。在深度學(xué)習、機器學(xué)習的訓(xùn)練場景,顯存的大小決定了一次能夠加載訓(xùn)練數(shù)據(jù)的量,在大規(guī)模訓(xùn)練時,顯存會顯得比較重要。
  • 顯存位寬:顯存在一個時鐘周期內(nèi)所能傳送數(shù)據(jù)的位數(shù),位數(shù)越大則瞬間所能傳輸?shù)臄?shù)據(jù)量越大,這是顯存的重要參數(shù)之一。
  • 顯存頻率:一定程度上反應(yīng)著該顯存的速度,以MHz(兆赫茲)為單位,顯存頻率隨著顯存的類型、性能的不同而不同。顯存頻率和位寬決定顯存帶寬。
  • 顯存帶寬:指顯示芯片與顯存之間的數(shù)據(jù)傳輸速率,它以字節(jié)/秒為單位。顯存帶寬是決定顯卡性能和速度最重要的因素之一。
  • 其他指標:除了顯卡通用指標外,NVIDIA還有一些針對特定場景優(yōu)化的指標,例如TsnsoCore、RTCoreRT等能力。例如TensenCore專門用于加速深度學(xué)習中的張量運算。

評估一個顯卡的性能不能單純看某一個指標的性能,而是結(jié)合顯卡的個指標及客戶業(yè)務(wù)需求的綜合性能。

 

GPU是協(xié)處理器,與CPU端存儲是分離的,故GPU運算時必須先將CPU端的代碼和數(shù)據(jù)傳輸?shù)紾PU,GPU才能執(zhí)行kernel函數(shù)。涉及CPU與GPU通信,其中通信接口PCIe的版本和性能會直接影響通信帶寬。

 

GPU的另一個重要參數(shù)是浮點計算能力。浮點計數(shù)是利用浮動小數(shù)點的方式使用不同長度的二進制來表示一個數(shù)字,與之對應(yīng)的是定點數(shù)。同樣的長度下浮點數(shù)能表達的數(shù)字范圍相比定點數(shù)更大,但浮點數(shù)并不能精確表達所有實數(shù),而只能采用更加接近的不同精度來表達。

 

FP32單精度計算

單精度的浮點數(shù)中采用4個字節(jié)也就是32位二進制來表達一個數(shù)字,1位符號,8位指數(shù),23位小數(shù),有效位數(shù)為7位。

詳解GPU技術(shù)關(guān)鍵參數(shù)和應(yīng)用場景
 

FP64雙精度計算

雙精度浮點數(shù)采用8個字節(jié)也就是64位二進制來表達一個數(shù)字,1位符號,11位指數(shù),52位小數(shù),有效位數(shù)為16位。

詳解GPU技術(shù)關(guān)鍵參數(shù)和應(yīng)用場景
 

FP16半精度計算

半精度浮點數(shù)采用2個字節(jié)也就是16位二進制來表達一個數(shù)字, 1位符號、5位指數(shù)、10位小數(shù),有效位數(shù)為3位。

詳解GPU技術(shù)關(guān)鍵參數(shù)和應(yīng)用場景
 

因為采用不同位數(shù)的浮點數(shù)的表達精度不一樣,所以造成的計算誤差也不一樣。

 

對于需要處理的數(shù)字范圍大而且需要精確計算的科學(xué)計算來說,就要求采用雙精度浮點數(shù),例如:計算化學(xué),分子建模,流體動力學(xué)。

 

對于常見的多媒體和圖形處理計算、深度學(xué)習、人工智能等領(lǐng)域,32位的單精度浮點計算已經(jīng)足夠了。

 

對于要求精度更低的機器學(xué)習等一些應(yīng)用來說,半精度16位浮點數(shù)就可以甚至8位浮點數(shù)就已經(jīng)夠用了。

對于浮點計算來說,CPU可以同時支持不同精度的浮點運算,但在GPU里針對單精度和雙精度就需要各自獨立的計算單元,一般在GPU里支持單精度運算的單精度ALU(算術(shù)邏輯單元)稱之為FP32 core,而把用作雙精度運算的雙精度ALU稱之為DP unit或者FP64 core,在Nvidia不同架構(gòu)不同型號的GPU之間,這兩者數(shù)量的比例差異很大。

 

談到GPU,Nvidia是行業(yè)技術(shù)的領(lǐng)先者和技術(shù)奠基者,其產(chǎn)品主要分以下幾個系列,分別面向不同的應(yīng)用類型和用戶群體。

 

 GeForce系列:主要面向3D游戲應(yīng)用的GeForce系列,幾個高端型號分別是GTX1080TI、Titan XP和GTX1080,分別采用最新的Pascal架構(gòu)和Maxwell架構(gòu);最新的型號RTX 2080TI,Turing架構(gòu)。因為面向游戲玩家,對雙精度計算能力沒有需求,出貨量也大,單價相比采用相同架構(gòu)的Tesla系列產(chǎn)品要便宜很多,也經(jīng)常被用于深度學(xué)習、人工智能、計算機視覺等。

 

 Quadro系列:主要面向?qū)I(yè)圖形工作站應(yīng)用,具備強大的數(shù)據(jù)運算與圖形、圖像處理能力。因此常常被用在計算機輔助設(shè)計及制造CAD/CAM、動畫設(shè)計、科學(xué)研究(城市規(guī)劃、地理地質(zhì)勘測、遙感等)、平面圖像處理、模擬仿真等。

 

 GPU加速計算Tesla系列:專用GPU加速計算,Tesla本是第一代產(chǎn)品的架構(gòu)名稱,后來演變成了這個系列產(chǎn)品的名稱了,包括V100、P100、K40/K80、M40/M60等幾個型號。K系列更適合用作HPC科學(xué)計算,M系列則更適合機器學(xué)習用途。

 

Tesla系列高端型號GPU加速器能更快地處理要求超級嚴格的 HPC 與超大規(guī)模數(shù)據(jù)中心的工作負載。從能源探測到深度學(xué)習等應(yīng)用場合,處理速度比使用傳統(tǒng) CPU 快了一個數(shù)量級。

 

• GPU虛擬化系列:Nvidia專門針對虛擬化環(huán)境應(yīng)用設(shè)計GRID GPU產(chǎn)品,該產(chǎn)品采用基于 NVIDIA Kepler 架構(gòu)的 GPU,首次實現(xiàn)了 GPU 的硬件虛擬化。這意味著,多名用戶可以共享單一 GPU。

 

詳解GPU技術(shù)關(guān)鍵參數(shù)和應(yīng)用場景
 

GRID GPU產(chǎn)品主要包含K1和K2兩個型號,同樣采用Kepler架構(gòu),實現(xiàn)了GPU的硬件虛擬化,可以讓多個用戶共享使用同一張GPU卡,適用于對3D性能有要求的VDI或云環(huán)境下多租戶的GPU加速計算場景。

GPU散熱方式分為散熱片和散熱片配合風扇的形式,也叫作主動式散熱和被動式散熱方式。

 

一般一些工作頻率較低的顯卡采用的都是被動式散熱,這種散熱方式就是在顯示芯片上安裝一個散熱片即可,并不需要散熱風扇。因為較低工作頻率的顯卡散熱量并不是很大,沒有必要使用散熱風扇,這樣在保障顯卡穩(wěn)定工作的同時,不僅可以降低成本,而且還能減少使用中的噪音。

 

NVIDIA Tesla Family采用被動散熱、QUADRO Family和GeForce Family采用主動散熱。

NVIDIA GPU架構(gòu)的發(fā)展類似Intel的CPU,針對不同場景和技術(shù)革新,經(jīng)歷了不同架構(gòu)的演進。

 

  • Turing架構(gòu)里,一個SM中擁有64個半精度,64個單精度,8個Tensor core,1個RT core。
  • Kepler架構(gòu)里,F(xiàn)P64單元和FP32單元的比例是1:3或者1:24;K80。
  • Maxwell架構(gòu)里,這個比例下降到了只有1:32;型號M10/M40。
  • Pascal架構(gòu)里,這個比例又提高到了1:2(P100)但低端型號里仍然保持為1:32,型號Tesla P40、GTX 1080TI/Titan XP、Quadro GP100/P6000/P5000
  • Votal架構(gòu)里,F(xiàn)P64單元和FP32單元的比例是1:2;型號有Tesla V100、GeForce TiTan V、Quadro GV100專業(yè)卡。

 

詳解GPU技術(shù)關(guān)鍵參數(shù)和應(yīng)用場景
 

深度學(xué)習是模擬人腦神經(jīng)系統(tǒng)而建立的數(shù)學(xué)網(wǎng)絡(luò)模型,這個模型的最大特點是,需要大數(shù)據(jù)來訓(xùn)練。因此,對電腦處理器的要求,就是需要大量的并行的重復(fù)計算,GPU正好有這個專長,時勢造英雄,因此,GPU就出山擔當重任了。

 

訓(xùn)練:我們可以把深度學(xué)習的訓(xùn)練看成學(xué)習過程。人工神經(jīng)網(wǎng)絡(luò)是分層的、是在層與層之間互相連接的、網(wǎng)絡(luò)中數(shù)據(jù)的傳播是有向的。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候,訓(xùn)練數(shù)據(jù)被輸入到網(wǎng)絡(luò)的第一層。然后所有的神經(jīng)元,都會根據(jù)任務(wù)執(zhí)行的情況,根據(jù)其正確或者錯誤的程度如何,分配一個權(quán)重參數(shù)(權(quán)值)。

 

推理:就是深度學(xué)習把從訓(xùn)練中學(xué)習到的能力應(yīng)用到工作中去。不難想象,沒有訓(xùn)練就沒法實現(xiàn)推斷。我們?nèi)艘彩沁@樣,通過學(xué)習來獲取知識、提高能力。深度神經(jīng)網(wǎng)絡(luò)也是一樣,訓(xùn)練完成后,并不需要其訓(xùn)練時那樣的海量資源。

高性能計算應(yīng)用程序涵蓋了物理、生物科學(xué)、分子動力學(xué)、化學(xué)和天氣預(yù)報等各個領(lǐng)域。也都是通過GPU實現(xiàn)加速的。

 

 

責任編輯:武曉燕 來源: 晗狄技術(shù)觀
相關(guān)推薦

2019-12-30 10:40:31

GPU技術(shù)應(yīng)用

2023-01-28 07:59:24

2019-04-10 15:43:12

SDN場景網(wǎng)絡(luò)架構(gòu)

2021-04-21 09:21:07

zookeeper集群源碼

2024-11-11 15:11:23

2021-08-11 17:15:17

AndroidActivity場景

2018-08-15 09:48:27

數(shù)據(jù)庫Redis應(yīng)用場景

2024-09-19 08:08:25

2023-08-28 16:49:08

物聯(lián)網(wǎng)傳感器

2011-05-17 15:24:18

Shibboleth認證

2023-06-27 13:51:07

FPGA數(shù)據(jù)中心程序

2022-12-15 07:35:04

人工智能語音應(yīng)用場景

2021-08-16 17:15:19

設(shè)計模式Android適配器模式

2015-08-03 13:36:40

Docker技術(shù)優(yōu)勢應(yīng)用場景

2012-10-23 09:32:07

2017-06-01 15:52:40

無線技術(shù)物聯(lián)網(wǎng)WIFI

2023-08-16 08:07:36

2022-02-14 16:23:08

零信任SDP黑客

2023-05-15 08:50:58

ContextGolang

2021-09-02 18:47:02

redis存儲中間件Remote Dict
點贊
收藏

51CTO技術(shù)棧公眾號