自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="fz8m9"><rt id="fz8m9"></rt></sup>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

英偉達(dá)神秘「變形」GPU曝光！5nm工藝，兩種形態(tài)隨心變

作者：佚名 2021-12-29 14:37:35

英偉達(dá)似乎把明年要發(fā)的新GPU提前自曝了！一個(gè)出現(xiàn)在論文里的神秘顯卡GPU-N有著779TFLOPs的FP16性能，是A100的2.5倍。非常接近傳聞中比A100強(qiáng)3倍的下一代Hopper GH100。

近日，在英偉達(dá)團(tuán)隊(duì)發(fā)表的新論文中提到了一個(gè)神秘的顯卡：GPU-N。

據(jù)網(wǎng)友推測(cè)，這很可能就是下一代Hopper GH100芯片的內(nèi)部代號(hào)。

英偉達(dá)神秘「變形」GPU曝光！5nm工藝，兩種形態(tài)隨心變

https://dl.acm.org/doi/10.1145/3484505

英偉達(dá)在這篇「GPU Domain Specialization via Composable On-Package Architecture」（通過可組合式封裝架構(gòu)實(shí)現(xiàn)GPU領(lǐng)域的專業(yè)化）的論文中，談到了下一代GPU設(shè)計(jì)。

研究人員認(rèn)為，當(dāng)前要想提升深度學(xué)習(xí)性能，最實(shí)用的解決方案應(yīng)該是最大限度地提高低精度矩陣計(jì)算的吞吐量。

簡(jiǎn)單來說，GPU-N有134個(gè)SM單元（A100中為104個(gè)SM）；8576個(gè)CUDA核心（比A100多24%）；60MB的二級(jí)緩存（比A100多50%）；2.687TB/秒的DRAM帶寬（可擴(kuò)展至6.3TB/秒）；高達(dá)100GB的HBM2e（通過COPA實(shí)現(xiàn)可擴(kuò)展到233GB），以及6144位內(nèi)存總線。

全新COPA-GPU架構(gòu)

「GPU-N」采用了一種叫COPA的設(shè)計(jì)。

目前，當(dāng)GPU以擴(kuò)大其低精度矩陣計(jì)算吞吐量的方式來提高深度學(xué)習(xí)（DL）性能時(shí)，吞吐量和存儲(chǔ)系統(tǒng)能力之間的平衡會(huì)被打破。

英偉達(dá)團(tuán)隊(duì)最終得出一個(gè)結(jié)論，基于FP32（或更大）的HPC和基于FP16（或更?。┑腄L，兩者的工作負(fù)載是不一樣的。那么，運(yùn)行兩種任務(wù)的GPU架構(gòu)也不應(yīng)該完全一樣。

而如果非得要求GPU滿足不同的架構(gòu)要求，去做一個(gè)融合設(shè)計(jì)，會(huì)導(dǎo)致任何一個(gè)應(yīng)用領(lǐng)域的配置都不是最優(yōu)的。

因此，可以給每個(gè)領(lǐng)域提供專用的GPU產(chǎn)品的可組合的（COPA-GPU）架構(gòu)是解決這些不同需求的最實(shí)用的方案。

COPA-GPU利用多芯片模塊分解，可以做到最大限度地支持GPU模塊復(fù)用，以及每個(gè)應(yīng)用領(lǐng)域的內(nèi)存系統(tǒng)定制化。

英偉達(dá)神秘「變形」GPU曝光！5nm工藝，兩種形態(tài)隨心變

英偉達(dá)表示，COPA-GPU可以通過對(duì)基線GPU架構(gòu)進(jìn)行模塊化增強(qiáng)，使其具有高達(dá)4倍的片外帶寬、32倍的包內(nèi)緩存和2.3倍的DRAM帶寬和容量，同時(shí)支持面向HPC的縮減設(shè)計(jì)和面向DL的專業(yè)化產(chǎn)品。

這項(xiàng)工作探索了實(shí)現(xiàn)可組合的GPU所必需的微架構(gòu)設(shè)計(jì)，并評(píng)估了可組合架構(gòu)為HPC、DL訓(xùn)練和DL推理提供的性能增益。

實(shí)驗(yàn)表明，與一個(gè)融合的GPU設(shè)計(jì)相比，一個(gè)對(duì)DL任務(wù)進(jìn)行過優(yōu)化的COPA-GPU具有16倍大的緩存容量和1.6倍高的DRAM帶寬。

每個(gè)GPU的訓(xùn)練和推理性能分別提高了31%和35%，并在擴(kuò)展的訓(xùn)練場(chǎng)景中減少了50%的GPU使用數(shù)量。

英偉達(dá)神秘「變形」GPU曝光！5nm工藝，兩種形態(tài)隨心變

從紙面上的性能來看，「GPU-N」的時(shí)鐘頻率為1.4GHz（與A100的理論值相同），可以達(dá)到24.2 TFLOPs的FP32（是A100的1.24倍）和779 TFLOPs的FP16（是A100的2.5倍）。

與AMD的MI200相比，GPU-N的FP32的性能還不到一半（95.7 TFLOPs vs 24.2 TFLOPs），但GPU-N的FP16的性能卻高出2.15倍（383TFLOPs vs 779TFLOPs）。

根據(jù)以往的信息可以推斷，NVIDIA的H100加速器將基于MCM解決方案，并且會(huì)基于臺(tái)積電的5nm工藝。

雖然不知道每個(gè)SM中的核心數(shù)量，但如果依然保持64個(gè)的話，那么最終就會(huì)有18,432個(gè)核心，比GA100多2.25倍。

Hopper還可以利用更多的FP64、FP16和Tensor內(nèi)核，這將極大地提高性能。

GH100很可能會(huì)在每個(gè)GPU模塊上啟用144個(gè)SM單元中的134個(gè)。但是，如果不使用GPU稀疏性，英偉達(dá)不太可能達(dá)到與MI200相同的FP32或FP64 Flops。

此外，論文中還談到了兩種基于下一代架構(gòu)的領(lǐng)域?qū)Ｓ肅OPA-GPU，一種用于HPC，一種用于DL領(lǐng)域。

HPC變體采用的是非常標(biāo)準(zhǔn)的設(shè)計(jì)方案，包括MCM GPU設(shè)計(jì)和各自的HBM/MC+HBM（IO）芯片，但DL變體真的是一個(gè)很特殊的設(shè)計(jì)。

DL變體在一個(gè)完全獨(dú)立的芯片上安裝了一個(gè)巨大的緩存，與GPU模塊相互連接。具有高達(dá)960/1920 MB的LLC（Last-Level-Cache），HBM2e DRAM容量也高達(dá)233GB，帶寬高達(dá)6.3TB/s。

但是網(wǎng)友表示，英偉達(dá)似乎已經(jīng)決定將重點(diǎn)放在DL性能上，因?yàn)镕P32和FP64（HPC）性能的增長(zhǎng)僅僅是來源于SM數(shù)量的增加。

這很可能在最后達(dá)不到傳聞中的3倍性能。

鑒于英偉達(dá)已經(jīng)發(fā)布了相關(guān)的信息，Hopper顯卡很可能會(huì)在2022年GTC的大會(huì)上亮相。

規(guī)格預(yù)測(cè)

責(zé)任編輯：張燕妮來源：新智元

英偉達(dá)GPU 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="qvnwc"></cite>