自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ASIC王者爭(zhēng)霸:谷歌TPU,英特爾Gaudi

商務(wù)辦公
RDMA技術(shù)用于芯片互聯(lián),大幅提升并行處理能力。RDMA是一種遠(yuǎn)端內(nèi)存直接訪問(wèn)技術(shù),具有高速、超低延遲和極低CPU使用率的特點(diǎn)。

頭部廠商紛紛切入AI ASIC領(lǐng)域,技術(shù)路徑不同。谷歌15年發(fā)布第一代TPU(ASIC)產(chǎn)品,TPU產(chǎn)品持續(xù)迭代升級(jí);英特爾19年收購(gòu)人工智能芯片公司Habana Labs,22年發(fā)布AI ASIC芯片Gaudi 2,性能表現(xiàn)出色;IBM研究院22年底發(fā)布AI ASIC芯片AIU,有望23年上市;三星第一代AIASIC芯片Warboy NPU芯片已于近日量產(chǎn)。

頭部廠商紛紛切入 AI ASIC領(lǐng)域,看好ASIC在人工智能領(lǐng)域的長(zhǎng)期成長(zhǎng)性。

谷歌:谷歌為AI ASIC芯片的先驅(qū),于15年發(fā)布第一代TPU(ASIC)產(chǎn)品,大幅提升AI推理的性能;17年發(fā)布TPU v2,在芯片設(shè)計(jì)層面,進(jìn)行大規(guī)模架構(gòu)更新,使其同時(shí)具備AI推理和AI訓(xùn)練的能力;谷歌TPU產(chǎn)品持續(xù)迭代升級(jí),21年發(fā)布TPU v4,采用7nm工藝,峰值算力達(dá)275TFLOPS,性能表現(xiàn)全球領(lǐng)先。

英特爾:19年底收購(gòu)以色列人工智能芯片公司Habana Labs,22年發(fā)布Gaudi 2 ASIC芯片。從架構(gòu)來(lái)看,Gaudi架構(gòu)擁有雙計(jì)算引擎(MME和TPC),可以實(shí)現(xiàn)MME和TPC并行計(jì)算,大幅提升計(jì)算效率;同時(shí),其將RDMA技術(shù)應(yīng)用于芯片互聯(lián),大幅提升AI集群的并行處理能力;從性能來(lái)看,Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓(xùn)練吞吐量?jī)?yōu)于英偉達(dá)A100,性能表現(xiàn)優(yōu)異。

頭部廠商紛紛切入AI ASIC領(lǐng)域,技術(shù)路徑不同。本文內(nèi)容來(lái)自“GPT-5后NLP大模型逐步走向收斂,ASIC將大有可為”,詳細(xì)介紹谷歌——全球AI ASIC先驅(qū),TPU產(chǎn)品持續(xù)迭代,以及英特爾——收購(gòu)Habana Lab,Gaudi 2性能表現(xiàn)出色。

1、ASIC具有性能高、體積小、功率低等特點(diǎn)

ASIC具有性能高、體積小、功率低等特點(diǎn)。AI芯片指專門用于運(yùn)行人工智能算法且做了優(yōu)化設(shè)計(jì)的芯片,為滿足不同場(chǎng)景下的人工智能應(yīng)用需求,AI芯片逐漸表現(xiàn)出專用性、多樣性的特點(diǎn)。根據(jù)設(shè)計(jì)需求,AI芯片主要分為中央處理器(CPU)、圖形處理器(GPU)、現(xiàn)場(chǎng)可編程邏輯門陣列(FPGA)、專用集成電路(ASIC)等,相比于其他AI芯片,ASIC具有性能高、體積小、功率低等特點(diǎn)。

CPU->GPU->ASIC,ASIC成為AI芯片重要分支。

1)CPU階段:尚未出現(xiàn)突破性的AI算法,且能獲取的數(shù)據(jù)較為有限,傳統(tǒng)CPU可滿足算力要求;

2)GPU階段:2006年英偉達(dá)發(fā)布CUDA架構(gòu),第一次讓GPU具備了可編程性,GPU開始大規(guī)模應(yīng)用于AI領(lǐng)域;

3)ASIC階段:2016年,Google發(fā)布TPU芯片(ASIC類),ASIC克服了GPU價(jià)格昂貴、功耗高的缺點(diǎn),ASIC芯片開始逐步應(yīng)用于AI領(lǐng)域,成為AI芯片的重要分支。

圖片

ASIC芯片在推理領(lǐng)域具有明顯優(yōu)勢(shì),有望在該領(lǐng)域率先出現(xiàn)爆品。根據(jù)CSET數(shù)據(jù),ASIC芯片在推理領(lǐng)域優(yōu)勢(shì)明顯,其效率和速度約為CPU的100-1000倍,相較于GPU和FPGA具備顯著競(jìng)爭(zhēng)力。盡管ASIC芯片同樣可以應(yīng)用于訓(xùn)練領(lǐng)域(例如TPU v2、v3、v4),但我們認(rèn)為其將在推理領(lǐng)域率先出現(xiàn)爆品。

圖片

預(yù)計(jì)ASIC在AI芯片的占比將大幅提升。根據(jù)McKinsey Analysis數(shù)據(jù),在數(shù)據(jù)中心側(cè),25年ASIC在推理/訓(xùn)練應(yīng)用占比分別達(dá)到40%、50%;在邊緣側(cè),25年ASIC在推理/訓(xùn)練應(yīng)用占比分別達(dá)到70%、70%,ASIC在AI芯片的占比將大幅提升。

圖片

2、多種類AI芯片并存,頭部廠商紛紛切入ASIC領(lǐng)域

多種類AI芯片并存,頭部廠商紛紛切入ASIC領(lǐng)域。

英偉達(dá)延續(xù)GPU路線,22年發(fā)布H100芯片,目前廣泛應(yīng)用于云端訓(xùn)練和推理;

AMD利用自身技術(shù)積累,將CPU和GPU集成在一起,推出Instinct MI300芯片,預(yù)計(jì)23年H2上市。

頭部廠商開始切入ASIC領(lǐng)域,Google為AI ASIC芯片的先驅(qū),21年推出TPU v4,運(yùn)算效能大幅提升;英特爾19年收購(gòu)Habana Lab,22年推出Gaudi2 ASIC芯片;IBM、三星等頭部廠商亦紛紛切入ASIC領(lǐng)域。

圖片

3、谷歌:全球AI ASIC先驅(qū),TPU產(chǎn)品持續(xù)迭代;性能表現(xiàn),A100<TPU v4<H100

谷歌為全球AI ASIC先驅(qū),TPU產(chǎn)品持續(xù)迭代。谷歌2015年發(fā)布TPU v1,與使用通用CPU和GPU的神經(jīng)網(wǎng)絡(luò)計(jì)算相比,TPU v1帶來(lái)了15~30倍的性能提升和30~80倍的能效提升,其以較低成本支持谷歌的很多服務(wù),僅可用于推理;17年發(fā)布TPU v2,用于加速大量的機(jī)器學(xué)習(xí)和人工智能工作負(fù)載,包括訓(xùn)練和推理;18年發(fā)布TPU v3,算力和功率大幅增長(zhǎng),其采用了當(dāng)時(shí)最新的液冷技術(shù);20年和21年分別發(fā)布TPU v4i和v4,應(yīng)用7nm工藝,晶體管數(shù)大幅提升,算力提升,功耗下降。

圖片

TUP v4性能表現(xiàn)優(yōu)于英偉達(dá)A100。TPU v4的性能表現(xiàn)在BERT、ResNet、DLRM、RetinaNet、MaskRCNN下分別為A100的1.15x、1.67x、1.05x、1.87x和1.37x,性能表現(xiàn)優(yōu)于英偉達(dá)A100。

TUP v4性能表現(xiàn)略遜于H100,但功耗管理能力出色。根據(jù)《AI and ML Accelerator Survey and Trends》數(shù)據(jù),英偉達(dá)H100的峰值性能表現(xiàn)高于TUP v4,而TUP v4作為ASIC芯片,在功耗管理方面表現(xiàn)出色,峰值功率低于H100。

圖片

4、谷歌:TPU v1架構(gòu)

統(tǒng)一緩沖器(Unified Buffer)和矩陣乘法單元(MMU)占據(jù)53%的芯片總面積。TPU v1主要包括統(tǒng)一緩沖器(Unified Buffer)、矩陣乘法單元(MMU)、累加器(Accumulators)、激活流水線電路(Activation Pipeline)、DDAM等,其中統(tǒng)一緩沖器和矩陣乘法單元面積占比最高,合計(jì)達(dá)53%。

TPU v1工作流程:

1)芯片啟動(dòng),緩沖區(qū)和DDR3為空;

2)用戶加載TPU編譯的模型,將權(quán)重放入DDR3內(nèi)存;

3)主機(jī)用輸入值填充激活緩沖區(qū);

4)發(fā)送控制信號(hào)將一層權(quán)重加載到矩陣乘法單元;

5)主機(jī)觸發(fā)執(zhí)行,激活并通過(guò)矩陣乘法單元傳播到累加器;

6)通過(guò)激活流水線電路,新層替換緩沖區(qū)的舊層;

7)重復(fù)步驟4-7,直到最后一層;

8)最后一層的激活被發(fā)送給主機(jī)。

圖片

5、谷歌:TPU v2架構(gòu),基于TPU v1的大規(guī)模架構(gòu)更新

圖片

TPU v2內(nèi)核數(shù)增加值2個(gè)。TPU v1僅有1個(gè)Tensor Core,導(dǎo)致管道更為冗長(zhǎng)。TPU v2的內(nèi)核數(shù)增加為2個(gè),對(duì)編譯器也更為友好。

MXU利用率提升。TPU v1的MXU包含256*256個(gè)乘積累加運(yùn)算器,由于部分卷積計(jì)算規(guī)模小于256*256,導(dǎo)致單個(gè)大核的利用率相對(duì)較低;而TPU v2的單核MXU包含128*128個(gè)乘積累加運(yùn)算器,在一定程度上,提升了MXU利用率。

圖片

6、谷歌:TPU v3延續(xù)v2架構(gòu),性能提升,TDP優(yōu)化

谷歌TPU v3延續(xù)v2架構(gòu),性能提升。TPU V3在v2架構(gòu)的基礎(chǔ)上,矩陣乘法單元(MXU)數(shù)量提升翻倍,時(shí)鐘頻率加快30%,內(nèi)存帶寬加大30%,HBM容量翻倍,芯片間帶寬擴(kuò)大了30%,可連接的節(jié)點(diǎn)數(shù)為先前4倍,性能大幅提升。

采用液冷技術(shù),TDP優(yōu)化。TPU v3采用液冷技術(shù),峰值算力為TPU v2的2.67倍,而TDP僅為TPU v2的1.61倍,TDP大幅優(yōu)化。

7、谷歌:TPU v4,硬件性能進(jìn)一步提升

MXU數(shù)量翻倍,峰值算力大幅提升。從硬件提升來(lái)看,根據(jù)Google Cloud數(shù)據(jù),TPU v4芯片包含2個(gè)TensorCore,每個(gè)TensorCore包含4個(gè)MXU,是TPUv3的2倍;同時(shí),HBM帶寬提升至1200 GBps,相比上一代,提升33.33%。從峰值算力來(lái)看,TPU v4的峰值算力達(dá)275 TFLOPS,為TPU v3峰值算力的2.24倍。

圖片

谷歌的超級(jí)計(jì)算機(jī)構(gòu)想:將4*4*4(64)個(gè)TPU v4芯片連接成1個(gè)立方體結(jié)構(gòu)(Cube),再將4*4*4個(gè)立方體結(jié)構(gòu)(Cube)連接成共有4096個(gè)TPU v4芯片的超級(jí)計(jì)算機(jī),其中物理距離較近TPU v4芯片(即同一個(gè)Cube中的4*4*4個(gè)芯片)采用常規(guī)電互聯(lián)方式,距離較遠(yuǎn)的TPU(例如Cube之間的互聯(lián))間用光互連。采用光互連技術(shù)可以有效避免“芯片等數(shù)據(jù)”的情形出現(xiàn),進(jìn)而提升計(jì)算效率。

可重配置光互連技術(shù)可以進(jìn)一步提升計(jì)算性能。谷歌TPU v4通過(guò)加入光路開關(guān)(OCS)的方式,可以根據(jù)具體模型數(shù)據(jù)流來(lái)調(diào)整TPU之間的互聯(lián)拓?fù)洌瑢?shí)現(xiàn)最優(yōu)性能,可重配置光互連技術(shù)可以將性能提升至先前的1.2-2.3倍。

可重配置光互連技術(shù)提升計(jì)算機(jī)的穩(wěn)定性。若計(jì)算機(jī)中部分芯片出現(xiàn)故障,可以通過(guò)該技術(shù)繞過(guò)故障芯片,進(jìn)而不會(huì)影響整個(gè)系統(tǒng)的工作。

圖片

8、英特爾:Gaudi架構(gòu)實(shí)現(xiàn)MME和TPC并行運(yùn)算

英特爾收購(gòu)Habana Lab。Habana Labs成立于2016年,總部位于以色列,是一家為數(shù)據(jù)中心提供可編程深度學(xué)習(xí)加速器廠商,2019年發(fā)布第一代Gaudi。英特爾于2019年底收購(gòu)Habana Lab,旨在加快其在人工智能芯片領(lǐng)域的發(fā)展,2022年發(fā)布Gaudi 2。

Gaudi架構(gòu)實(shí)現(xiàn)MME和TPC并行運(yùn)算。Gaudi架構(gòu)包含2個(gè)計(jì)算引擎,即矩陣乘法引擎(MME)和TPC(張量處理核心);Gaudi架構(gòu)使得MME和TPC計(jì)算時(shí)間重疊,進(jìn)行并行運(yùn)算,進(jìn)而大幅提升計(jì)算效率。

Gaudi 2延續(xù)上一代架構(gòu),硬件配置大幅提升。Gaudi 2架構(gòu)基本與上一代相同,TPC數(shù)量從8個(gè)提升至24個(gè),HBM數(shù)量從4個(gè)提升至6個(gè)(總內(nèi)存從32GB提升至96GB),SRAM存儲(chǔ)器提升一倍,RDMA從10個(gè)提升至24個(gè),同時(shí)集成了多媒體處理引擎,硬件配置大幅提升。

圖片

RDMA技術(shù)用于芯片互聯(lián),大幅提升并行處理能力。RDMA是一種遠(yuǎn)端內(nèi)存直接訪問(wèn)技術(shù),具有高速、超低延遲和極低CPU使用率的特點(diǎn)。Gaudi將RDMA集成在芯片上,用于實(shí)現(xiàn)芯片間互聯(lián),大幅提升AI集群的并行處理能力;同時(shí),Gaudi支持通用以太網(wǎng)協(xié)議,客戶可以將Gaudi放入現(xiàn)有的數(shù)據(jù)中心,使用標(biāo)準(zhǔn)以太網(wǎng)構(gòu)建AI集群。

Gaudi 2性能表現(xiàn)出色。根據(jù)《Habana Gaudi 2 White Paper》披露數(shù)據(jù),Gaudi 2在ResNET-50、BERT、BERT Phase-1、BERT Phase-2模型的訓(xùn)練吞吐量分別為A100(40GB,7nm)的2.0、2.4、2.1、3.3x,性能表現(xiàn)出色。

責(zé)任編輯:武曉燕 來(lái)源: 架構(gòu)師技術(shù)聯(lián)盟
相關(guān)推薦

2023-11-20 13:06:52

2014-04-03 14:23:02

英特爾統(tǒng)一固件管理套件

2021-10-29 05:37:37

英特爾谷歌云數(shù)據(jù)中心芯片

2011-12-14 19:01:20

英特爾

2009-04-20 08:10:50

IT市場(chǎng)財(cái)報(bào)科技市場(chǎng)

2011-06-18 11:54:28

北電蘋果英特爾

2012-04-06 14:42:03

英特爾移動(dòng)互聯(lián)

2012-06-18 17:42:42

英特爾ARM

2023-07-14 14:19:28

英偉達(dá)芯片

2020-10-30 18:28:45

英特爾

2015-05-05 15:22:30

英特爾

2009-03-30 13:43:47

多核服務(wù)器英特爾

2019-05-15 14:16:03

英特爾ZombieLoad漏洞

2009-05-27 08:36:15

2013-08-07 09:44:31

英特爾IBM谷歌

2011-07-15 10:48:20

英特爾谷歌數(shù)據(jù)中心

2023-07-11 18:19:53

英特爾GaudiGaudi2
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)