國(guó)產(chǎn)AI服務(wù)器產(chǎn)品、技術(shù)及分類
本文參考自“專題研究:ChatGPT服務(wù)器,深度拆解”,詳細(xì)介紹了AI服務(wù)器分類,主要技術(shù)和廠商產(chǎn)品,第一篇參考文章“ChatGPT服務(wù)器,深度拆解(2023)”。
AI服務(wù)器采取GPU架構(gòu),相較CPU更適合進(jìn)行大規(guī)模并行計(jì)算。通用服務(wù)器采用CPU作為計(jì)算能力來源,而AI服務(wù)器為異構(gòu)服務(wù)器,可以根據(jù)應(yīng)用范圍采用不同的組合方式,如CPUGPU、CPUTPU、CPU其他加速卡等,主要以GPU提供計(jì)算能力。
從ChatGPT模型計(jì)算方式來看,主要特征是采用了并行計(jì)算。對(duì)比上一代深度學(xué)習(xí)模型RNN來看,Transformer架構(gòu)下,AI模型可以為輸入序列中的任何字符提供上下文,因此可以一次處理所有輸入,而不是一次只處理一個(gè)詞,從而使得更大規(guī)模的參數(shù)計(jì)算成為可能。而從GPU的計(jì)算方式來看,由于GPU采用了數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,因此其架構(gòu)設(shè)計(jì)較CPU而言,更適合進(jìn)行大吞吐量的AI并行計(jì)算。
深度學(xué)習(xí)主要進(jìn)行矩陣向量計(jì)算,AI服務(wù)器處理效率更高。從ChatGPT模型結(jié)構(gòu)來看,基于Transformer架構(gòu),ChatGPT模型采用注意力機(jī)制進(jìn)行文本單詞權(quán)重賦值,并向前饋神經(jīng)網(wǎng)絡(luò)輸出數(shù)值結(jié)果,這一過程需要進(jìn)行大量向量及張量運(yùn)算。而AI服務(wù)器中往往集成多個(gè)AI GPU,AI GPU通常支持多重矩陣運(yùn)算,例如卷積、池化和激活函數(shù),以加速深度學(xué)習(xí)算法的運(yùn)算。因此在人工智能場(chǎng)景下,AI服務(wù)器往往較GPU服務(wù)器計(jì)算效率更高,具備一定應(yīng)用優(yōu)勢(shì)。
AI服務(wù)器分類方式有兩種:
1)按應(yīng)用場(chǎng)景:AI服務(wù)器按照應(yīng)用場(chǎng)景可以分為深度學(xué)習(xí)訓(xùn)練型和智能應(yīng)用推理型。訓(xùn)練任務(wù)對(duì)服務(wù)器算力要求較高,需要訓(xùn)練型服務(wù)器提供高密度算力支持,典型產(chǎn)品有中科曙光X785-G30和華為昇騰Atlas 800(型號(hào)9000、型號(hào)9010)。推理任務(wù)則是利用訓(xùn)練后的模型提供服務(wù),對(duì)算力無較高要求,典型產(chǎn)品有中科曙光X785-G40和華為昇騰Atlas 800(型號(hào)3000、型號(hào)3010)。
2)按芯片類型:AI服務(wù)器為異構(gòu)服務(wù)器,可以根據(jù)應(yīng)用范圍調(diào)整計(jì)算模塊結(jié)構(gòu),可采用CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多種加速卡等組合形式。目前,產(chǎn)品中最常見的是CPU+多塊GPU的方式。
常見的AI服務(wù)器分為四路、八路、十六路。一般來說,通用服務(wù)器主要采用以CPU為主導(dǎo)的串行架構(gòu),更擅長(zhǎng)邏輯運(yùn)算;而AI服務(wù)器主要采用加速卡為主導(dǎo)的異構(gòu)形式,更擅長(zhǎng)做大吞吐量的并行計(jì)算。按CPU數(shù)量,通用服務(wù)器可分為雙路、四路和八路等。雖然AI服務(wù)器一般僅搭載1-2塊CPU,但GPU數(shù)量顯著占優(yōu)。按GPU數(shù)量,AI服務(wù)器可以分為四路、八路和十六路服務(wù)器,其中搭載8塊GPU的八路AI服務(wù)器最常見。
AI服務(wù)器采用多芯片組合,算力硬件成本更高。我們以典型服務(wù)器產(chǎn)品為例拆解硬件構(gòu)成,可以更清晰地理解兩類服務(wù)器硬件架構(gòu)區(qū)別:以浪潮通用服務(wù)器NF5280M6為例,該服務(wù)器采用1~2顆第三代Intel Xeon可擴(kuò)展處理器,據(jù)英特爾官網(wǎng),每顆CPU售價(jià)約64000萬元,故該服務(wù)器芯片成本約64000~128000;以浪潮AI服務(wù)器NF5688M6為例,該服務(wù)器采用2顆第三代Intel Xeon可擴(kuò)展處理器+8顆英偉達(dá)A800 GPU的組合,據(jù)英偉達(dá)官網(wǎng),每顆A800售價(jià)104000元,故該服務(wù)器芯片成本約96萬元。
GPT模型訓(xùn)練需要大算力支持,或?qū)鞟I服務(wù)器建設(shè)需求。我們認(rèn)為,隨著國(guó)內(nèi)廠商陸續(xù)布局ChatGPT類似產(chǎn)品,GPT大模型預(yù)訓(xùn)練、調(diào)優(yōu)及日常運(yùn)營(yíng)或?qū)泶罅克懔π枨?,進(jìn)而帶動(dòng)國(guó)內(nèi)AI服務(wù)器市場(chǎng)放量。
以GPT-3 175B模型預(yù)訓(xùn)練過程為例,據(jù)OpenAI,進(jìn)行一次GPT-3 175B模型的預(yù)訓(xùn)練需要的算力約3640 PFlop/s-day。我們假設(shè)以浪潮信息目前算力最強(qiáng)的AI服務(wù)器NF5688M6(PFlop/s)進(jìn)行計(jì)算,在預(yù)訓(xùn)練期限分別為3、5、10天的假設(shè)下,單一廠商需采購的AI服務(wù)器數(shù)量分別為243、146、73臺(tái)。
AI大模型訓(xùn)練需求火熱,智能算力規(guī)模增長(zhǎng)有望帶動(dòng)AI服務(wù)器放量。據(jù)IDC數(shù)據(jù),以半精度(FP16)運(yùn)算能力換算,2021年中國(guó)智能算力規(guī)模約155.2EFLOPS。隨著AI模型日益復(fù)雜、計(jì)算數(shù)據(jù)量快速增長(zhǎng)、人工智能應(yīng)用場(chǎng)景不斷深化,未來國(guó)內(nèi)智能算力規(guī)模有望實(shí)現(xiàn)快速增長(zhǎng)。IDC預(yù)計(jì)2022年國(guó)內(nèi)智能算力規(guī)模將同比增長(zhǎng)72.7%至268.0 EFLOPS,預(yù)計(jì)2026年智能算力規(guī)模將達(dá)1271.4 EFLOPS,2022-2026年算力規(guī)模CAGR將達(dá)69.2%。我們認(rèn)為,AI服務(wù)器作為承載智能算力運(yùn)算的主要基礎(chǔ)設(shè)施,有望受益于下游需求放量。
國(guó)產(chǎn)廠商布局豐富產(chǎn)品矩陣,占據(jù)全球AI服務(wù)器市場(chǎng)領(lǐng)先地位
浪潮信息、聯(lián)想、華為等國(guó)產(chǎn)廠商在全球AI服務(wù)器市場(chǎng)占據(jù)領(lǐng)先地位。全球市場(chǎng)來看,AI服務(wù)器市場(chǎng)份額TOP10廠商中,國(guó)產(chǎn)廠商占據(jù)4席,累計(jì)市場(chǎng)份額超35%,其中浪潮信息以20.2%的份額排名第一。國(guó)內(nèi)市場(chǎng)來看,AI服務(wù)器市場(chǎng)集中度較高,排名前三的供應(yīng)商為浪潮信息、寧暢和華為,CR3達(dá)70.40%。我們認(rèn)為,國(guó)產(chǎn)廠商憑借強(qiáng)大產(chǎn)品競(jìng)爭(zhēng)力,已經(jīng)在國(guó)際市場(chǎng)占據(jù)一定領(lǐng)先地位,未來隨著AI算力需求釋放,有望充分受益于產(chǎn)業(yè)成長(zhǎng)機(jī)遇。
浪潮信息:AI服務(wù)器產(chǎn)品矩陣豐富,產(chǎn)品力獲國(guó)際認(rèn)可。目前公司AI服務(wù)器主要產(chǎn)品型號(hào)包括NF5688M6、NF5488A5等,據(jù)公司官網(wǎng),2021年上述兩款A(yù)I服務(wù)器在國(guó)際權(quán)威AI基準(zhǔn)測(cè)試MLPerf榜單中,獲得醫(yī)學(xué)影像分割、目標(biāo)物體檢測(cè)、自然語言理解、智能推薦等7項(xiàng)訓(xùn)練冠軍,可滿足包括自然語言理解等在內(nèi)的多項(xiàng)AI訓(xùn)練需求。此外,公司在AI領(lǐng)域的積累還包括AI資源平臺(tái)、AI算法平臺(tái)等,具備大量算力解決方案實(shí)施經(jīng)驗(yàn)。
華為:AI服務(wù)器融合自研加速卡與英特爾CPU。公司AI服務(wù)器為Atlas 800推理服務(wù)器系列,旗下有型號(hào)3000、型號(hào)3010、型號(hào)9000和型號(hào)9010。其中,型號(hào)3000基于昇騰310芯片,型號(hào)3010基于Intel處理器,型號(hào)9000基于華為鯤鵬920+昇騰910處理器,型號(hào)9010基于Intel處理器+華為昇騰910芯片。旗艦級(jí)芯片加持下,產(chǎn)品最高擁有2.24 PFLOPS FP16的高密度算力,并在設(shè)計(jì)結(jié)構(gòu)優(yōu)化下,芯片間跨服務(wù)器互聯(lián)時(shí)延可縮短10~70%。
新華三AI服務(wù)器覆蓋各訓(xùn)練負(fù)載要求,結(jié)合軟件平臺(tái)構(gòu)建AI完整生態(tài)。公司主要產(chǎn)品型號(hào)包括R4900 G5、R5300 G5、R5500 G5等,可分別針對(duì)不同訓(xùn)練負(fù)載要求,滿足大小規(guī)模的推理/訓(xùn)練任務(wù)。軟件層面,公司通過新華三傲飛AI/HPC融合管理平臺(tái),全面提升AI作業(yè)效率約32%。2022年,新華三被國(guó)際權(quán)威分析機(jī)構(gòu)Forrester認(rèn)定為大型人工智能系統(tǒng)成熟廠商,可以提供可靠的服務(wù)器解決方案。同時(shí),新華三AI服務(wù)器在MLPerf測(cè)評(píng)中共斬獲86項(xiàng)世界第一。
龍頭廠商有望充分受益于算力需求釋放。我們認(rèn)為,隨著ChatGPT待動(dòng)大模型訓(xùn)練熱潮,以人工智能訓(xùn)練為代表的智能算力需求逐步釋放,有望帶動(dòng)AI服務(wù)器放量。拆解AI服務(wù)器成本來看,GPU等算力芯片為核心組件,先進(jìn)算力產(chǎn)品受美國(guó)出口管制影響,但可通過采購A800實(shí)現(xiàn)基本替代。我們認(rèn)為,浪潮信息等國(guó)產(chǎn)頭部廠商憑借豐富產(chǎn)品矩陣和強(qiáng)大產(chǎn)品競(jìng)爭(zhēng)力,占據(jù)全球AI服務(wù)器市場(chǎng)主要份額,未來有望充分受益于服務(wù)器需求釋放。
拆解來看,AI服務(wù)器主要成本包括算力芯片、內(nèi)存、存儲(chǔ)等。據(jù)IDC的2018年服務(wù)器成本結(jié)構(gòu)拆分?jǐn)?shù)據(jù),芯片成本在基礎(chǔ)型服務(wù)器中約占總成本的32%,在高性能或具有更強(qiáng)運(yùn)算能力的服務(wù)器中,芯片相關(guān)成本占比可以高達(dá)50%-83%。以機(jī)器學(xué)習(xí)型AI服務(wù)器為例,其主要成本由GPU、CPU、內(nèi)存及其他部件組成,其中GPU成本占比最高,達(dá)到72.8%。
AI服務(wù)器算力芯片以GPU為主。據(jù)IDC,2022年國(guó)內(nèi)人工智能芯片市場(chǎng)中,GPU芯片占據(jù)主要市場(chǎng)份額,達(dá)89.0%,主因GPU芯片并行計(jì)算架構(gòu)更加適合于復(fù)雜數(shù)學(xué)計(jì)算場(chǎng)景,可以較好支持高度并行的工作負(fù)載,因此常用于數(shù)據(jù)中心的模型訓(xùn)練,以及邊緣側(cè)及端側(cè)的推理工作負(fù)載。此外,其他主要的人工智能芯片還包括NPU、ASIC、FPGA等。一般而言,AI服務(wù)器中算力芯片需求數(shù)量取決于服務(wù)器設(shè)計(jì)性能要求,需求種類取決于成本、功耗、算法等指標(biāo)。常見的算力芯片組合,如8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU等。
GPU結(jié)構(gòu):計(jì)算單元+顯存。計(jì)算單元(Streaming Multiprocessor):計(jì)算單元的功能是執(zhí)行計(jì)算。其中每一個(gè)SM都有獨(dú)立的控制單元、寄存器、緩存、指令流水線。顯存(Global Memory):顯存是在GPU板卡上的DRAM,容量大但速度慢。
1.計(jì)算單元底層架構(gòu):
顯卡核心構(gòu)成多樣,不同核心專注不同任務(wù)。以英偉達(dá)為例,GPU顯卡構(gòu)成包括TENSOR CORE、CUDA和RT等部分。TENSOR CORE,即張量核心,是英偉達(dá)GPU上一塊特殊區(qū)域,針對(duì)AI矩陣計(jì)算設(shè)計(jì),可顯著提高AI訓(xùn)練吞吐量和推理性能。CUDA則是英偉達(dá)生態(tài)中的通用結(jié)構(gòu),一般包括多個(gè)數(shù)據(jù)類型,適用于視頻制作,圖像處理,三維渲染等常見圖像處理和計(jì)算工作。
2、TOPS和TFLOPS是常見算力衡量單位:
1)OPS:OPS(Operations Per Second)指每秒執(zhí)行的操作次數(shù),是整數(shù)運(yùn)算的單位,常在INT8、INT4等計(jì)算精度下度量算力性能。其中TOPS(Tera Operations Per Second)代表處理器每秒鐘可進(jìn)行一萬億次(10^12)操作,類似的單位還有諸如GOPS、MOPS,均代表每秒的操作次數(shù)。
2)FLOPS:FLOPS(Floating-point Operations Per Second)指每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù),常在單精度(FP32)、半精度(FP16)等計(jì)算精度下度量算力性能。TFLOPS(Tera Floating-point Operations Per Second)代表處理器每秒鐘可進(jìn)行一萬億次(10^12)浮點(diǎn)運(yùn)算。雖然TOPS和TFLOPS數(shù)量級(jí)一樣,但前者是衡量操作次數(shù),后者是衡量浮點(diǎn)運(yùn)算,TOPS要結(jié)合數(shù)據(jù)類型精度(如INT8,F(xiàn)P16等)才能與FLOPS轉(zhuǎn)換。
3.顯存位寬、帶寬與容量:
顯存的主要指標(biāo)包括位寬、帶寬和容量。顯存本身與CPU的內(nèi)存類似,將數(shù)據(jù)在GPU核心與磁盤間傳輸。顯存位寬是顯存在一個(gè)時(shí)鐘周期內(nèi)所能傳送數(shù)據(jù)的位數(shù),決定了顯存瞬時(shí)傳輸?shù)臄?shù)據(jù)量。顯存帶寬是指顯示芯片與顯存之間的數(shù)據(jù)傳輸速率,由顯存頻率和顯存位寬共同決定,體現(xiàn)了顯卡的速度和性能。顯存容量決定了顯存臨時(shí)存儲(chǔ)數(shù)據(jù)的多少。
目前主流AI GPU芯片包括英偉達(dá)H100、A100以及V100等。全球來看,目前用于人工智能訓(xùn)練的AI GPU市場(chǎng)以英偉達(dá)為主導(dǎo),公司旗下先進(jìn)算力產(chǎn)品主要包括H100、A100以及V100。對(duì)比雙精度浮點(diǎn)計(jì)算性能(FP64 Tensor Core)來看,H100、A100、V100計(jì)算速度分別為67 TFLOPS、19.5 TFLOPS、8.2 TFLOPS。從顯存帶寬來看,H100、A100、V100傳輸速度分別為3TB/s、2TB/s、900GB/s。
先進(jìn)算力芯片進(jìn)口受限或?yàn)閲?guó)產(chǎn)AI服務(wù)器的瓶頸之一。2022年10月7日,美國(guó)商務(wù)部工業(yè)與安全局(BIS)宣布了針對(duì)中國(guó)出口先進(jìn)芯片的管制新規(guī)聲明。聲明規(guī)定,滿足輸入輸出(I/O)雙向傳輸速度高于 600GB/s,同時(shí)每次操作的比特長(zhǎng)度乘以 TOPS 計(jì)算出的處理性能合計(jì)為 4800 或更多算力的產(chǎn)品,將無法出口至中國(guó)。以英偉達(dá)A100為例,以TF32性能測(cè)算,即156*32=4992>4800,且傳輸速度為600GB/s?;诖?,我們可以推斷,性能大于等于A100 GPU的先進(jìn)算力芯片屬于美國(guó)出口限制范圍。
采用英偉達(dá)A800服務(wù)器或?yàn)楫?dāng)前可行替代方案。以浪潮NF5688M6為例,NF5688M6是為超大規(guī)模數(shù)據(jù)中心研發(fā)的NVLink AI 服務(wù)器,支持2顆Intel最新的Ice Lake CPU和8顆NVIDIA最新的NVSwitch全互聯(lián)A800GPU,單機(jī)可提供5PFlops的AI計(jì)算性能。對(duì)比核心硬件來看,NF5688M6采用英偉達(dá)中國(guó)特供版芯片—A800,在浮點(diǎn)計(jì)算能力、顯存帶寬、顯存容量等性能指標(biāo)上,與先進(jìn)算力芯片—A100基本一致,主要差異在于芯片的數(shù)據(jù)傳輸速度,約為A100的三分之二。
英偉達(dá)其他AI GPU芯片均不受出口限制影響。考慮到目前美國(guó)GPU芯片限制主要集中在先進(jìn)算力領(lǐng)域,倘若未來進(jìn)一步加大限制力度,A800等大算力芯片可能出現(xiàn)進(jìn)一步被限制的風(fēng)險(xiǎn)。而從英偉達(dá)產(chǎn)品線布局來看,除了前面討論的A100、A800、V100、H100等先進(jìn)算力芯片外,還有A2、A10、A30、A40、T4等。這些芯片中,浮點(diǎn)計(jì)算能力最強(qiáng)的型號(hào)為A30,輸出性能為82*32=2624<4800,因此不受出口限制影響。
國(guó)產(chǎn)AI GPU性能持續(xù)升級(jí),國(guó)產(chǎn)替代未來可期。目前國(guó)產(chǎn)AI GPU廠商主要包括阿里、華為、寒武紀(jì)、天數(shù)智芯等。隨著國(guó)內(nèi)廠商持續(xù)加強(qiáng)GPU研發(fā),產(chǎn)品力不斷升級(jí)。以華為昇騰910為例,該款芯片采用7nm制程,集成了超496億個(gè)晶體管,可以提供320TFLOPS的FP16計(jì)算速度或640TOPS的INT8算力,略高于英偉達(dá)A100的FP16計(jì)算速度(312TFLOPS,不采用英偉達(dá)稀疏技術(shù))。我們認(rèn)為,單純從芯片算力性能來看,部分國(guó)產(chǎn)芯片已經(jīng)能夠追趕海外主流芯片。隨著國(guó)產(chǎn)生態(tài)逐步打磨,GPU性能提升有望推動(dòng)國(guó)產(chǎn)化替代。
總結(jié):
1、GPT模型需要什么樣的算力?
ChatGPT采用單一大模型路線,對(duì)底層算力的需求主要體現(xiàn)在訓(xùn)練和推理兩個(gè)層面,訓(xùn)練即使用大量數(shù)據(jù)集,對(duì)模型做反復(fù)迭代計(jì)算,推理即利用模型對(duì)輸入信息進(jìn)行處理并給出結(jié)果。據(jù)IDC數(shù)據(jù),2021年中國(guó)人工智能服務(wù)器工作負(fù)載中,57.6%的負(fù)載用于推理,42.4%用于模型訓(xùn)練。具體來看,算力需求場(chǎng)景包括預(yù)訓(xùn)練、Finetune以及日常運(yùn)營(yíng)。根據(jù)我們的測(cè)算,GPT-3 175B模型需要的預(yù)訓(xùn)練算力約3640 PFlop/s-day、ChatGPT單月運(yùn)營(yíng)需要的算力約7034.7 PFlop/s-day、單月Finetune需要的算力至少為1350.4 PFlop/s-day。
2、GPT模型需要什么樣的服務(wù)器?
我們認(rèn)為,服務(wù)器類型不斷演化的動(dòng)力來自:計(jì)算架構(gòu)的變化。從服務(wù)器產(chǎn)業(yè)發(fā)展歷程來看,隨著計(jì)算架構(gòu)從單機(jī)到C-S、C-E-S,陸續(xù)演化出PC、云計(jì)算、邊緣計(jì)算等服務(wù)器類型。而在AI訓(xùn)練時(shí)代,C-S架構(gòu)的回歸以及大規(guī)模并行計(jì)算需求,又帶來AI服務(wù)器的擴(kuò)張。對(duì)比傳統(tǒng)服務(wù)器來看,AI服務(wù)器由于采用GPU等加速卡,更加擅長(zhǎng)向量、張量計(jì)算,對(duì)于AI訓(xùn)練及推理場(chǎng)景的處理能力更強(qiáng),且采用多芯片組合架構(gòu),單臺(tái)服務(wù)器芯片成本也較高。
3、GPT模型需要什么樣的算力芯片?
GPT模型的訓(xùn)練和推理計(jì)算主要由AI服務(wù)器完成,底層算力芯片主要包括CPU、GPU、FPGA、ASIC等。常見的算力芯片組合,如8x GPU+2x CPU、4x GPU+ 2x CPU、8x FPGA+1x CPU、4x FPGA+1x CPU等。據(jù)IDC,2022年國(guó)內(nèi)人工智能芯片市場(chǎng)中,GPU芯片占據(jù)主要市場(chǎng)份額,達(dá)89.0%。目前海外主流AI GPU芯片包括英偉達(dá)H100、A100以及V100等。
4、美國(guó)先進(jìn)算力芯片出口限制對(duì)GPT產(chǎn)業(yè)的影響?
受美國(guó)先進(jìn)算力芯片出口限制政策影響,目前國(guó)內(nèi)只能采購性能低于A100的AI GPU,如英偉達(dá)A800系列等。此外,英偉達(dá)A系列、T系列性能更低的前代版本尚且不受影響。考慮到部分國(guó)產(chǎn)AI GPU如華為昇騰在FP16浮點(diǎn)計(jì)算性能上已經(jīng)實(shí)現(xiàn)對(duì)英偉達(dá)A100的加速追趕,未來隨著國(guó)產(chǎn)生態(tài)打磨,AI GPU國(guó)產(chǎn)替代有望加速。
5、AI服務(wù)器產(chǎn)業(yè)鏈相關(guān)公司有哪些?
- 1)能夠采購到海外高性能芯片的廠商:浪潮信息等;
- 2)采用海光/寒武紀(jì)芯片的廠商:中科曙光;
- 3)采用華為昇騰芯片的廠商:拓維信息等;
- 4)底層芯片供應(yīng)商:海光信息、寒武紀(jì)、景嘉微等。