禁售陰影之下,國產(chǎn)GPGPU是否有望補(bǔ)齊缺口?
今年年初,ChatGPT猶如一顆火種,激發(fā)了AI應(yīng)用的發(fā)展動力,AI產(chǎn)業(yè)進(jìn)入發(fā)展的快車道。國內(nèi)的AI產(chǎn)業(yè)自然也乘勢而起,僅半年光景國內(nèi)就涌現(xiàn)出近百款A(yù)I大模型產(chǎn)品,由此進(jìn)入“百模大戰(zhàn)”的競爭格局。
訓(xùn)練大模型需要以算力為基礎(chǔ),全球AI公司對NVIDIA 芯片追捧至極,GPU有價無市。近期新聞,NVIDIA H100已無存貨,就算現(xiàn)在訂購,也要等2024年Q1甚至Q2才能用上。據(jù)傳聞,百度、字節(jié)、阿里、騰訊等大型科技公司也向NVIDIA下了總計50億美元的A800等芯片訂單。
只不過有人企圖對國內(nèi)AI大模型發(fā)展加以干涉。美國《華爾街日報》透露,由于擔(dān)心中國可能使用NVIDIA 和其他公司的人工智能芯片“進(jìn)行武器開發(fā)和黑客攻擊”,美國政府考慮加碼計算芯片領(lǐng)域的制裁,限制NVIDIA公司向中國出口A800、H800芯片,一時間讓處于快速發(fā)展中國AI產(chǎn)業(yè),又一次籠罩于禁售陰影之下。
難以替代的GPGPU架構(gòu)芯片
從美國對國內(nèi)算力芯片的一而再,再而三地限制中,可以看到美國對中國AI產(chǎn)業(yè)發(fā)展的忌憚。近年來隨著數(shù)字經(jīng)濟(jì)的蓬勃發(fā)展,國內(nèi)在推進(jìn)算力基礎(chǔ)設(shè)施建設(shè)取得積極成效。據(jù)工信部統(tǒng)計,目前我國算力總規(guī)模居全球第二,保持30%左右的年增長率,而且新增算力設(shè)施中智能算力占比過半。這其中作為算力載體的AI計算芯片,其地位自然無比重要。
目前全球AI計算芯片主要分為GPGPU、ASIC、FPGA三種架構(gòu)。而被限制的A800和H800芯片就屬于GPGPU架構(gòu)芯片。GPGPU架構(gòu)也是AI加速芯片市場的主流,占據(jù)了90%的市場份額。
GPGPU從GPU發(fā)展而來,是GPU去掉圖形處理能力,提升并行計算能力之后的產(chǎn)物。GPGPU是如何成為最適合AI計算的芯片呢?
對比CPU和GPU,結(jié)構(gòu)上的差異決定了CPU和GPU功能上的區(qū)別。由于CPU在控制和存儲的能力上比較強(qiáng),因此能進(jìn)行比較復(fù)雜的計算,不過可以同時執(zhí)行的線程很少。而GPU則相反,大量的計算單元讓它可以同時執(zhí)行多線程的任務(wù),但每一個任務(wù)都比較簡單。
打個比方,如果CPU是一個懂高等數(shù)學(xué)的大學(xué)生,概率、微積分全都會做,但讓他做一萬道四則運算數(shù)學(xué)題,還是要花費大量的時間;而GPU好像是一萬名只懂得四則運算的小學(xué)生,雖然不會函數(shù)、代數(shù)等高級知識,但是遇到一萬道四則運算兩秒就能做完。
在AI神經(jīng)算法成熟后,業(yè)內(nèi)發(fā)現(xiàn)GPU的功能特性很適合進(jìn)行AI訓(xùn)練,因為在深度學(xué)習(xí)模型中,最主要的運算就是矩陣運算和卷積,而這些運算從根本上都可以分解為簡單的加法和乘法。如此挖掘出了GPU在AI領(lǐng)域的應(yīng)用空間。2007年,英偉達(dá)提出了GPGPU,即通用GPU架構(gòu),將原本專用于圖形處理的GPU改造成了更適合AI運算的GPGPU。
其實AI計算芯片除了GPGPU架構(gòu),還有ASIC、FPGA等架構(gòu)。只不過ASIC、FPGA芯片是結(jié)合某些計算場景需求的定制化產(chǎn)品,通用性不強(qiáng)。
GPGPU研發(fā)難度高,國產(chǎn)短板待補(bǔ)齊
在美國限制出口、國內(nèi)大模型急需GPU或GPGPU的時候,國內(nèi)真正能做GPGPU的廠家卻很少。因為GPGPU芯片研發(fā)難度,比其他類型的AI芯片要高出很多。
有業(yè)內(nèi)人士分析過,GPGPU 芯片的團(tuán)隊大概需要1000 人左右,至少也要做兩年才能做出一顆芯片,這還只是推理芯片而已。如果要做大模型訓(xùn)推一體的大芯片,那么至少 3 年才能把一顆芯片做出來。這意味著,如果有國內(nèi)廠商能趕上今年大模型風(fēng)潮,至少需要從2020年就開始布局研發(fā)設(shè)計。
并且GPGPU研發(fā)出來之后,決定其性能發(fā)揮上下限的,不止是架構(gòu)設(shè)計優(yōu)劣、制造工藝先進(jìn)與否等條件,還需要有軟件生態(tài)支持,還需要售后團(tuán)隊結(jié)合大模型情況調(diào)優(yōu)產(chǎn)品等等。
NVIDIA之所以能稱霸AI芯片領(lǐng)域,在于其結(jié)合GPGPU架構(gòu)開發(fā)了CUDA軟件平臺,允許開發(fā)者使用類C語言編寫GPU的并行計算代碼,并且提供了大量的庫函數(shù)和工具來幫助優(yōu)化GPU計算。NVIDIA運營CUDA已經(jīng)十余年時間,軟件生態(tài)才是NVIDIA真正的護(hù)城河。
國內(nèi)AI芯片面對NVIDIA先發(fā)優(yōu)勢,如何把握住AI大模型帶來的GPGPU黃金機(jī)遇?
國產(chǎn)GPGPU殺出幾匹黑馬
當(dāng)前國內(nèi)AI芯片主要廠商包括華為、寒武紀(jì)、海光信息、遂原、壁仞、天數(shù)智芯等,此外龍芯也在布局。其中,發(fā)力GPGPU芯片的包括海光、壁仞科技、龍芯等等。
海光GPGPU架構(gòu)芯片深算一號在2018年啟動研發(fā),于去年發(fā)布。據(jù)了解,海光深算一號性能優(yōu)異,對比NVIDIA A100及 AMD MI100發(fā)現(xiàn),在典型應(yīng)用場景下,深算一號指標(biāo)已經(jīng)達(dá)到國際上同類型高端產(chǎn)品的水平。并且深算一號最大亮點在于,支持全部計算精度,在國產(chǎn)GPGPU中具備唯一性。在生態(tài)方面,海光深算一號可兼容類CUDA環(huán)境,對于AI開發(fā)者無需復(fù)雜適配,即可遷移到海光平臺。
如此以來,在禁售陰影下,海光GPGPU產(chǎn)品可作為國外芯片最好平替。據(jù)海光披露,截止今年GPGPU產(chǎn)品已量產(chǎn)商業(yè)化應(yīng)用,規(guī)模達(dá)幾十萬片,應(yīng)用領(lǐng)域涵蓋互聯(lián)網(wǎng)、能源等行業(yè)。
壁仞科技成立于2019年,在2022年發(fā)布了首款GPGPU芯片BR100系列,性能方面超越NVIDIA A100,今年發(fā)力目標(biāo)為量產(chǎn)上市。但業(yè)內(nèi)人士認(rèn)為,對于國內(nèi)初創(chuàng)GPGPU公司而言,軟件生態(tài)更為重要。目前國內(nèi)的初創(chuàng)公司雖然在細(xì)分領(lǐng)域上有一定的落地,而真正在大模型訓(xùn)練上能有實際應(yīng)用的幾乎沒有。
而龍芯暫無產(chǎn)品發(fā)布,目前進(jìn)展為已經(jīng)完成相關(guān)IP的設(shè)計,正在驗證優(yōu)化過程中,第一個集成自研GPGPU核的SOC芯片計劃于2024年Q1流片。從流片到量產(chǎn),如果按最快6-12個月來算,龍芯的GPGPU產(chǎn)品至少也要在2024年Q3以后才能發(fā)布,量產(chǎn)估計需要在2025年了。
總體而言,國產(chǎn)GPGPU邁出從0到1的第一步是最主要的。禁售危機(jī)中蘊(yùn)藏著機(jī)遇,哪怕作為后來者,在國內(nèi)如此大的消費市場支撐下,也將有追趕上NVIDIA的可能。