淺談國產(chǎn)化AI芯片模型部署實踐
國產(chǎn)化AI芯片的發(fā)展已經(jīng)成為國內(nèi)信息技術(shù)產(chǎn)業(yè)的一個重要領(lǐng)域,它的發(fā)展始于對高性能計算需求的崛起,尤其是在人工智能和大數(shù)據(jù)領(lǐng)域,國內(nèi)的科研機構(gòu)和高新技術(shù)企業(yè)開始投入大量資源用于AI芯片的研發(fā),以滿足國內(nèi)應(yīng)用的需求。并且隨著中國在各個高新領(lǐng)域的不斷發(fā)力與國外AI芯片技術(shù)近年來不斷加深的制裁,各個行業(yè)的企業(yè)也開始合作,以共同推動AI芯片的研發(fā)和應(yīng)用,包括通信、云計算、智能制造、自動駕駛等領(lǐng)域。國內(nèi)市場對AI芯片的需求迅速增長,也促使了本土芯片的研發(fā)和生產(chǎn)。以上種種皆表明使用國產(chǎn)化AI芯片,推動國產(chǎn)化芯片的繁榮發(fā)展具有極其重要的現(xiàn)實含義。
一、國產(chǎn)化AI芯片模型部署的重要意義
人工智能的發(fā)展主要依賴兩個領(lǐng)域的創(chuàng)新和演進(jìn):一是模仿人腦建立起來的數(shù)學(xué)模型和算法,其次是半導(dǎo)體集成電路AI芯片。AI的發(fā)展一直伴隨著半導(dǎo)體芯片的演進(jìn)過程,AI芯片則是AI發(fā)展的底層基石。
全球AI芯片市場主要由海外廠商占據(jù)壟斷地位,但國產(chǎn)廠商也在加速布局。國內(nèi)市場中,景嘉微在圖形渲染GPU領(lǐng)域持續(xù)深耕,另外天數(shù)智芯、壁仞科技、登臨科技等一批主打AI及高性能計算的GPGPU初創(chuàng)企業(yè)正加速涌入。在GPGPU方面,目前國內(nèi)廠商與Nvidia在GPGPU上仍存在較大差距。制程方面,目前Nvidia已率先到達(dá)4nm,國內(nèi)廠商多集中在7nm;算力方面,國內(nèi)廠商大多不支持雙精度(FP64)計算,在單精度(FP32)及定點計算(INT8)方面與國外中端產(chǎn)品持平,天數(shù)智芯、壁仞科技的AI芯片產(chǎn)品在單精度性能上超過Nvidia A100;接口方面,壁仞科技與Nvidia率先使用PCle5.0,其余廠商多集中在PCle4.0;生態(tài)方面,國內(nèi)企業(yè)多采用OpenCL進(jìn)行自主生態(tài)建設(shè),與Nvidia CUDA的成熟生態(tài)相比,差距較為明顯。對于大模型訓(xùn)練而言,目前能夠提供云端訓(xùn)練和推理加速芯片的獨立廠商及產(chǎn)品則有壁仞科技BR100系列、高通Cloud AI 100、墨芯智能英騰處理器、燧原科技邃思2.0/2.5、瀚博半導(dǎo)體SV100、寒武紀(jì)思元370、鯤云科技CAISA數(shù)據(jù)流推理AI芯片等。
基于上述現(xiàn)狀以及國外技術(shù)的制裁等原因,在國產(chǎn)化AI芯片上進(jìn)行模型部署則具有多方面的重要理由。首先,在AI應(yīng)用中,許多敏感數(shù)據(jù)和任務(wù)涉及國家安全。依賴國際廠商的芯片可能會暴露國家對外部供應(yīng)鏈的依賴性,從而帶來潛在的安全風(fēng)險而使用國產(chǎn)AI芯片可以更好地掌握技術(shù)控制權(quán),確保國家的安全和主權(quán)。其次,發(fā)展國產(chǎn)AI芯片有助于提高技術(shù)自主性。國內(nèi)企業(yè)能夠掌握AI芯片的設(shè)計、制造和優(yōu)化,而不必依賴外國技術(shù)。這有助于加速技術(shù)創(chuàng)新,提高國家的核心競爭力。并且國產(chǎn)AI芯片的發(fā)展將帶動整個創(chuàng)新生態(tài)系統(tǒng)的建設(shè),這包括芯片設(shè)計、軟件開發(fā)、應(yīng)用部署等各個環(huán)節(jié),將促進(jìn)國內(nèi)創(chuàng)業(yè)公司的發(fā)展,推動技術(shù)生態(tài)系統(tǒng)的繁榮。
二、使用華為昇騰310平臺進(jìn)行模型部署
ONNX是一種用于表示和交換深度學(xué)習(xí)模型的開放標(biāo)準(zhǔn)。它的主要目的是解決不同深度學(xué)習(xí)框架之間的互操作性問題,使開發(fā)者能夠輕松地在不同框架之間共享和部署訓(xùn)練好的模型。本文以英偉達(dá)平臺訓(xùn)練導(dǎo)出的ONNX模型為出發(fā)點,主要進(jìn)行如下幾個步驟完成在華為昇騰310平臺上的模型部署
▲ 華為昇騰310芯片主要參數(shù)一覽
1.設(shè)計部署測試流程
由于模型要兼容華為底層硬件,所以需要將原始的ONNX模型轉(zhuǎn)換為華為硬件兼容的OM模型,然后對轉(zhuǎn)換后模型的優(yōu)化適配再進(jìn)行部署。整體的模型的部署測試流程如下圖:
2.對ONNX模型進(jìn)行圖重構(gòu)與優(yōu)化
對模型進(jìn)行改圖優(yōu)化需要安裝auto_optimizer工具,需提前安裝auto_optimizer,安裝教程參考華為昇騰官方倉庫。對模型優(yōu)化步驟參考如下:
- 查看當(dāng)前AI芯片版本支持的可優(yōu)化知識庫:python3 -m auto_optimizer list
- 評估當(dāng)前ONNX模型在昇騰平臺可被優(yōu)化的知識庫:python3 -m auto_optimizer evaluate model.onnx
- 對輸入的ONNX模型進(jìn)行自動改圖優(yōu)化生成新的優(yōu)化后的ONNX模型:python3 -m auto_optimizer optimize model.onnx model_new.onnx
3.將ONNX模型轉(zhuǎn)換為昇騰平臺支持的OM模型
在將原始的ONNX模型進(jìn)行官方的改圖優(yōu)化后,進(jìn)一步將優(yōu)化后的ONNX模型轉(zhuǎn)換成昇騰平臺支持的OM模型。需要提前安裝華為模型轉(zhuǎn)換工具ATC,安裝教程參加華為昇騰官方倉庫。步驟如下:
- 查看當(dāng)前芯片型號:npu-smi info (查看芯片型號用于后續(xù)ATC轉(zhuǎn)換工具中soc_version參數(shù)的設(shè)置,該參數(shù)用于適配轉(zhuǎn)換平臺的芯片型號。)
- 激活A(yù)TC工具環(huán)境:source /usr/local/Ascend/ascend-toolkit/set_env.sh
- 生成動態(tài)維度模型:atc --model=model_new.onnx --framework=5 --input_format=ND --input_shape="input_ids:1,-1;attention_mask:1,-1" --dynamic_dims="256,256;512,512" --output=model_fp16_out_new --soc_version=Ascend310 (具體參數(shù)含義可以參考官方文檔)
4.使用華為ais_bench工具進(jìn)行性能測試
對于轉(zhuǎn)換后的OM模型,華為官方提供ais_bench用于模型性能的測試和評估,需要提前安裝ais_bench工具,安裝教程參考華為ais_bench官方倉庫。測試步驟如下:
激活ais_bench工具環(huán)境:source /usr/local/Ascend/ascend-toolkit/set_env.sh
測試模型推理性能:python3 -m ais_bench --model=model_new.om --dymDims "input_ids:1,512;attention_mask:1,512" --output ./output --outfmt TXT
5.模型測試精度一覽
我們使用FP16格式的命名實體識別模型在昇騰310平臺和英偉達(dá)平臺分別部署進(jìn)行模型的精度測試比較如下:
總的來說,較英偉達(dá)T4芯片,命名實體識別模型平均F1提高0.39。模型在兩個平臺的推理精度差距較小,在合理接受的范圍內(nèi)。
我們采用計算命名實體識別模型在兩個平臺上的平均單次推理時間作為性能比較的指標(biāo),可以看到,由于華為昇騰310對于FP16的性能為8TOPS而英偉達(dá)T4在FP16的性能表現(xiàn)為65TOPS,兩者相差較大,導(dǎo)致單次推理時間存在較大的差距。
三、結(jié)語
國產(chǎn)化AI芯片的快速發(fā)展標(biāo)志著我國在人工智能領(lǐng)域取得了重大突破,為技術(shù)自主創(chuàng)新和國內(nèi)產(chǎn)業(yè)的發(fā)展邁出了堅實的一步。通過將AI模型部署到國產(chǎn)AI芯片上,我們不僅提高了技術(shù)的自主性,還為未來的創(chuàng)新和發(fā)展奠定了堅實的基礎(chǔ)。因此,將深度學(xué)習(xí)大模型部署在更多的國產(chǎn)化AI芯片上并積極使用國產(chǎn)化AI芯片進(jìn)行大模型的訓(xùn)練和推理,將會不斷推動國產(chǎn)化芯片的發(fā)展與技術(shù)社區(qū)的繁榮,具有重要的戰(zhàn)略意義。
參考文獻(xiàn)
[1] tools: Ascend tools - Gitee.com
[2] Ascend/msadvisor - Gitee.com
[3] 昇騰社區(qū)-官網(wǎng)丨昇騰萬里 讓智能無所不及 (hiascend.com)
[4] OM模型部署至Atlas 300I(Ascend 310)推理卡-云社區(qū)-華為云 (huaweicloud.com)
[5] 2022年10大國產(chǎn)AI芯片 - 知乎 (zhihu.com)
[6] 2023年TOP 60 國產(chǎn)AI芯片廠商調(diào)研分析報告 - 知乎 (zhihu.com)
[7] 2022國產(chǎn)AI芯片報告之一:10大國產(chǎn)AI芯片-電子工程專輯 (??eet-china.com??)
本文轉(zhuǎn)載自 ??AI遇見云??,作者: 趙行前
