英特爾AI芯片中國定制版發(fā)布!打的就是英偉達A100
AIGC時代,誰說煉大模型就一定得用GPU?
英特至強CPU,運行擴散模型Stable Diffusion只需5秒就能出圖。
而在這兩天,專門搭載在該CPU上使用的AI加速器更是新鮮出爐。
它叫Gaudi2,面向中國市場發(fā)布,用于加速AI訓練及推理,有了它,大規(guī)模部署AI便多了一種新選擇。
性能上,它在MLPerf最新報告中的多種訓練和推理基準測試中都直接超越了英偉達A100,并提供了約2倍的性價比。
至于H100,它雖然還不能敵過,但若拉上成本,則也能“扳回一局”。
這款主打超強性價比的AI加速器,究竟什么來頭?
全新Gaudi2加速器,性能超A100
Gaudi2深度學習加速器暨Gaudi2夾層卡HL-225B,以第一代Gaudi高性能架構為基礎,加速高性能大語言模型運行。
(ps. Gaudi1代處理器誕生于2019年,其背后公司來自以色列,當年年底被英特爾以20億美元收購,如今成為英特爾“叫板”英偉達的重要底氣。)
Gaudi2采用7nm制程工藝,具備24個可編程Tensor處理器核心(TPCs),支持面向AI的各類高級數據類型:FP8、BF16、FP16、TF32和FP32。
它配備21個100 Gbps(RoCEv2)以太網接口,可通過直接路由實現Gaudi處理器間通信(相比原版少了3個,但英特爾公司執(zhí)行副總裁Sandra Rivera介紹,這對整體性能影響基本不大)。
同時,它還能做到2.4TB/秒的總內存帶寬,先進的HBM控制器則針對隨機訪問和線性訪問進行了優(yōu)化,在各種訪問模式下都可以提供這一保證。
此外,48MB片上SRAM和集成多媒體處理引擎亦是標配。
圖片
就在上個月公布的MLCommons? MLPerf?基準測試中,Gaudi2在1750億參數的GPT-3模型訓練上表現出色,使用384個加速器上耗時311分鐘就完成了訓練。
雖然相比之下,英偉達只需61分鐘便可,但這樣的成績需要512個H100——由于Gaudi2的成本要遠低于H100,所以要論性價比,Sandra Rivera表示,Gaudi2是更具誘惑力的選擇。
與此同時,Gaudi2在基于8個和64個加速器助力的BERT、8個加速器助力的ResNet-50和Unet3D訓練結果上,全部優(yōu)于A100。
此外,Gaudi2也可為大規(guī)模的多模態(tài)和語言模型提供出色的推理性能。
在最近的Hugging Face評估中,其在大規(guī)模推理方面的表現,包括在運行Stable Diffusion、70億以及1760億參數BLOOMZ模型時,在行業(yè)內均保持領先。
能耗方面,訓練計算機視覺模型時,Gaudi2的每瓦性能是A100的2倍,推理176B參數的BLOOMZ時,功耗則可降低40%。
——不僅性能和功耗強大,英特爾還提供了配套的成熟軟件支持:SynapseAI。
它可以方便開發(fā)者輕松構建模型,或將當前基于GPU的模型業(yè)務和系統遷移到基于全新Gaudi2服務器。
同時,SynapseAI集成了對TensorFlow和PyTorch框架的支持,提供眾多流行的計算機視覺和自然語言參考模型,可以滿足深度學習開發(fā)者的多樣化需求。
另外,說到Gaudi2服務器,現在,英特爾已與浪潮信息合作,打造并發(fā)售基于Gaudi2深度學習加速器的浪潮信息AI服務器NF5698G7。
該服務器集成了8顆Gaudi2加速卡HL-225B,還包含雙路第四代英特爾至強可擴展處理器,進一步幫助大家高效部署大模型。
最后,值得一提的是,在發(fā)布會后的交流環(huán)節(jié)中,當被問及英特爾是否有一個預期,能占領多少AI加速芯片的市場時,Sandra Rivera表示:
國內AI產品需求非常大,產品完全不夠用。因此市場就在那里,在這種情況下我們不用特別設什么份額的目標,就把最好的產品帶出來,滿足市場需求,幫助大家創(chuàng)新,這就是我們想要做的事情。
而據量子位現場獲悉,明年,能夠進一步縮小差距甚至超越英偉達H100的Gaudi3就將問世。
與此同時,2025年之時,英特爾還將整合既有的GPU Max產品線和Gaudi系列,取兩者之長,推出更加完整的下一代GPU產品。
而在這之中,英特爾將對大家最為關心的可持續(xù)軟件生態(tài)做大筆投入。