自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型首選AI框架——昇思MindSpore2.3.RC1版本上線開源社區(qū)

開發(fā) 架構(gòu)
經(jīng)過社區(qū)開發(fā)者們幾個月的開發(fā)與貢獻,現(xiàn)正式發(fā)布昇思MindSpore2.3.RC1版本,通過多維混合并行以及確定性CKPT來實現(xiàn)超大集群的高性能訓(xùn)練,支持大模型訓(xùn)推一體架構(gòu),大模型開發(fā)訓(xùn)練推理更簡、更穩(wěn)、更高效

經(jīng)過社區(qū)開發(fā)者們幾個月的開發(fā)與貢獻,現(xiàn)正式發(fā)布昇思MindSpore2.3.RC1版本,通過多維混合并行以及確定性CKPT來實現(xiàn)超大集群的高性能訓(xùn)練,支持大模型訓(xùn)推一體架構(gòu),大模型開發(fā)訓(xùn)練推理更簡、更穩(wěn)、更高效,并在訓(xùn)推一體框架的基礎(chǔ)上通過多樣的大模型推理優(yōu)化技術(shù),進一步降低大模型推理成本;通過使能kernel by kernel調(diào)度執(zhí)行,進一步提升靜態(tài)圖調(diào)試調(diào)優(yōu)能力;持續(xù)升級MindSpore TransFormers大模型套件和MindSpore One生成式套件,全流程開箱即用,一周即可完成大模型全流程的開發(fā)、驗證;創(chuàng)新AI+科學(xué)計算(科學(xué)智能)范式,孵化科學(xué)領(lǐng)域基礎(chǔ)大模型;下面就帶大家詳細(xì)了解下2.3.RC1版本的關(guān)鍵特性。

大模型訓(xùn)練:細(xì)粒度多副本并行,有效提升計算通信并發(fā)度,顯著提升大模型訓(xùn)練性能

大模型訓(xùn)練下,為了降低顯存開銷,廣泛的使用算子級并行技術(shù),其中引入了大量的模型并行的通信,極大地影響了大模型的訓(xùn)練效率。模型并行的通信,從網(wǎng)絡(luò)的結(jié)構(gòu)上來看,其處于正反向計算過程中,阻塞正反向計算,無法與正反向的計算進行互相掩蓋。為了解決模型并行通信的掩蓋問題,MindSpore提出了多副本并行技術(shù)。

在舊版本的MindSpore上通過將網(wǎng)絡(luò)從數(shù)據(jù)開始進行拆分,如下圖所示,在單張卡內(nèi),通過slice算子將Batch維度進行拆分,進而產(chǎn)生多個分支,這多個分支的計算與通信互相之間沒有依賴,存在并發(fā)的空間,通過執(zhí)行序調(diào)度算法,控制多個分支的計算與通信進行并發(fā)。


隨著網(wǎng)絡(luò)規(guī)模的增大,受限于顯存限制,當(dāng)一張卡內(nèi)的BatchSize僅支持為1時,上述對整網(wǎng)進行Batch拆分的方案不再可行。因此,考慮到模型并行通信的位置,思MindSpore2.3.RC1版本將Transformer模型中的AttentionProjection層以及FFN層進行拆分,產(chǎn)生多個分支,通過執(zhí)行序調(diào)度算法控制細(xì)粒度的多分支的并行,其中拆分從AttentionProjection開始,到下一個Layer的QKV計算前結(jié)束。


上圖描述了序列并行場景下的細(xì)粒度多副本拆分與掩蓋基本思路,拆分為兩個副本,在正向可以達(dá)成50%+的通信掩蓋;而在反向,結(jié)合計算梯度的分支的計算與TP通信的掩蓋,可達(dá)成90%的通信的掩蓋。當(dāng)前細(xì)粒度多副本并行僅在MindSpore Transformers的LLAMA網(wǎng)絡(luò)進行了實現(xiàn),需要對模型結(jié)構(gòu)進行手動改造為多個副本。后續(xù)版本昇思MindSpore將集成自動拆分副本的邏輯,達(dá)成更易用的細(xì)粒度多副本并行。

參考鏈接:https://www.mindspore.cn/tutorials/experts/zh-CN/master/parallel/multiple_copy.html

大模型推理全棧升級

大模型大規(guī)模商用之后,推理消耗的算力規(guī)模將十分龐大,相應(yīng)地帶來高昂的成本,商業(yè)閉環(huán)依賴推理規(guī)模突破。在降低大模型推理的成本的同時,要兼顧模型精度和計算時延,不能影響用戶的體驗。昇思MindSpore 2.3.RC1版本,從最上層推理服務(wù)到模型腳本優(yōu)化到推理引擎LLM Serving,為用戶提供端到端的高效推理解決方案。

訓(xùn)推一體:大模型訓(xùn)/推統(tǒng)一腳本,大幅簡化部署流程,提高效率

模型腳本默認(rèn)使能了增量推理、FlashAttention/PagedAttention等推理加速技術(shù),避免了模型導(dǎo)出、切分、推理腳本開發(fā)等一系列工作,訓(xùn)練到推理加速平滑遷移,部署周期下降到天級。

極致性能:持續(xù)提升融合大算子、并行推理、模型小型化的關(guān)鍵能力

融合大算子:新增10+業(yè)界最新的推理融合大算子接口,模型開發(fā)人員可以快速使能推理融合算子實現(xiàn)加速。

并行推理:訓(xùn)練推理并行策略接口一致,提供訓(xùn)練并行到推理并行ckpt重切分接口,支持動態(tài)shape模型切分。

模型壓縮:思MindSpore金箍棒升級到2.0版本,提供了針對大模型的業(yè)界SOTA以及華為諾亞自研的量化、減枝等算法,實現(xiàn)千億大模型10倍+壓縮。

以上技術(shù)均可泛化的應(yīng)用于Transformer結(jié)構(gòu)的大模型中,經(jīng)過驗證,在盤古、Llama 2的8卡模型推理中,首token時延做到百ms級,平均token時延小于50ms,保持業(yè)界領(lǐng)先水平。


服務(wù)化高吞吐

通過連續(xù)批調(diào)度、Prefill/Decoding混合部署等手段,盡可能的消除掉冗余計算,確保算力不閑置,實現(xiàn)大模型推理吞吐提升2倍+。

參考鏈接:https://www.mindspore.cn/lite/docs/zh-CN/r2.3.0rc1/use/cloud_infer/runtime_distributed_python.html

靜態(tài)圖優(yōu)化:支持O(n)多級編譯,使能kernel by kernel調(diào)度執(zhí)行,提升靜態(tài)圖調(diào)試調(diào)優(yōu)能力

整圖下沉執(zhí)行性能最優(yōu),但大模型的規(guī)模和參數(shù)量發(fā)展得更為龐大,整圖下沉執(zhí)行方式在整圖編譯過程中耗時較長,一個千億級別的大模型的編譯時間為30分鐘-60分鐘,調(diào)試調(diào)優(yōu)效率低下。為解決上述問題,昇思MindSpore2.3.RC1版本中,提供了多級編譯技術(shù),O0原生構(gòu)圖不優(yōu)化、O1增加自動算子融合優(yōu)化、O2整圖下沉執(zhí)行優(yōu)化。在O0的編譯選項下,通過原生圖編譯和kernel by kernel(KBK)的執(zhí)行技術(shù),可以將編譯時間提升到15分鐘以內(nèi),同時我們在新版本中還開發(fā)了DryRun技術(shù),用戶可以直接在離線的情況進行內(nèi)存瓶頸分析和并行策略調(diào)優(yōu),結(jié)合這兩大技術(shù)可以使得大模型調(diào)試效率倍增。在O0這種編譯條件下,我們使能了SOMAS/LazyInline/控制流Inline來提升內(nèi)存復(fù)用率,使能了多流并行/流水異步調(diào)度,可以提升執(zhí)行性能;在O1這種編譯條件下,通過使能算子融合技術(shù),KBK執(zhí)行模式下可以有更好的執(zhí)行性能。


參考鏈接:https://www.mindspore.cn/docs/zh-CN/r2.3.0rc1/api_python/mindspore/mindspore.JitConfig.html?highlight=jitconfig

JIT兼具易用性和性能,動靜統(tǒng)一,提供靈活高效開發(fā)

思MindSpore支持圖模式(靜態(tài)圖)和PyNative模式(動態(tài)圖)兩種運行方法。動態(tài)圖易于調(diào)試,開發(fā)靈活,易用性好;靜態(tài)圖語法支持有限,但執(zhí)行性能好。JIT兼顧性能和易用性,通過對Python字節(jié)碼進行分析&調(diào)整、執(zhí)行流進行圖捕獲&圖優(yōu)化,支持入圖的Python代碼做靜態(tài)圖方式執(zhí)行,不支持的進行子圖切分以動態(tài)圖方式執(zhí)行,自動地做到動靜統(tǒng)一,實現(xiàn)方法如下圖所示。


參考鏈接:https://www.mindspore.cn/docs/zh-CN/r2.3/design/dynamic_graph_and_static_graph.html#%E5%8A%A8%E6%80%81%E5%9B%BE%E8%BD%AC%E9%9D%99%E6%80%81%E5%9B%BE%E6%8A%80%E6%9C%AF

MindSpore Elec:新增大地電磁智能反演模型

MindSpore Elec電磁仿真套件升級至0.3版本,聯(lián)合清華大學(xué)李懋坤教授團隊、華為先進計算與存儲實驗室共同打造了基于昇思MindSpore的大地電磁(Magnetotelluric,MT)智能反演模型。該模型通過變分自編碼器(VAE)靈活嵌入了多物理先驗知識,達(dá)到了業(yè)界SOTA。該成果已被國際頂級勘探地球物理期刊《Geophysics》收錄,同時也在昇思人工智能框架峰會2024上發(fā)布亮相。

(1)基礎(chǔ)MT反演:反演區(qū)域水平長度為10km,深度為1km。下圖1中目標(biāo)電阻率分布(第一列)與傳統(tǒng)大地電磁反演(第二列)、大地電磁智能反演(第三列),可以看出大地電磁智能反演相比傳統(tǒng)反演精度顯著提升(前者殘差為0.0056和0.0054;后者為0.023和0.024 );下圖2中,大地電磁智能反演性能也優(yōu)于傳統(tǒng)反演方法(前者收斂步數(shù)為4和4;后者為6和4)。

目標(biāo)電阻率

傳統(tǒng)方法

我們的工作































1 大地電磁反演精度對比









2 大地電磁反演收斂速度對比(Pixel-based:傳統(tǒng)反演;Feature-based:我們的工作)

(2)南部非洲MT反演:大地電磁智能反演模型也在南部非洲開源數(shù)據(jù)集(SAMTEX)上做了驗證。該反演區(qū)域位于南部非洲西海岸附近,長度約為750km,深度選定為80km。該測區(qū)顯著特征為在水平方向100km至400km之間,深度20km以淺的區(qū)域存在的高導(dǎo)結(jié)構(gòu)。由于低頻電磁波在導(dǎo)體結(jié)構(gòu)中的衰減,MT方法對高導(dǎo)結(jié)構(gòu)下部區(qū)域的敏感度很低, 因此無先驗知識約束的傳統(tǒng)MT反演難以準(zhǔn)確重建高導(dǎo)地層的下邊界位置。大地電磁智能反演對高導(dǎo)地層的下邊界重建較為清晰準(zhǔn)確,較好地將地層厚度的先驗知識融入了反演。



圖3 南部非洲MT反演示例圖(上圖:傳統(tǒng)反演;下圖:我們的工作)

參考鏈接:https://gitee.com/mindspore/mindscience/tree/master/MindElec

責(zé)任編輯:張誠
相關(guān)推薦

2022-03-28 18:08:03

昇思

2024-03-22 21:53:30

昇思人工智能

2023-09-06 19:44:26

昇騰

2023-06-19 14:55:48

2023-06-16 11:39:01

昇思

2024-12-15 15:13:40

2023-06-20 11:49:04

昇思AI

2023-06-16 14:08:19

昇思

2024-12-10 11:11:22

2020-09-16 14:39:13

微軟開發(fā)功能

2020-03-30 10:50:17

AI 數(shù)據(jù)人工智能

2024-12-14 15:18:52

點贊
收藏

51CTO技術(shù)棧公眾號