騰訊發(fā)布超大預(yù)訓(xùn)練系統(tǒng)派大星,性能優(yōu)于微軟DeepSpeed
近日,騰訊微信AI團隊聯(lián)合Tencent NLP Oteam于GitHub上發(fā)布開源項目派大星“PatrickStar”。該開源項目將聚焦解決GPT、BERT等超大模型訓(xùn)練時產(chǎn)生的“GPU內(nèi)存墻”問題,使用更為創(chuàng)新的異構(gòu)內(nèi)存管理方法,讓相同配置的機器能夠訓(xùn)練更大的模型,以更節(jié)能環(huán)保的方式讓預(yù)訓(xùn)練模型普惠每位NLP社區(qū)用戶。經(jīng)測試結(jié)果顯示,派大星性能表現(xiàn)優(yōu)于微軟DeepSpeed,在不到5000元價位的個人游戲電腦上,即可訓(xùn)練一個7億參數(shù)的GPT模型。
以GPT、BERT為代表的預(yù)訓(xùn)練模型(PTM)是自然語言處理(NLP)領(lǐng)域的核心技術(shù),但由于GPU硬件的存儲空間有限,PTM的可訓(xùn)練規(guī)模難以突破,專業(yè)人員稱之為"GPU內(nèi)存墻",同時, PTM預(yù)訓(xùn)練的過程具備高耗能、高成本、高碳等弊端——往往訓(xùn)練一次萬億級別的預(yù)訓(xùn)練模型要燒掉154萬人民幣,消耗的電能制釋相當(dāng)于數(shù)十輛小汽車從出廠到報廢的碳排放總和。
為攻克該痛點,騰訊微信AI團隊聯(lián)合TencentNLP Oteam從頭搭建了派大星。它通過細粒度的方式管理模型數(shù)據(jù),更有效使用了異構(gòu)內(nèi)存空間,進一步突破PTM模型規(guī)模的極限。同時,派大星的設(shè)計比同類方法占用更低內(nèi)存使用,減少了CPU和GPU之間數(shù)據(jù)搬移開銷,從而顯著提升了計算資源的利用率。并且,派大星可以和多種并行訓(xùn)練方式正交使用。比如,派大星使用微軟提出的零冗余優(yōu)化器來實現(xiàn)單機多卡的數(shù)據(jù)并行。
實驗結(jié)果表明,派大星將模型規(guī)模上限在目前最佳方案DeepSpeed的基礎(chǔ)上提升了 1.5 倍,并且展現(xiàn)了明顯高于DeepSpeed的計算效率。這將極大降低了PTM訓(xùn)練過程中的碳排放,以技術(shù)優(yōu)化的方式助力低碳環(huán)保事業(yè)。
目前,派大星已參與到微信搜一搜、微信對話開放平臺、小微智能音響等產(chǎn)品研發(fā)工作中,助力降低GPU卡使用數(shù)量,提升機器的利用率,減少數(shù)據(jù)中心的碳排放規(guī)模。接下來,微信AI團隊也將持續(xù)深化開源技術(shù)的研發(fā)及應(yīng)用,以創(chuàng)新促進行業(yè)發(fā)展及生態(tài)建設(shè)。