四倍提速,字節(jié)跳動開源高性能訓(xùn)練推理引擎LightSeq技術(shù)揭秘
原創(chuàng)Transformer模型出自于Google團隊2017年發(fā)表的論文《Attention is all you need》,該論文中首次提出了使用Attention替換Seq2Seq模型循環(huán)結(jié)構(gòu)的概念,給NLP領(lǐng)域帶來了極大沖擊。且隨著近年來研究的不斷推進,Transformer相關(guān)技術(shù)逐漸由自然語言處理流向其他領(lǐng)域。截止目前,Transformer系列模型已經(jīng)成為了NLP、CV、ASR等領(lǐng)域的主流模型。
因此,如何更快地訓(xùn)練和推理Transformer模型已成為業(yè)界的一個重要研究方向。低精度量化技術(shù)能夠通過降低數(shù)據(jù)的寬位來加速計算和通信過程,是現(xiàn)階段模型訓(xùn)練推理加速的一個重要手段。但美中不足的是,量化會造成精度和效果的損失,需要通過量化感知和訓(xùn)練等手段進行降損。針對以上痛點,字節(jié)跳動研發(fā)升級了LightSeq訓(xùn)練推理加速引擎3.0版本,首次同步實現(xiàn)了精度無損的Transformer模型量化訓(xùn)練和量化推理。
LightSeq通過int8 GEMM實現(xiàn)了真量化訓(xùn)練過程,并非采用業(yè)界廣泛使用的偽量化方法,能夠?qū)崿F(xiàn)模型訓(xùn)練速度4倍以上的提升。而通過PACT等量化策略,可以將量化訓(xùn)練的損失降到最低。在將量化模型導(dǎo)出為LightSeq支持格式后,可以進一步使用LightSeq量化推理引擎實現(xiàn)快速推理,在T4顯卡上提速最高可達70%。
在7月21日的【T·TALK】技術(shù)分享活動中,我們特別邀請到了字節(jié)跳動算法工程師、LightSeq核心開發(fā)者熊鷹老師做客直播間,為廣大觀眾揭秘字節(jié)跳動高性能訓(xùn)練推理引擎LightSeq的技術(shù)原理與實踐細節(jié)。無論你是算法行業(yè)從業(yè)人員,還是熱衷于鉆研AI技術(shù)的開發(fā)者,相信你都能從本次分享中收獲一些別樣的技術(shù)經(jīng)驗與創(chuàng)新靈感。
歡迎大家參與7月21日,晚上20:00【T·TALK】第12期技術(shù)分享活動
掃海報下方二維碼預(yù)約觀看