自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

這種精度高,消耗資源少的大模型稀疏訓(xùn)練方法被找到了

人工智能 新聞
近幾年各大公司和研究機(jī)構(gòu)提出了各式各樣的大模型,這些大模型擁有的參數(shù)從百億級(jí)別到萬(wàn)億級(jí)別不等,甚至于已經(jīng)出現(xiàn)十萬(wàn)億級(jí)別的超大模型。

近日,阿里云機(jī)器學(xué)習(xí)PAI關(guān)于大模型稀疏訓(xùn)練的論文《Parameter-Efficient Sparsity for Large Language Models Fine-Tuning》被人工智能頂會(huì)IJCAI 2022接收。
論文提出了一種參數(shù)高效的稀疏訓(xùn)練算法PST,通過(guò)分析權(quán)重的重要性指標(biāo),得出了其擁有兩個(gè)特性:低秩性和結(jié)構(gòu)性。根據(jù)這一結(jié)論,PST算法引入了兩組小矩陣來(lái)計(jì)算權(quán)重的重要性,相比于原本需要與權(quán)重一樣大的矩陣來(lái)保存和更新重要性指標(biāo),稀疏訓(xùn)練需要更新的參數(shù)量大大減少。對(duì)比常用的稀疏訓(xùn)練算法,PST算法可以在僅更新1.5%的參數(shù)的情況下,達(dá)到相近的稀疏模型精度。

背景

近幾年各大公司和研究機(jī)構(gòu)提出了各式各樣的大模型,這些大模型擁有的參數(shù)從百億級(jí)別到萬(wàn)億級(jí)別不等,甚至于已經(jīng)出現(xiàn)十萬(wàn)億級(jí)別的超大模型。這些模型需要耗費(fèi)大量的硬件資源進(jìn)行訓(xùn)練和部署,從而導(dǎo)致它們面對(duì)著難以落地應(yīng)用的困境。因此,如何減少大模型訓(xùn)練和部署所需的資源成為了一個(gè)急需解決的問(wèn)題。
模型壓縮技術(shù)可以有效的減少模型部署所需的資源,其中稀疏通過(guò)移除部分權(quán)重,使得模型中的計(jì)算可以從稠密計(jì)算轉(zhuǎn)換為稀疏計(jì)算,從而達(dá)到減少內(nèi)存占用,加快計(jì)算速度的效果。同時(shí),稀疏相比于其他模型壓縮方法(結(jié)構(gòu)化剪枝/量化),可以在保證模型精度的情況下達(dá)到更高的壓縮率,更加合適擁有大量參數(shù)的大模型。

挑戰(zhàn)

現(xiàn)有的稀疏訓(xùn)練手段可以分為兩類(lèi),一類(lèi)是基于權(quán)重的data-free稀疏算法;一類(lèi)是基于數(shù)據(jù)的data-driven稀疏算法?;跈?quán)重的稀疏算法如下圖所示,如magnitude pruning[1],通過(guò)計(jì)算權(quán)重的L1范數(shù)來(lái)評(píng)估權(quán)重的重要性,并基于此生成對(duì)應(yīng)稀疏結(jié)果?;跈?quán)重的稀疏算法計(jì)算高效,無(wú)需訓(xùn)練數(shù)據(jù)參與,但是計(jì)算出來(lái)的重要性指標(biāo)不夠準(zhǔn)確,從而影響最終稀疏模型的精度。

基于數(shù)據(jù)的稀疏算法如下圖所示,如movement pruning[2],通過(guò)計(jì)算權(quán)重和對(duì)應(yīng)梯度的乘積作為衡量權(quán)重重要性的指標(biāo)。這類(lèi)方法考慮到了權(quán)重在具體數(shù)據(jù)集上的作用,因此能夠更加準(zhǔn)確的評(píng)估權(quán)重的重要性。但是由于需要計(jì)算并保存各個(gè)權(quán)重的重要性,因此這類(lèi)方法往往需要額外的空間來(lái)存儲(chǔ)重要性指標(biāo)(圖中S)。同時(shí)相較于基于權(quán)重的稀疏方法,往往計(jì)算過(guò)程更加復(fù)雜。這些缺點(diǎn)隨著模型的規(guī)模變大,會(huì)變得更加明顯。

綜上所述,之前的稀疏算法要么高效但是不夠準(zhǔn)確(基于權(quán)重的算法),要么準(zhǔn)確但是不夠高效(基于數(shù)據(jù)的算法)。因此我們期望提出一種高效的稀疏算法,能夠準(zhǔn)確且高效的對(duì)大模型進(jìn)行稀疏訓(xùn)練。

破局

基于數(shù)據(jù)的稀疏算法的問(wèn)題是它們一般會(huì)引入額外的與權(quán)重相同大小的參數(shù)來(lái)學(xué)習(xí)權(quán)重的重要性,這讓我們開(kāi)始思考如何減少引入的額外參數(shù)來(lái)計(jì)算權(quán)重的重要性。首先,為了能夠最大化利用已有信息來(lái)計(jì)算權(quán)重的重要性,我們將權(quán)重的重要性指標(biāo)設(shè)計(jì)成如下公式:

即我們結(jié)合了data-free和data-driven的指標(biāo)來(lái)共同決定最終模型權(quán)重的重要性。已知前面data-free的重要性指標(biāo)無(wú)需額外的參數(shù)來(lái)保存且計(jì)算高效,因此我們需要解決的就是如何壓縮后面那項(xiàng)data-driven重要性指標(biāo)所引入的額外訓(xùn)練參數(shù)。

基于之前的稀疏算法,data-driven重要性指標(biāo)可以設(shè)計(jì)成

,因此我們開(kāi)始分析通過(guò)該公式計(jì)算出來(lái)的重要性指標(biāo)的冗余性。首先,基于之前的工作已知,權(quán)重和對(duì)應(yīng)的梯度均具有明顯的低秩性[3,4],因此我們可以推導(dǎo)出該重要性指標(biāo)也具有低秩性,從而我們可以引入兩個(gè)低秩小矩陣來(lái)表示原始與權(quán)重一樣大的重要性指標(biāo)矩陣。

其次,我們分析了模型稀疏后的結(jié)果,發(fā)現(xiàn)它們具有明顯的結(jié)構(gòu)性特征。如上圖所示,每張圖的右邊是最終稀疏權(quán)重的可視化結(jié)果,左邊是統(tǒng)計(jì)每一行/列對(duì)應(yīng)稀疏率的直方圖??梢钥闯?,左邊圖有30%的行中的大部分權(quán)重都被移除了,反之,右邊圖有30%的列中的大部分權(quán)重都被移除了?;谶@樣的現(xiàn)象,我們引入了兩個(gè)小結(jié)構(gòu)化矩陣來(lái)評(píng)估權(quán)重每一行/列的重要性。

基于上述的分析,我們發(fā)現(xiàn)data-driven的重要性指標(biāo)存在低秩性和結(jié)構(gòu)性,因此我們可以將其轉(zhuǎn)換成如下表示形式:

其中A和B表示低秩性,R和C表示結(jié)構(gòu)性。通過(guò)這樣的分析,原本和權(quán)重一樣大的重要性指標(biāo)矩陣就被分解成了4個(gè)小矩陣,從而大大減少了參與稀疏訓(xùn)練的訓(xùn)練參數(shù)。同時(shí),為了進(jìn)一步減少訓(xùn)練參數(shù),我們基于之前的方法將權(quán)重的更新也分解成了兩個(gè)小矩陣U和V,因此最后的重要性指標(biāo)公式變成如下形式:

對(duì)應(yīng)算法框架圖如下所示:

最終PST算法實(shí)驗(yàn)結(jié)果如下,我們?cè)贜LU(BERT、RoBERTa)和NLG(GPT-2)任務(wù)上與magnitude pruning和movement pruning進(jìn)行比較,在90%的稀疏率下,PST可以在大部分?jǐn)?shù)據(jù)集上達(dá)到與之前算法相當(dāng)?shù)哪P途?,但是僅需1.5%的訓(xùn)練參數(shù)。

PST技術(shù)已經(jīng)集成在阿里云機(jī)器學(xué)習(xí)PAI的模型壓縮庫(kù),以及Alicemind平臺(tái)大模型稀疏訓(xùn)練功能中。為阿里巴巴集團(tuán)內(nèi)部落地使用大模型帶來(lái)了性能加速,在百億大模型PLUG上,PST相比于原本的稀疏訓(xùn)練可以在模型精度不下降的情況下,加速2.5倍,內(nèi)存占用減少10倍。目前,阿里云機(jī)器學(xué)習(xí)PAI已經(jīng)被廣泛應(yīng)用于各行各業(yè),提供AI開(kāi)發(fā)全鏈路服務(wù),實(shí)現(xiàn)企業(yè)自主可控的AI方案,全面提升機(jī)器學(xué)習(xí)工程效率。

論文名字:Parameter-Efficient Sparsity for Large Language Models Fine-Tuning

論文作者:Yuchao Li , Fuli Luo , Chuanqi Tan , Mengdi Wang , Songfang Huang , Shen Li , Junjie Bai

論文pdf鏈接:?https://arxiv.org/pdf/2205.11005.pdf?

責(zé)任編輯:張燕妮 來(lái)源: 阿里云云棲號(hào)
相關(guān)推薦

2023-11-23 18:19:15

騰訊騰訊混元Angel

2022-04-06 07:51:21

數(shù)據(jù)庫(kù)Web連接池

2025-04-28 02:03:00

多模態(tài)大模型EVEv2

2025-02-17 10:40:20

2023-10-31 12:45:00

智能數(shù)據(jù)

2023-08-14 08:46:54

AI論文

2025-03-10 02:00:00

2024-10-14 13:20:00

2023-09-07 13:25:09

2024-06-27 10:00:54

2023-02-09 16:32:16

混合精度深度學(xué)習(xí)

2024-02-21 12:10:00

模型數(shù)據(jù)

2022-05-27 11:59:22

Linux內(nèi)存CPU

2024-10-09 13:42:29

2023-11-09 10:41:41

大模型人工智能

2013-10-09 09:53:41

AMD微型服務(wù)器Opteron 630

2025-03-27 09:47:23

訓(xùn)練模型AI

2024-09-26 00:11:01

2023-09-13 07:02:40

訓(xùn)練測(cè)試

2025-02-24 08:40:00

開(kāi)源模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)