自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="lhlqm"><i id="lhlqm"></i></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

這種精度高，消耗資源少的大模型稀疏訓(xùn)練方法被找到了

2022-12-27 09:40:35

人工智能新聞

近幾年各大公司和研究機(jī)構(gòu)提出了各式各樣的大模型，這些大模型擁有的參數(shù)從百億級(jí)別到萬(wàn)億級(jí)別不等，甚至于已經(jīng)出現(xiàn)十萬(wàn)億級(jí)別的超大模型。

近日，阿里云機(jī)器學(xué)習(xí)PAI關(guān)于大模型稀疏訓(xùn)練的論文《Parameter-Efficient Sparsity for Large Language Models Fine-Tuning》被人工智能頂會(huì)IJCAI 2022接收。
論文提出了一種參數(shù)高效的稀疏訓(xùn)練算法PST，通過(guò)分析權(quán)重的重要性指標(biāo)，得出了其擁有兩個(gè)特性：低秩性和結(jié)構(gòu)性。根據(jù)這一結(jié)論，PST算法引入了兩組小矩陣來(lái)計(jì)算權(quán)重的重要性，相比于原本需要與權(quán)重一樣大的矩陣來(lái)保存和更新重要性指標(biāo)，稀疏訓(xùn)練需要更新的參數(shù)量大大減少。對(duì)比常用的稀疏訓(xùn)練算法，PST算法可以在僅更新1.5%的參數(shù)的情況下，達(dá)到相近的稀疏模型精度。

背景

近幾年各大公司和研究機(jī)構(gòu)提出了各式各樣的大模型，這些大模型擁有的參數(shù)從百億級(jí)別到萬(wàn)億級(jí)別不等，甚至于已經(jīng)出現(xiàn)十萬(wàn)億級(jí)別的超大模型。這些模型需要耗費(fèi)大量的硬件資源進(jìn)行訓(xùn)練和部署，從而導(dǎo)致它們面對(duì)著難以落地應(yīng)用的困境。因此，如何減少大模型訓(xùn)練和部署所需的資源成為了一個(gè)急需解決的問(wèn)題。
模型壓縮技術(shù)可以有效的減少模型部署所需的資源，其中稀疏通過(guò)移除部分權(quán)重，使得模型中的計(jì)算可以從稠密計(jì)算轉(zhuǎn)換為稀疏計(jì)算，從而達(dá)到減少內(nèi)存占用，加快計(jì)算速度的效果。同時(shí)，稀疏相比于其他模型壓縮方法（結(jié)構(gòu)化剪枝/量化），可以在保證模型精度的情況下達(dá)到更高的壓縮率，更加合適擁有大量參數(shù)的大模型。

挑戰(zhàn)

現(xiàn)有的稀疏訓(xùn)練手段可以分為兩類(lèi)，一類(lèi)是基于權(quán)重的data-free稀疏算法；一類(lèi)是基于數(shù)據(jù)的data-driven稀疏算法?；跈?quán)重的稀疏算法如下圖所示，如magnitude pruning[1]，通過(guò)計(jì)算權(quán)重的L1范數(shù)來(lái)評(píng)估權(quán)重的重要性，并基于此生成對(duì)應(yīng)稀疏結(jié)果?；跈?quán)重的稀疏算法計(jì)算高效，無(wú)需訓(xùn)練數(shù)據(jù)參與，但是計(jì)算出來(lái)的重要性指標(biāo)不夠準(zhǔn)確，從而影響最終稀疏模型的精度。

基于數(shù)據(jù)的稀疏算法如下圖所示，如movement pruning[2]，通過(guò)計(jì)算權(quán)重和對(duì)應(yīng)梯度的乘積作為衡量權(quán)重重要性的指標(biāo)。這類(lèi)方法考慮到了權(quán)重在具體數(shù)據(jù)集上的作用，因此能夠更加準(zhǔn)確的評(píng)估權(quán)重的重要性。但是由于需要計(jì)算并保存各個(gè)權(quán)重的重要性，因此這類(lèi)方法往往需要額外的空間來(lái)存儲(chǔ)重要性指標(biāo)(圖中S)。同時(shí)相較于基于權(quán)重的稀疏方法，往往計(jì)算過(guò)程更加復(fù)雜。這些缺點(diǎn)隨著模型的規(guī)模變大，會(huì)變得更加明顯。

綜上所述，之前的稀疏算法要么高效但是不夠準(zhǔn)確(基于權(quán)重的算法)，要么準(zhǔn)確但是不夠高效(基于數(shù)據(jù)的算法)。因此我們期望提出一種高效的稀疏算法，能夠準(zhǔn)確且高效的對(duì)大模型進(jìn)行稀疏訓(xùn)練。

破局

基于數(shù)據(jù)的稀疏算法的問(wèn)題是它們一般會(huì)引入額外的與權(quán)重相同大小的參數(shù)來(lái)學(xué)習(xí)權(quán)重的重要性，這讓我們開(kāi)始思考如何減少引入的額外參數(shù)來(lái)計(jì)算權(quán)重的重要性。首先，為了能夠最大化利用已有信息來(lái)計(jì)算權(quán)重的重要性，我們將權(quán)重的重要性指標(biāo)設(shè)計(jì)成如下公式：

即我們結(jié)合了data-free和data-driven的指標(biāo)來(lái)共同決定最終模型權(quán)重的重要性。已知前面data-free的重要性指標(biāo)無(wú)需額外的參數(shù)來(lái)保存且計(jì)算高效，因此我們需要解決的就是如何壓縮后面那項(xiàng)data-driven重要性指標(biāo)所引入的額外訓(xùn)練參數(shù)。

基于之前的稀疏算法，data-driven重要性指標(biāo)可以設(shè)計(jì)成

，因此我們開(kāi)始分析通過(guò)該公式計(jì)算出來(lái)的重要性指標(biāo)的冗余性。首先，基于之前的工作已知，權(quán)重和對(duì)應(yīng)的梯度均具有明顯的低秩性[3,4]，因此我們可以推導(dǎo)出該重要性指標(biāo)也具有低秩性，從而我們可以引入兩個(gè)低秩小矩陣來(lái)表示原始與權(quán)重一樣大的重要性指標(biāo)矩陣。

其次，我們分析了模型稀疏后的結(jié)果，發(fā)現(xiàn)它們具有明顯的結(jié)構(gòu)性特征。如上圖所示，每張圖的右邊是最終稀疏權(quán)重的可視化結(jié)果，左邊是統(tǒng)計(jì)每一行/列對(duì)應(yīng)稀疏率的直方圖?？梢钥闯?，左邊圖有30%的行中的大部分權(quán)重都被移除了，反之，右邊圖有30%的列中的大部分權(quán)重都被移除了?；谶@樣的現(xiàn)象，我們引入了兩個(gè)小結(jié)構(gòu)化矩陣來(lái)評(píng)估權(quán)重每一行/列的重要性。

基于上述的分析，我們發(fā)現(xiàn)data-driven的重要性指標(biāo)存在低秩性和結(jié)構(gòu)性，因此我們可以將其轉(zhuǎn)換成如下表示形式：

其中A和B表示低秩性，R和C表示結(jié)構(gòu)性。通過(guò)這樣的分析，原本和權(quán)重一樣大的重要性指標(biāo)矩陣就被分解成了4個(gè)小矩陣，從而大大減少了參與稀疏訓(xùn)練的訓(xùn)練參數(shù)。同時(shí)，為了進(jìn)一步減少訓(xùn)練參數(shù)，我們基于之前的方法將權(quán)重的更新也分解成了兩個(gè)小矩陣U和V，因此最后的重要性指標(biāo)公式變成如下形式：

對(duì)應(yīng)算法框架圖如下所示：

最終PST算法實(shí)驗(yàn)結(jié)果如下，我們?cè)贜LU(BERT、RoBERTa)和NLG（GPT-2）任務(wù)上與magnitude pruning和movement pruning進(jìn)行比較，在90%的稀疏率下，PST可以在大部分?jǐn)?shù)據(jù)集上達(dá)到與之前算法相當(dāng)?shù)哪Ｐ途?，但是僅需1.5%的訓(xùn)練參數(shù)。

PST技術(shù)已經(jīng)集成在阿里云機(jī)器學(xué)習(xí)PAI的模型壓縮庫(kù)，以及Alicemind平臺(tái)大模型稀疏訓(xùn)練功能中。為阿里巴巴集團(tuán)內(nèi)部落地使用大模型帶來(lái)了性能加速，在百億大模型PLUG上，PST相比于原本的稀疏訓(xùn)練可以在模型精度不下降的情況下，加速2.5倍，內(nèi)存占用減少10倍。目前，阿里云機(jī)器學(xué)習(xí)PAI已經(jīng)被廣泛應(yīng)用于各行各業(yè)，提供AI開(kāi)發(fā)全鏈路服務(wù)，實(shí)現(xiàn)企業(yè)自主可控的AI方案，全面提升機(jī)器學(xué)習(xí)工程效率。

論文名字：Parameter-Efficient Sparsity for Large Language Models Fine-Tuning

論文作者：Yuchao Li , Fuli Luo , Chuanqi Tan , Mengdi Wang , Songfang Huang , Shen Li , Junjie Bai

論文pdf鏈接：?https://arxiv.org/pdf/2205.11005.pdf?

責(zé)任編輯：張燕妮來(lái)源：阿里云云棲號(hào)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="vptht"></cite>

^{<sub id="vptht"></sub>}

<style id="vptht"></style>