自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全面綜述!大模型到底微調(diào)個(gè)啥?或者說技術(shù)含量到底有多大?

人工智能 新聞
我們對各種PEFT算法進(jìn)行了全面的研究,檢查了它們的性能和計(jì)算開銷。此外,我們還概述了使用不同PEFT算法開發(fā)的應(yīng)用程序,并討論了用于降低PEFT計(jì)算成本的常用技術(shù)。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

大型模型代表了多個(gè)應(yīng)用領(lǐng)域的突破性進(jìn)展,能夠在各種任務(wù)中取得顯著成就。然而,它們前所未有的規(guī)模帶來了巨大的計(jì)算成本。這些模型通常由數(shù)十億個(gè)參數(shù)組成,需要大量的計(jì)算資源才能執(zhí)行。特別是,當(dāng)為特定的下游任務(wù)定制它們時(shí),特別是在受計(jì)算能力限制的硬件平臺上,擴(kuò)展的規(guī)模和計(jì)算需求帶來了相當(dāng)大的挑戰(zhàn)。

參數(shù)有效微調(diào)(PEFT)通過在各種下游任務(wù)中有效地調(diào)整大型模型,提供了一種實(shí)用的解決方案。特別是,PEFT是指調(diào)整預(yù)先訓(xùn)練的大型模型的參數(shù),使其適應(yīng)特定任務(wù)或領(lǐng)域,同時(shí)最小化引入的額外參數(shù)或所需計(jì)算資源的數(shù)量的過程。當(dāng)處理具有高參數(shù)計(jì)數(shù)的大型語言模型時(shí),這種方法尤其重要,因?yàn)閺念^開始微調(diào)這些模型可能計(jì)算成本高昂且資源密集,在支持系統(tǒng)平臺設(shè)計(jì)中提出了相當(dāng)大的挑戰(zhàn)。

在這項(xiàng)調(diào)查中,我們對各種PEFT算法進(jìn)行了全面的研究,檢查了它們的性能和計(jì)算開銷。此外,我們還概述了使用不同PEFT算法開發(fā)的應(yīng)用程序,并討論了用于降低PEFT計(jì)算成本的常用技術(shù)。除了算法角度之外,我們還概述了各種現(xiàn)實(shí)世界中的系統(tǒng)設(shè)計(jì),以研究與不同PEFT算法相關(guān)的實(shí)施成本。這項(xiàng)調(diào)查是研究人員了解PEFT算法及其系統(tǒng)實(shí)現(xiàn)的不可或缺的資源,為最新進(jìn)展和實(shí)際應(yīng)用提供了詳細(xì)的見解。

PEFT分類

PEFT策略可大致分為四類:附加PEFT(第III-A節(jié)),通過注入新的可訓(xùn)練模塊或參數(shù)來修改模型架構(gòu);選擇性PEFT(第III-B節(jié)),使參數(shù)子集在微調(diào)期間可訓(xùn)練;重新參數(shù)化PEFT(第III-C節(jié)),它構(gòu)建了用于訓(xùn)練的原始模型參數(shù)的(低維)重新參數(shù)化,然后等效地將其轉(zhuǎn)換回用于推理;以及混合PEFT(第III-D節(jié)),它結(jié)合了不同PEFT方法的優(yōu)勢,建立了統(tǒng)一的PEFT模型。不同類型的PEFT算法概述如圖4所示。

A. Additive PEFT

標(biāo)準(zhǔn)的完全微調(diào)需要大量的計(jì)算費(fèi)用,也可能損害模型的泛化能力。為了緩解這個(gè)問題,一種廣泛采用的方法是保持預(yù)先訓(xùn)練的主干不變,并且只引入在模型架構(gòu)中戰(zhàn)略性定位的最小數(shù)量的可訓(xùn)練參數(shù)。在針對特定下游任務(wù)進(jìn)行微調(diào)時(shí),僅更新這些附加模塊或參數(shù)的權(quán)重,這導(dǎo)致存儲、內(nèi)存和計(jì)算資源需求的顯著減少。如圖4(a)所示,由于這些技術(shù)具有添加參數(shù)的特性,因此可以將其稱為加性調(diào)整。接下來,我們將討論幾種流行的加法PEFT算法。

1)適配器:適配器方法包括在Transformer塊中插入小型適配器層。

2)軟提示:提示調(diào)整提供了一種額外的方法來細(xì)化模型,以通過微調(diào)提高性能。

3)其他加法方法:除了上述方法外,還出現(xiàn)了其他方法,在微調(diào)過程中戰(zhàn)略性地加入了額外的參數(shù)。

B. Selective PEFT

如圖4(b)所示,選擇性PEFT不是通過添加更多參數(shù)來增加模型復(fù)雜性的附加PEFT,而是對現(xiàn)有參數(shù)的子集進(jìn)行微調(diào),以提高模型在下游任務(wù)中的性能。

差分修剪是在微調(diào)期間將可學(xué)習(xí)的二進(jìn)制掩碼應(yīng)用于模型權(quán)重的代表性工作。為了實(shí)現(xiàn)參數(shù)效率,通過L0范數(shù)懲罰的可微近似來正則化掩模。PaFi只需選擇具有最小絕對幅度的模型參數(shù)作為可訓(xùn)練參數(shù)。

然而,當(dāng)實(shí)現(xiàn)PEFT時(shí),上述非結(jié)構(gòu)化參數(shù)掩蔽導(dǎo)致非零掩蔽的不均勻分布和硬件效率的降低。如圖7所示,與隨機(jī)應(yīng)用的非結(jié)構(gòu)化掩碼不同,結(jié)構(gòu)化掩碼以規(guī)則模式組織參數(shù)掩碼,因此可以提高訓(xùn)練過程中的計(jì)算和硬件效率。因此,對各種結(jié)構(gòu)選擇性PEFT技術(shù)進(jìn)行了廣泛的研究。Diff修剪提出了一種結(jié)構(gòu)化的修剪策略,將權(quán)重參數(shù)劃分為局部組,并戰(zhàn)略性地將它們一起消除。類似地,F(xiàn)AR通過將Transformer塊中的FFN的權(quán)重分組為節(jié)點(diǎn)來微調(diào)BERT模型,然后使用L1范數(shù)對學(xué)習(xí)器節(jié)點(diǎn)進(jìn)行排序和選擇。為了進(jìn)一步降低存儲器訪問頻率,他們還通過將學(xué)習(xí)器節(jié)點(diǎn)分組在一起來重新配置FFN。

C. Reparameterized PEFT

重新參數(shù)化表示通過轉(zhuǎn)換模型的參數(shù)將模型的體系結(jié)構(gòu)從一個(gè)等效地轉(zhuǎn)換到另一個(gè)。在PEFT的背景下,這通常意味著在訓(xùn)練過程中構(gòu)建一個(gè)低階參數(shù)化來實(shí)現(xiàn)參數(shù)效率的目標(biāo)。對于推理,可以將模型轉(zhuǎn)換為其原始的權(quán)重參數(shù)化,確保推理速度不變。該程序如圖4(c)所示。

早期的研究表明,常見的預(yù)訓(xùn)練模型表現(xiàn)出異常低的內(nèi)在維度。換言之,可以找到對整個(gè)參數(shù)空間的微調(diào)有效的低維重新參數(shù)化。內(nèi)在SAID是研究LLM微調(diào)過程中內(nèi)在維度特征的主要工作。然而,最廣泛認(rèn)可的重新參數(shù)化技術(shù)是LoRA(低秩自適應(yīng)),如圖8(a)所示。

D. Hybrid PEFT

各種PEFT方法的療效在不同的任務(wù)中可能存在顯著差異。因此,許多研究旨在結(jié)合不同PEFT方法的優(yōu)勢,或通過分析這些方法之間的相似性來尋求建立統(tǒng)一的視角。例如,UniPELT將LoRA、前綴調(diào)整和適配器集成到每個(gè)Transformer塊中。為了控制應(yīng)激活哪些PEFT子模塊,他們還引入了門控機(jī)制。該機(jī)制由三個(gè)小的FFN組成,每個(gè)FFN產(chǎn)生一個(gè)標(biāo)量值,然后將其分別應(yīng)用于LoRA、前綴和適配器矩陣。

EFFICIENT PEFT DESIGN

從計(jì)算的角度來看,處理延遲和峰值內(nèi)存開銷是需要考慮的關(guān)鍵因素。本節(jié)介紹LLM的一個(gè)關(guān)鍵特性,旨在平衡延遲和內(nèi)存使用(第IV-a節(jié))。在此之后,我們探索了開發(fā)高效PEFT方法以應(yīng)對計(jì)算挑戰(zhàn)的策略,包括PEFT修剪(第IV-B節(jié))、PEFT量化(第IV-C節(jié))和記憶高效PEFT技術(shù)(第IV-D節(jié)),每種技術(shù)都旨在提高模型性能,同時(shí)最大限度地減少資源消耗。值得注意的是,量化本質(zhì)上解決了存儲器開銷問題。然而,鑒于其獨(dú)特的特性,我們單獨(dú)討論了這些量化方法,而不是將它們納入記憶有效PEFT部分。

A. KV-cache Management for PEFT Efficiency

LLM模型的核心是一個(gè)自回歸Transformer模型,如圖2所示。當(dāng)我們觀察自回歸特性時(shí),它成為設(shè)計(jì)推理系統(tǒng)的一個(gè)主要挑戰(zhàn),因?yàn)槊看紊尚碌牧钆茣r(shí),整個(gè)LLM模型都必須將所有權(quán)重從不同的內(nèi)存轉(zhuǎn)移到圖形處理器的內(nèi)存中,這對單用戶任務(wù)調(diào)度或多用戶工作負(fù)載平衡非常不友好。服務(wù)于自回歸范式的挑戰(zhàn)性部分是,所有先前的序列都必須被緩存并保存以供下一次迭代,從先前序列生成的緩存激活被存儲為鍵值緩存(KV緩存)。

KV緩存的存儲將同時(shí)消耗內(nèi)存空間和IO性能,導(dǎo)致工作負(fù)載內(nèi)存受限且系統(tǒng)計(jì)算能力利用不足。以前的工作提出了一系列解決方案,如KV緩存控制管理或KV緩存壓縮,以提高吞吐量或減少延遲。在設(shè)計(jì)PEFT方法時(shí),考慮KV緩存的特性以補(bǔ)充其特性是至關(guān)重要的。例如,當(dāng)在推理階段應(yīng)用軟提示時(shí),通過確保與提示相關(guān)的數(shù)據(jù)易于訪問,有效地利用KV緩存進(jìn)行這些額外的輸入可以幫助加快響應(yīng)時(shí)間。

B.Pruning Strategies for PEFT

修剪的加入可以大大提高PEFT方法的效率。特別是,AdapterDrop探索了在AdapterFusion中從較低的轉(zhuǎn)換層和多任務(wù)適配器中刪除適配器,這表明修剪可以在性能下降最小的情況下提高訓(xùn)練和推理效率。SparseAdapter研究了不同的修剪方法,發(fā)現(xiàn)高稀疏率(80%)可以優(yōu)于標(biāo)準(zhǔn)適配器。此外,大稀疏配置增加了瓶頸尺寸,同時(shí)保持了恒定的參數(shù)預(yù)算(例如,以50%的稀疏度將尺寸翻倍),大大增強(qiáng)了模型的容量,從而提高了性能。

C. Quantization Strategies for PEFT

量化是提高計(jì)算效率和減少內(nèi)存使用的另一種流行技術(shù)。例如,通過研究適配器的損失情況,BI Adapter發(fā)現(xiàn)適配器能夠抵抗參數(shù)空間中的噪聲。在此基礎(chǔ)上,作者引入了一種基于聚類的量化方法。值得注意的是,它們證明了適配器的1位量化不僅最大限度地減少了存儲需求,而且在所有精度設(shè)置中都實(shí)現(xiàn)了卓越的性能。PEQA(參數(shù)高效和量化感知自適應(yīng))使用兩級流水線來實(shí)現(xiàn)參數(shù)高效和量化器感知微調(diào)。QA LoRA解決了QLoRA的另一個(gè)局限性,QLoRA在微調(diào)后難以保持其量化特性。在QLoRA中,量化的預(yù)訓(xùn)練權(quán)重(NF4)必須恢復(fù)到FP16,以在權(quán)重合并期間匹配LoRA權(quán)重精度(FP16)。相反,QA LoRA使用INT4量化,并引入分組運(yùn)算符以在推理階段實(shí)現(xiàn)量化,因此與QLoRA相比提高了效率和準(zhǔn)確性。

D. Memory-efficient PEFT Methods

QA LoRA解決了QLoRA的另一個(gè)局限性,即在微調(diào)后難以保持其量化特性。在QLoRA中,量化的預(yù)訓(xùn)練權(quán)重(NF4)必須恢復(fù)到FP16,以在權(quán)重合并期間匹配LoRA權(quán)重精度(FP16)。相反,QA LoRA使用INT4量化,并引入分組運(yùn)算符以在推理階段實(shí)現(xiàn)量化,因此與QLoRA相比提高了效率和準(zhǔn)確性。

為了提高內(nèi)存效率,已經(jīng)開發(fā)了各種技術(shù)來最小化在微調(diào)期間對整個(gè)LLM的緩存梯度的需要,從而減少內(nèi)存使用。例如,Side-Tuning和LST(Ladder-Side Tuning)都引入了與主干模型并行的可學(xué)習(xí)網(wǎng)絡(luò)分支。通過專門通過這個(gè)并行分支引導(dǎo)反向傳播,它避免了存儲主模型權(quán)重的梯度信息的需要,從而顯著降低了訓(xùn)練期間的內(nèi)存需求。類似地,Res Tuning將PEFT調(diào)諧器(例如,即時(shí)調(diào)諧、適配器)與主干模型分離。在分解的基礎(chǔ)上,提出了一個(gè)名為Res-Mtuning Bypass的高效內(nèi)存微調(diào)框架,該框架通過去除從解耦的調(diào)諧器到主干的數(shù)據(jù)流,生成與主干模型并行的旁路網(wǎng)絡(luò)。

PEFT FOR DNNS OF OTHER APPLICATIONS

在第三節(jié)中,我們概述了四類PEFT方法及其改進(jìn)。盡管如此,我們的討論并沒有完全擴(kuò)展到傳統(tǒng)架構(gòu)(如LLM)或標(biāo)準(zhǔn)基準(zhǔn)(如GLUE數(shù)據(jù)集)之外的PEFT技術(shù)的利用或適應(yīng),其中大多數(shù)討論的PEFT方法都是應(yīng)用的。因此,在本節(jié)中,我們將重點(diǎn)介紹和討論利用PEFT策略執(zhí)行各種下游任務(wù)的幾項(xiàng)最具代表性的工作。我們并不打算在本節(jié)中涵蓋所有PEFT應(yīng)用場景。我們的目標(biāo)是展示產(chǎn)品環(huán)境足跡在各個(gè)研究領(lǐng)域的重大影響,并展示如何優(yōu)化和定制通用產(chǎn)品環(huán)境足跡方法,以提高特定模型或任務(wù)的性能。

通常,在將預(yù)先訓(xùn)練的主干模型適應(yīng)專門的下游任務(wù)時(shí)會進(jìn)行微調(diào)。為此,本節(jié)圍繞各種模型架構(gòu)組織討論,這些架構(gòu)包括:LLM、視覺Transformer(ViT)、視覺語言對齊模型(VLA)和擴(kuò)散模型。在每個(gè)體系結(jié)構(gòu)類別中,討論是基于不同的下游任務(wù)進(jìn)行進(jìn)一步分類的。

A. PEFT for LLMs – Beyond the Basics

與NLP中的常見任務(wù)(如NLU和NLG)不同,PEFT技術(shù)在不同的場景中具有廣泛的應(yīng)用。PEFT已成功應(yīng)用于常識性問答、多層次隱含話語關(guān)系識別、分布外檢測、隱私保護(hù)、聯(lián)合學(xué)習(xí)和社會偏見緩解等領(lǐng)域。在本節(jié)中,我們將更多地關(guān)注三個(gè)具有代表性的下游任務(wù):視覺教學(xué)跟隨、持續(xù)學(xué)習(xí)和上下文窗口擴(kuò)展。

1)視覺指導(dǎo):包括VL-BART、MiniGPT-4和LLaVA在內(nèi)的幾項(xiàng)研究成功地?cái)U(kuò)展了LLM的能力,LLM最初是為純文本設(shè)計(jì)的,可以理解和生成對視覺輸入的響應(yīng)。這些增強(qiáng)的模型,即視覺指令跟隨LLM,可以處理圖像和文本以產(chǎn)生文本響應(yīng),這些文本響應(yīng)可以在圖像字幕和視覺問答(VQA)等任務(wù)上進(jìn)行基準(zhǔn)測試。然而,這些方法對整個(gè)LLM進(jìn)行微調(diào)以學(xué)習(xí)視覺表示,這在時(shí)間和內(nèi)存方面都是低效的。因此,將PEFT技術(shù)應(yīng)用于LLM后視覺教學(xué)的微調(diào)是很自然的。

2)持續(xù)學(xué)習(xí)(CL):CL旨在在一個(gè)模型中學(xué)習(xí)一系列新任務(wù),在對話系統(tǒng)、信息提取系統(tǒng)和問答系統(tǒng)等場景中有廣泛應(yīng)用。CL的主要挑戰(zhàn)是災(zāi)難性遺忘。一種流行的做法,稱為基于體系結(jié)構(gòu)的方法,通過在模型中為每個(gè)新任務(wù)維護(hù)特定于任務(wù)的參數(shù)來處理CL。因此,將PEFT方法用于CL任務(wù)是很自然的。

3)上下文窗口擴(kuò)展:LLM通常使用預(yù)定義的上下文大小進(jìn)行訓(xùn)練。例如,LLaMA和LLaMA2分別具有2048和4096個(gè)令牌的預(yù)定義上下文大小。位置編碼RoPE具有弱的外推特性,這意味著在輸入長度超過預(yù)定義上下文長度的情況下,性能明顯下降。為了解決這個(gè)問題,一個(gè)簡單的解決方案是將預(yù)先訓(xùn)練的LLM微調(diào)到更長的上下文。然而,這會隨著上下文大小的二次方增加計(jì)算成本,從而使內(nèi)存和處理資源緊張。

B. PEFT for ViTs

在最近的計(jì)算機(jī)視覺社區(qū)中,ViT已經(jīng)成為一種強(qiáng)大的骨干模型。在ViT模型中,圖像被視為固定大小的補(bǔ)丁序列,類似于LLM如何使用離散標(biāo)記。這些補(bǔ)丁經(jīng)過線性嵌入,然后接收位置編碼。隨后,它們通過標(biāo)準(zhǔn)的Transformer編碼器進(jìn)行處理。ViT的訓(xùn)練可以是監(jiān)督的或自監(jiān)督的,并且當(dāng)使用更多數(shù)據(jù)和更大的模型大小進(jìn)行訓(xùn)練時(shí),ViT可以實(shí)現(xiàn)卓越的性能。然而,這種規(guī)模的擴(kuò)大不可避免地會增加培訓(xùn)和存儲成本。因此,與LLM類似,PEFT廣泛應(yīng)用于各種下游任務(wù),如密集預(yù)測、連續(xù)學(xué)習(xí)、深度度量學(xué)習(xí)。在這里,我們重點(diǎn)關(guān)注兩個(gè)典型的任務(wù)來展示PEFT的參與:圖像分類和視頻復(fù)原。

1)圖像分類:在目標(biāo)視覺數(shù)據(jù)集上進(jìn)行圖像分類是一種非常普遍的需求,具有廣泛的應(yīng)用,而預(yù)訓(xùn)練-微調(diào)范式是一種廣泛的策略。多種方法利用PEFT技術(shù)實(shí)現(xiàn)有效的模型調(diào)整。

2)視頻識別:一些工作考慮了更具挑戰(zhàn)性的適應(yīng)問題,即將ViT轉(zhuǎn)移到具有更大領(lǐng)域差距的下游任務(wù)。例如,ST適配器(時(shí)空適配器)和AIM都將適配器層插入到預(yù)訓(xùn)練的ViT塊中。他們的主要目標(biāo)是對時(shí)空信息進(jìn)行建模,從而使ViT能夠有效地從圖像模型適應(yīng)視頻任務(wù)。值得注意的是,這兩種方法的性能都超過了傳統(tǒng)的全模型微調(diào)方法。

C. PEFT for VLAs

視覺語言對齊模型(VLA),如CLIP、ALIGN、DeCLIP和FLAVA,旨在學(xué)習(xí)可以在統(tǒng)一表示空間內(nèi)對齊的良好圖像和文本特征。每個(gè)VLA通常由提取各自特征的獨(dú)立圖像和文本編碼器組成。在這些模型中,對比學(xué)習(xí)被用來有效地對齊圖像和文本特征。微調(diào)被用來提高VLA在特定數(shù)據(jù)集或任務(wù)中的性能,但對整個(gè)模型的微調(diào)是計(jì)算密集型的。

1) 開放式詞匯圖像分類:在開放式詞匯的圖像分類中,早期的作品為每個(gè)類別設(shè)計(jì)特定類別的提示,例如class的照片,并根據(jù)圖像與這些文本描述的相似性對圖像進(jìn)行排名。CoOp(上下文優(yōu)化)用可學(xué)習(xí)向量替換手工制作的文本提示,同時(shí)在訓(xùn)練期間保留整個(gè)VLA修復(fù)。CoCoOp(條件上下文優(yōu)化)通過解決CoOp在推廣到看不見的類方面的局限性,建立在這一基礎(chǔ)上。

在另一個(gè)方向上,一些研究探討了適配器在VLA中的使用。例如,CLIP適配器在CLIP的文本和視覺編碼器之后集成了殘余樣式適配器。因此,與CoOp和CoCoOp不同,CLIP Adapter避免了通過CLIP編碼器的梯度反向傳播,從而降低了訓(xùn)練內(nèi)存和時(shí)間方面的計(jì)算要求。尖端適配器采用與CLIP適配器相同的設(shè)計(jì)。與CLIP適配器不同的是,適配器的權(quán)重是以無訓(xùn)練的方式從查詢密鑰緩存模型中獲得的,該模型是以非參數(shù)方式從最少監(jiān)督構(gòu)建的。因此,與CLIP-Adapter的SGD訓(xùn)練過程相比,Tip-Adapter表現(xiàn)出了極大的效率。

D. PEFT for Diffusion Models

擴(kuò)散模型是一類生成模型,通過漸進(jìn)去噪過程將隨機(jī)噪聲轉(zhuǎn)換為結(jié)構(gòu)化輸出,學(xué)習(xí)生成數(shù)據(jù)。在訓(xùn)練過程中,擴(kuò)散模型學(xué)習(xí)使用去噪網(wǎng)絡(luò)來反轉(zhuǎn)添加到訓(xùn)練數(shù)據(jù)中的噪聲,而在推理中,它們從噪聲開始,使用去噪網(wǎng)迭代創(chuàng)建與訓(xùn)練示例相同分布的數(shù)據(jù)。擴(kuò)散模型有各種應(yīng)用,而最值得注意的是穩(wěn)定擴(kuò)散,它以其直接從文本描述生成連貫和上下文相關(guān)圖像的強(qiáng)大能力彌合了文本和圖像之間的差距。許多研究利用PEFT技術(shù)將預(yù)先訓(xùn)練的擴(kuò)散模型用于下游任務(wù),包括加速采樣速度、文本到視頻的自適應(yīng)、文本到3D的自適應(yīng)等。本節(jié)主要關(guān)注兩種場景:在僅基于文本的條件之外集成額外的輸入模式,以及基于預(yù)先訓(xùn)練的傳播模型定制內(nèi)容生成。

1)附加輸入控制:為了在保留預(yù)先訓(xùn)練的模型中的廣泛知識的同時(shí)納入附加輸入模式(如布局、關(guān)鍵點(diǎn)),GLIGEN引入了一種新的方法,該方法保持原始模型的權(quán)重不變,并集成新的、可訓(xùn)練的門控Transformer,以接受新的接地輸入。所得到的模型不僅可以準(zhǔn)確地表示接地條件,而且可以生成高質(zhì)量的圖像。值得注意的是,該模型在推理過程中也能很好地推廣到看不見的物體。

2)自定義生成:文本到圖像擴(kuò)散模型的有效性受到用戶通過文本描述闡明所需目標(biāo)的能力的限制。例如,很難描述一輛創(chuàng)新玩具車的精確特征,而這在大型模型訓(xùn)練中是不會遇到的。因此,定制生成的目標(biāo)是使模型能夠從用戶提供的圖像的最小集合中掌握新概念。

SYSTEM DESIGN CHALLENGE FOR PEFT

A. System design for PEFT

在本節(jié)中,我們首先簡要介紹基于云的PEFT系統(tǒng)。接下來,我們介紹了用于評估系統(tǒng)性能的相應(yīng)指標(biāo)。此外,我們還提出了三種潛在的利用場景,以說明系統(tǒng)設(shè)計(jì)中的挑戰(zhàn)。

1) 集中式PEFT查詢服務(wù):云提供商最近推出了一系列LLM服務(wù),旨在通過應(yīng)用程序編程接口(API)提供用戶應(yīng)用程序。這些API有助于將許多ML功能無縫集成到應(yīng)用程序中。在通過API接收到針對一個(gè)特定下游任務(wù)的一個(gè)查詢之后,基于云的服務(wù)器使用一個(gè)特色LLM模型來處理該查詢。在這種情況下,所提出的用于處理多個(gè)PEFT查詢的云解決方案涉及僅存儲LLM的單個(gè)副本和多個(gè)PETT模塊。此單個(gè)副本維護(hù)多個(gè)PEFT模塊分支,每個(gè)分支與不同的PEFT查詢相關(guān)聯(lián)。最先進(jìn)系統(tǒng)的案例研究可在第VI-C節(jié)中找到。圖10(b)說明了多查詢PEFT推理的計(jì)算模式,其中打包PEFT查詢根據(jù)其截止日期和當(dāng)前系統(tǒng)條件進(jìn)行調(diào)度和執(zhí)行。

2) 服務(wù)指標(biāo):為了評估集中式PEFT查詢服務(wù)的系統(tǒng)性能,我們提出了一組評估指標(biāo)。

  • 系統(tǒng)吞吐量:將PEFT查詢視為內(nèi)部任務(wù)和內(nèi)部任務(wù),我們使用每秒令牌來測量系統(tǒng)吞吐量。
  • 內(nèi)存占用:查詢服務(wù)期間的運(yùn)行時(shí)內(nèi)存消耗,內(nèi)存利用率來自模型參數(shù)和KV緩存,如第IV-A節(jié)所述。
  • 準(zhǔn)確性性能:真實(shí)世界的查詢通常具有不同的上下文長度,具有變化長度的性能作為性能基準(zhǔn)。
  • 服務(wù)質(zhì)量:查詢與延遲要求相關(guān),截止日期缺失率被視為另一個(gè)基準(zhǔn)。

3) PEFT的分布式系統(tǒng):然而,在當(dāng)代LLM模型中,預(yù)先訓(xùn)練的模型并不完全支持個(gè)性化任務(wù),因此,需要使用前面章節(jié)中提到的方法進(jìn)行額外的微調(diào)。然而,當(dāng)我們考慮將數(shù)據(jù)集提供給云提供商時(shí),會引起一個(gè)很大的擔(dān)憂,因?yàn)檫@些數(shù)據(jù)集是個(gè)性化的。

對于這個(gè)問題,我們假設(shè)我們的計(jì)算遵循模型集中式和PEFT分布式范式。骨干LLM存儲在云設(shè)備中,而個(gè)人PEFT權(quán)重以及數(shù)據(jù)集存儲在用戶自己的設(shè)備中。如圖10(a)所示。

4) 分布式度量:為了評估所提出方法的有效性,我們建立了一組評估度量。為了進(jìn)行此分析,在不失一般性的情況下,我們采用語言模型作為度量定義的基礎(chǔ)。

  • 精度性能:微調(diào)模型在下游任務(wù)中的性能。
  • 計(jì)算成本:在邊緣設(shè)備上進(jìn)行正向和反向傳播操作期間的計(jì)算成本。
  • 通信成本:指邊緣設(shè)備和云之間傳輸中間數(shù)據(jù)時(shí)所涉及的數(shù)據(jù)量。

5) 多產(chǎn)品環(huán)境足跡培訓(xùn):與多個(gè)產(chǎn)品環(huán)境足跡服務(wù)不同,使用多個(gè)定制產(chǎn)品環(huán)境足跡進(jìn)行調(diào)整總是涉及不同的骨干LLM。當(dāng)考慮在各種下游任務(wù)中使用LLM時(shí),預(yù)先訓(xùn)練的模型通常表現(xiàn)出較差的性能。使LLM適應(yīng)不同任務(wù)的一種流行方法涉及精心調(diào)整的PEFT。然而,同時(shí)調(diào)整多個(gè)PEFT可能會帶來相當(dāng)大的挑戰(zhàn)。如何管理內(nèi)存梯度和模型權(quán)重存儲,以及如何設(shè)計(jì)用于批處理PEFT訓(xùn)練的高效內(nèi)核等挑戰(zhàn)仍未解決。產(chǎn)品環(huán)境足跡將根據(jù)其產(chǎn)品環(huán)境足跡算法和骨干LLM模型進(jìn)行分類。設(shè)計(jì)挑戰(zhàn)涉及如何同時(shí)將多個(gè)具有相同LLM主干和多個(gè)不同LLM主干的PEFT合并。

B. Parallel PEFT Training Frameworks

a) 設(shè)計(jì)挑戰(zhàn):與旨在適應(yīng)靈活的多PEFT算法的PetS系統(tǒng)不同,SLoRA和Punica僅專注于促進(jìn)各種任務(wù)的多個(gè)LoRA塊。設(shè)計(jì)多個(gè)產(chǎn)品環(huán)境足跡培訓(xùn)系統(tǒng)主要面臨兩個(gè)方面的關(guān)鍵挑戰(zhàn) 方面:

  • 具有相同LLM主干的多個(gè)PEFT模型的高效并發(fā)執(zhí)行。
  • 設(shè)計(jì)一個(gè)高效的系統(tǒng),用于不同LLM骨干網(wǎng)的多租戶服務(wù)。

b)高效的內(nèi)核設(shè)計(jì):Punica解決了第一個(gè)挑戰(zhàn),將現(xiàn)有的矩陣乘法用于主干計(jì)算,并引入了一種新的CUDA內(nèi)核——分段聚集矩陣矢量乘法(SGMV),用于以批處理的方式將PEFT附加項(xiàng)添加到主干計(jì)算中。該內(nèi)核對批處理中不同請求的特征權(quán)重相乘進(jìn)行并行化,并將對應(yīng)于同一PEFT模型的請求分組,以增加操作強(qiáng)度并使用GPU張量核心進(jìn)行加速。

第二個(gè)挑戰(zhàn)超出了計(jì)算成本,設(shè)計(jì)一種高效的系統(tǒng)架構(gòu)是另一個(gè)重大挑戰(zhàn),該架構(gòu)可以在盡可能小的GPU集上有效地服務(wù)于多租戶PEFT模型工作負(fù)載,同時(shí)占用最少的GPU資源。Punica通過將用戶請求調(diào)度到已經(jīng)服務(wù)或訓(xùn)練PEFT模型的活動GPU來解決這一問題,從而提高GPU利用率。對于較舊的請求,Punica會定期遷移它們以整合工作負(fù)載,從而為新請求釋放GPU資源。

c)多租戶PEFT設(shè)計(jì):為Punica框架中的多租戶PEVT模型設(shè)計(jì)一個(gè)高效的系統(tǒng),重點(diǎn)是解決幾個(gè)關(guān)鍵挑戰(zhàn),以最大限度地提高硬件利用率并最大限度地減少資源消耗。該系統(tǒng)旨在將多租戶LoRA服務(wù)工作負(fù)載整合到盡可能小的GPU集上。這種整合是通過對已經(jīng)在服務(wù)或訓(xùn)練LoRA模型的活動GPU的用戶請求進(jìn)行戰(zhàn)略調(diào)度來實(shí)現(xiàn)的,從而提高GPU利用率。對于較舊的請求,Punica會定期遷移它們以進(jìn)一步整合工作負(fù)載,從而為新請求釋放GPU資源。它結(jié)合了LoRA模型權(quán)重的按需加載,只引入了毫秒級的延遲。該功能為Punica提供了將用戶請求動態(tài)合并到一小組GPU的靈活性,而不受已經(jīng)在這些GPU上運(yùn)行的特定LoRA模型的約束。除此之外,Punica認(rèn)為解碼階段是模型服務(wù)成本的主要因素,其設(shè)計(jì)主要側(cè)重于優(yōu)化解碼階段的性能。模型服務(wù)的其他方面利用直接的技術(shù),例如按需加載LoRA模型權(quán)重,來有效地管理資源利用率。

結(jié)論和未來方向

在當(dāng)前由大型模型和大型數(shù)據(jù)集主導(dǎo)的時(shí)代,PEFT是一種非常有吸引力的方法,可以有效地使模型適應(yīng)下游任務(wù)。這項(xiàng)技術(shù)通過解決傳統(tǒng)的全模型微調(diào)帶來的重大挑戰(zhàn)而獲得吸引力,這種微調(diào)通常會給普通用戶帶來難以維持的計(jì)算和數(shù)據(jù)需求。本調(diào)查對PEFT的最新進(jìn)展進(jìn)行了系統(tǒng)回顧,涵蓋算法開發(fā)、計(jì)算和效率方面、應(yīng)用和系統(tǒng)部署。它提供了一個(gè)全面的分類和解釋,作為一個(gè)很好的指導(dǎo)和知識庫,使不同級別和學(xué)科的讀者能夠迅速掌握PEFT的核心概念。

為了進(jìn)一步研究PEFT,我們從算法和系統(tǒng)的角度提出了一系列可能的方向,希望能激勵(lì)更多的研究人員在這些領(lǐng)域進(jìn)行進(jìn)一步的研究。

A. Simplify hyperparameter tuning

PEFT的有效性通常對其超參數(shù)敏感,如適配器的瓶頸尺寸r、LoRA的等級和不同附加PEFT層的位置。手動調(diào)整這些超參數(shù)將花費(fèi)大量精力。因此,未來的工作可以集中在開發(fā)不太依賴手動調(diào)整這些參數(shù)的方法,或者自動找到最佳超參數(shù)設(shè)置。一些研究已經(jīng)開始解決這個(gè)問題,但需要更簡單有效的解決方案來優(yōu)化這些超參數(shù)。

B. Establish a unified benchmark

盡管存在像HuggingFace的PEFT和AdapterHub這樣的庫,但仍然缺乏一個(gè)全面的PEFT基準(zhǔn)。這種差距阻礙了公平比較不同PEFT方法的性能和效率的能力。一個(gè)被廣泛接受的、類似于物體檢測的MMDetection的最新基準(zhǔn)將使研究人員能夠根據(jù)一組標(biāo)準(zhǔn)的任務(wù)和指標(biāo)來驗(yàn)證他們的方法,從而促進(jìn)社區(qū)內(nèi)的創(chuàng)新和合作。

C. Enhance training efficiency

PEFT的假定參數(shù)效率并不總是與訓(xùn)練期間的計(jì)算和內(nèi)存節(jié)省一致??紤]到可訓(xùn)練參數(shù)在預(yù)訓(xùn)練模型的體系結(jié)構(gòu)中相互交織,在微調(diào)過程中通常需要計(jì)算和存儲整個(gè)模型的梯度。這種監(jiān)督要求重新思考什么是效率。如第四節(jié)所述,潛在的解決方案在于模型壓縮技術(shù)的集成,如修剪和量化,以及專門為優(yōu)化PEFT調(diào)整期間的內(nèi)存而設(shè)計(jì)的創(chuàng)新。進(jìn)一步研究提高PEFT方法的計(jì)算效率勢在必行。

D. Explore scaling laws

最初為較小的Transformer模型開發(fā)的PEFT方法的設(shè)計(jì)和有效性不一定與較大的模型相適應(yīng)。隨著基礎(chǔ)模型規(guī)模的增加,識別和調(diào)整保持有效的產(chǎn)品環(huán)境足跡戰(zhàn)略至關(guān)重要。這一探索將有助于根據(jù)大型模型架構(gòu)的發(fā)展趨勢定制PEFT方法。

E. Serve more models and tasks

大型基礎(chǔ)模型在各個(gè)領(lǐng)域的興起為PEFT提供了新的機(jī)會。設(shè)計(jì)適合模型獨(dú)特特征的PEFT方法,如Sora、Mamba和LVM,可以釋放新的應(yīng)用場景和機(jī)會。

F. Enhancing data privacy

信任集中式系統(tǒng)來服務(wù)或微調(diào)個(gè)性化PEFT模塊是系統(tǒng)開發(fā)人員的另一個(gè)問題。側(cè)通道攻擊者已成功部署,通過劫持中間結(jié)果來重建用戶的數(shù)據(jù)。未來值得信賴的LLM系統(tǒng)設(shè)計(jì)的一個(gè)視角涉及為個(gè)人數(shù)據(jù)以及中間訓(xùn)練和推理結(jié)果開發(fā)加密協(xié)議。

G. PEFT with model compression

模型壓縮是使LLM在資源有限的設(shè)備上可執(zhí)行的最有效方法之一。然而,模型壓縮技術(shù)對在硬件上運(yùn)行的PEFT算法性能的影響仍然是另一個(gè)系統(tǒng)性挑戰(zhàn)。量化和修剪等常見的壓縮技術(shù)需要專用的硬件平臺來加快過程,而為壓縮模型構(gòu)建這樣的硬件平臺是研究人員的另一個(gè)方向。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2012-05-31 09:24:55

云計(jì)算云存儲

2022-05-10 15:10:25

加密貨幣區(qū)塊鏈金融犯罪

2012-08-23 14:21:47

大數(shù)據(jù)

2012-08-23 15:10:44

Facebook

2021-12-28 20:05:19

數(shù)字交通信息

2012-02-22 13:59:11

云計(jì)算數(shù)據(jù)中心

2021-07-26 11:02:29

鄭州暴雨河南

2017-07-12 10:39:39

顯示器垂直同步技術(shù)

2019-10-08 14:25:50

AndroidiOS安卓

2021-12-31 09:23:22

SDNSD-WAN網(wǎng)絡(luò)技術(shù)

2015-02-13 10:24:51

微信

2021-01-31 10:52:42

Http 協(xié)議高并發(fā)

2017-05-23 22:16:16

IT數(shù)據(jù)

2024-10-22 15:04:15

2024-03-29 11:39:57

用戶畫像用戶分群用戶分層

2015-09-07 14:31:33

云計(jì)算SDNNFV

2019-01-21 08:13:27

RAID類型磁盤

2016-09-22 16:47:55

iOSAndroidWindows Pho

2022-09-01 21:02:31

手機(jī)衛(wèi)星5G

2013-06-07 09:02:00

Amazon云計(jì)算服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號