自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

全面綜述！大模型到底微調(diào)個(gè)啥？或者說技術(shù)含量到底有多大？

作者：Zeyu Han 2024-04-01 10:01:05

人工智能新聞

我們對各種PEFT算法進(jìn)行了全面的研究，檢查了它們的性能和計(jì)算開銷。此外，我們還概述了使用不同PEFT算法開發(fā)的應(yīng)用程序，并討論了用于降低PEFT計(jì)算成本的常用技術(shù)。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

大型模型代表了多個(gè)應(yīng)用領(lǐng)域的突破性進(jìn)展，能夠在各種任務(wù)中取得顯著成就。然而，它們前所未有的規(guī)模帶來了巨大的計(jì)算成本。這些模型通常由數(shù)十億個(gè)參數(shù)組成，需要大量的計(jì)算資源才能執(zhí)行。特別是，當(dāng)為特定的下游任務(wù)定制它們時(shí)，特別是在受計(jì)算能力限制的硬件平臺上，擴(kuò)展的規(guī)模和計(jì)算需求帶來了相當(dāng)大的挑戰(zhàn)。

參數(shù)有效微調(diào)（PEFT）通過在各種下游任務(wù)中有效地調(diào)整大型模型，提供了一種實(shí)用的解決方案。特別是，PEFT是指調(diào)整預(yù)先訓(xùn)練的大型模型的參數(shù)，使其適應(yīng)特定任務(wù)或領(lǐng)域，同時(shí)最小化引入的額外參數(shù)或所需計(jì)算資源的數(shù)量的過程。當(dāng)處理具有高參數(shù)計(jì)數(shù)的大型語言模型時(shí)，這種方法尤其重要，因?yàn)閺念^開始微調(diào)這些模型可能計(jì)算成本高昂且資源密集，在支持系統(tǒng)平臺設(shè)計(jì)中提出了相當(dāng)大的挑戰(zhàn)。

在這項(xiàng)調(diào)查中，我們對各種PEFT算法進(jìn)行了全面的研究，檢查了它們的性能和計(jì)算開銷。此外，我們還概述了使用不同PEFT算法開發(fā)的應(yīng)用程序，并討論了用于降低PEFT計(jì)算成本的常用技術(shù)。除了算法角度之外，我們還概述了各種現(xiàn)實(shí)世界中的系統(tǒng)設(shè)計(jì)，以研究與不同PEFT算法相關(guān)的實(shí)施成本。這項(xiàng)調(diào)查是研究人員了解PEFT算法及其系統(tǒng)實(shí)現(xiàn)的不可或缺的資源，為最新進(jìn)展和實(shí)際應(yīng)用提供了詳細(xì)的見解。

PEFT分類

PEFT策略可大致分為四類：附加PEFT（第III-A節(jié)），通過注入新的可訓(xùn)練模塊或參數(shù)來修改模型架構(gòu)；選擇性PEFT（第III-B節(jié)），使參數(shù)子集在微調(diào)期間可訓(xùn)練；重新參數(shù)化PEFT（第III-C節(jié)），它構(gòu)建了用于訓(xùn)練的原始模型參數(shù)的（低維）重新參數(shù)化，然后等效地將其轉(zhuǎn)換回用于推理；以及混合PEFT（第III-D節(jié)），它結(jié)合了不同PEFT方法的優(yōu)勢，建立了統(tǒng)一的PEFT模型。不同類型的PEFT算法概述如圖4所示。

A. Additive PEFT

標(biāo)準(zhǔn)的完全微調(diào)需要大量的計(jì)算費(fèi)用，也可能損害模型的泛化能力。為了緩解這個(gè)問題，一種廣泛采用的方法是保持預(yù)先訓(xùn)練的主干不變，并且只引入在模型架構(gòu)中戰(zhàn)略性定位的最小數(shù)量的可訓(xùn)練參數(shù)。在針對特定下游任務(wù)進(jìn)行微調(diào)時(shí)，僅更新這些附加模塊或參數(shù)的權(quán)重，這導(dǎo)致存儲、內(nèi)存和計(jì)算資源需求的顯著減少。如圖4（a）所示，由于這些技術(shù)具有添加參數(shù)的特性，因此可以將其稱為加性調(diào)整。接下來，我們將討論幾種流行的加法PEFT算法。

1）適配器：適配器方法包括在Transformer塊中插入小型適配器層。

2）軟提示：提示調(diào)整提供了一種額外的方法來細(xì)化模型，以通過微調(diào)提高性能。

3）其他加法方法：除了上述方法外，還出現(xiàn)了其他方法，在微調(diào)過程中戰(zhàn)略性地加入了額外的參數(shù)。

B. Selective PEFT

如圖4（b）所示，選擇性PEFT不是通過添加更多參數(shù)來增加模型復(fù)雜性的附加PEFT，而是對現(xiàn)有參數(shù)的子集進(jìn)行微調(diào)，以提高模型在下游任務(wù)中的性能。

差分修剪是在微調(diào)期間將可學(xué)習(xí)的二進(jìn)制掩碼應(yīng)用于模型權(quán)重的代表性工作。為了實(shí)現(xiàn)參數(shù)效率，通過L0范數(shù)懲罰的可微近似來正則化掩模。PaFi只需選擇具有最小絕對幅度的模型參數(shù)作為可訓(xùn)練參數(shù)。

然而，當(dāng)實(shí)現(xiàn)PEFT時(shí)，上述非結(jié)構(gòu)化參數(shù)掩蔽導(dǎo)致非零掩蔽的不均勻分布和硬件效率的降低。如圖7所示，與隨機(jī)應(yīng)用的非結(jié)構(gòu)化掩碼不同，結(jié)構(gòu)化掩碼以規(guī)則模式組織參數(shù)掩碼，因此可以提高訓(xùn)練過程中的計(jì)算和硬件效率。因此，對各種結(jié)構(gòu)選擇性PEFT技術(shù)進(jìn)行了廣泛的研究。Diff修剪提出了一種結(jié)構(gòu)化的修剪策略，將權(quán)重參數(shù)劃分為局部組，并戰(zhàn)略性地將它們一起消除。類似地，F(xiàn)AR通過將Transformer塊中的FFN的權(quán)重分組為節(jié)點(diǎn)來微調(diào)BERT模型，然后使用L1范數(shù)對學(xué)習(xí)器節(jié)點(diǎn)進(jìn)行排序和選擇。為了進(jìn)一步降低存儲器訪問頻率，他們還通過將學(xué)習(xí)器節(jié)點(diǎn)分組在一起來重新配置FFN。

C. Reparameterized PEFT

重新參數(shù)化表示通過轉(zhuǎn)換模型的參數(shù)將模型的體系結(jié)構(gòu)從一個(gè)等效地轉(zhuǎn)換到另一個(gè)。在PEFT的背景下，這通常意味著在訓(xùn)練過程中構(gòu)建一個(gè)低階參數(shù)化來實(shí)現(xiàn)參數(shù)效率的目標(biāo)。對于推理，可以將模型轉(zhuǎn)換為其原始的權(quán)重參數(shù)化，確保推理速度不變。該程序如圖4（c）所示。

早期的研究表明，常見的預(yù)訓(xùn)練模型表現(xiàn)出異常低的內(nèi)在維度。換言之，可以找到對整個(gè)參數(shù)空間的微調(diào)有效的低維重新參數(shù)化。內(nèi)在SAID是研究LLM微調(diào)過程中內(nèi)在維度特征的主要工作。然而，最廣泛認(rèn)可的重新參數(shù)化技術(shù)是LoRA（低秩自適應(yīng)），如圖8（a）所示。

D. Hybrid PEFT

各種PEFT方法的療效在不同的任務(wù)中可能存在顯著差異。因此，許多研究旨在結(jié)合不同PEFT方法的優(yōu)勢，或通過分析這些方法之間的相似性來尋求建立統(tǒng)一的視角。例如，UniPELT將LoRA、前綴調(diào)整和適配器集成到每個(gè)Transformer塊中。為了控制應(yīng)激活哪些PEFT子模塊，他們還引入了門控機(jī)制。該機(jī)制由三個(gè)小的FFN組成，每個(gè)FFN產(chǎn)生一個(gè)標(biāo)量值，然后將其分別應(yīng)用于LoRA、前綴和適配器矩陣。

EFFICIENT PEFT DESIGN

從計(jì)算的角度來看，處理延遲和峰值內(nèi)存開銷是需要考慮的關(guān)鍵因素。本節(jié)介紹LLM的一個(gè)關(guān)鍵特性，旨在平衡延遲和內(nèi)存使用（第IV-a節(jié)）。在此之后，我們探索了開發(fā)高效PEFT方法以應(yīng)對計(jì)算挑戰(zhàn)的策略，包括PEFT修剪（第IV-B節(jié)）、PEFT量化（第IV-C節(jié)）和記憶高效PEFT技術(shù)（第IV-D節(jié)），每種技術(shù)都旨在提高模型性能，同時(shí)最大限度地減少資源消耗。值得注意的是，量化本質(zhì)上解決了存儲器開銷問題。然而，鑒于其獨(dú)特的特性，我們單獨(dú)討論了這些量化方法，而不是將它們納入記憶有效PEFT部分。

A. KV-cache Management for PEFT Efficiency

LLM模型的核心是一個(gè)自回歸Transformer模型，如圖2所示。當(dāng)我們觀察自回歸特性時(shí)，它成為設(shè)計(jì)推理系統(tǒng)的一個(gè)主要挑戰(zhàn)，因?yàn)槊看紊尚碌牧钆茣r(shí)，整個(gè)LLM模型都必須將所有權(quán)重從不同的內(nèi)存轉(zhuǎn)移到圖形處理器的內(nèi)存中，這對單用戶任務(wù)調(diào)度或多用戶工作負(fù)載平衡非常不友好。服務(wù)于自回歸范式的挑戰(zhàn)性部分是，所有先前的序列都必須被緩存并保存以供下一次迭代，從先前序列生成的緩存激活被存儲為鍵值緩存（KV緩存）。

KV緩存的存儲將同時(shí)消耗內(nèi)存空間和IO性能，導(dǎo)致工作負(fù)載內(nèi)存受限且系統(tǒng)計(jì)算能力利用不足。以前的工作提出了一系列解決方案，如KV緩存控制管理或KV緩存壓縮，以提高吞吐量或減少延遲。在設(shè)計(jì)PEFT方法時(shí)，考慮KV緩存的特性以補(bǔ)充其特性是至關(guān)重要的。例如，當(dāng)在推理階段應(yīng)用軟提示時(shí)，通過確保與提示相關(guān)的數(shù)據(jù)易于訪問，有效地利用KV緩存進(jìn)行這些額外的輸入可以幫助加快響應(yīng)時(shí)間。

B.Pruning Strategies for PEFT

修剪的加入可以大大提高PEFT方法的效率。特別是，AdapterDrop探索了在AdapterFusion中從較低的轉(zhuǎn)換層和多任務(wù)適配器中刪除適配器，這表明修剪可以在性能下降最小的情況下提高訓(xùn)練和推理效率。SparseAdapter研究了不同的修剪方法，發(fā)現(xiàn)高稀疏率（80%）可以優(yōu)于標(biāo)準(zhǔn)適配器。此外，大稀疏配置增加了瓶頸尺寸，同時(shí)保持了恒定的參數(shù)預(yù)算（例如，以50%的稀疏度將尺寸翻倍），大大增強(qiáng)了模型的容量，從而提高了性能。

C. Quantization Strategies for PEFT

量化是提高計(jì)算效率和減少內(nèi)存使用的另一種流行技術(shù)。例如，通過研究適配器的損失情況，BI Adapter發(fā)現(xiàn)適配器能夠抵抗參數(shù)空間中的噪聲。在此基礎(chǔ)上，作者引入了一種基于聚類的量化方法。值得注意的是，它們證明了適配器的1位量化不僅最大限度地減少了存儲需求，而且在所有精度設(shè)置中都實(shí)現(xiàn)了卓越的性能。PEQA（參數(shù)高效和量化感知自適應(yīng)）使用兩級流水線來實(shí)現(xiàn)參數(shù)高效和量化器感知微調(diào)。QA LoRA解決了QLoRA的另一個(gè)局限性，QLoRA在微調(diào)后難以保持其量化特性。在QLoRA中，量化的預(yù)訓(xùn)練權(quán)重（NF4）必須恢復(fù)到FP16，以在權(quán)重合并期間匹配LoRA權(quán)重精度（FP16）。相反，QA LoRA使用INT4量化，并引入分組運(yùn)算符以在推理階段實(shí)現(xiàn)量化，因此與QLoRA相比提高了效率和準(zhǔn)確性。

D. Memory-efficient PEFT Methods

QA LoRA解決了QLoRA的另一個(gè)局限性，即在微調(diào)后難以保持其量化特性。在QLoRA中，量化的預(yù)訓(xùn)練權(quán)重（NF4）必須恢復(fù)到FP16，以在權(quán)重合并期間匹配LoRA權(quán)重精度（FP16）。相反，QA LoRA使用INT4量化，并引入分組運(yùn)算符以在推理階段實(shí)現(xiàn)量化，因此與QLoRA相比提高了效率和準(zhǔn)確性。

為了提高內(nèi)存效率，已經(jīng)開發(fā)了各種技術(shù)來最小化在微調(diào)期間對整個(gè)LLM的緩存梯度的需要，從而減少內(nèi)存使用。例如，Side-Tuning和LST(Ladder-Side Tuning)都引入了與主干模型并行的可學(xué)習(xí)網(wǎng)絡(luò)分支。通過專門通過這個(gè)并行分支引導(dǎo)反向傳播，它避免了存儲主模型權(quán)重的梯度信息的需要，從而顯著降低了訓(xùn)練期間的內(nèi)存需求。類似地，Res Tuning將PEFT調(diào)諧器（例如，即時(shí)調(diào)諧、適配器）與主干模型分離。在分解的基礎(chǔ)上，提出了一個(gè)名為Res-Mtuning Bypass的高效內(nèi)存微調(diào)框架，該框架通過去除從解耦的調(diào)諧器到主干的數(shù)據(jù)流，生成與主干模型并行的旁路網(wǎng)絡(luò)。

PEFT FOR DNNS OF OTHER APPLICATIONS

在第三節(jié)中，我們概述了四類PEFT方法及其改進(jìn)。盡管如此，我們的討論并沒有完全擴(kuò)展到傳統(tǒng)架構(gòu)（如LLM）或標(biāo)準(zhǔn)基準(zhǔn)（如GLUE數(shù)據(jù)集）之外的PEFT技術(shù)的利用或適應(yīng)，其中大多數(shù)討論的PEFT方法都是應(yīng)用的。因此，在本節(jié)中，我們將重點(diǎn)介紹和討論利用PEFT策略執(zhí)行各種下游任務(wù)的幾項(xiàng)最具代表性的工作。我們并不打算在本節(jié)中涵蓋所有PEFT應(yīng)用場景。我們的目標(biāo)是展示產(chǎn)品環(huán)境足跡在各個(gè)研究領(lǐng)域的重大影響，并展示如何優(yōu)化和定制通用產(chǎn)品環(huán)境足跡方法，以提高特定模型或任務(wù)的性能。

通常，在將預(yù)先訓(xùn)練的主干模型適應(yīng)專門的下游任務(wù)時(shí)會進(jìn)行微調(diào)。為此，本節(jié)圍繞各種模型架構(gòu)組織討論，這些架構(gòu)包括：LLM、視覺Transformer（ViT）、視覺語言對齊模型（VLA）和擴(kuò)散模型。在每個(gè)體系結(jié)構(gòu)類別中，討論是基于不同的下游任務(wù)進(jìn)行進(jìn)一步分類的。

A. PEFT for LLMs – Beyond the Basics

與NLP中的常見任務(wù)（如NLU和NLG）不同，PEFT技術(shù)在不同的場景中具有廣泛的應(yīng)用。PEFT已成功應(yīng)用于常識性問答、多層次隱含話語關(guān)系識別、分布外檢測、隱私保護(hù)、聯(lián)合學(xué)習(xí)和社會偏見緩解等領(lǐng)域。在本節(jié)中，我們將更多地關(guān)注三個(gè)具有代表性的下游任務(wù)：視覺教學(xué)跟隨、持續(xù)學(xué)習(xí)和上下文窗口擴(kuò)展。

1）視覺指導(dǎo)：包括VL-BART、MiniGPT-4和LLaVA在內(nèi)的幾項(xiàng)研究成功地?cái)U(kuò)展了LLM的能力，LLM最初是為純文本設(shè)計(jì)的，可以理解和生成對視覺輸入的響應(yīng)。這些增強(qiáng)的模型，即視覺指令跟隨LLM，可以處理圖像和文本以產(chǎn)生文本響應(yīng)，這些文本響應(yīng)可以在圖像字幕和視覺問答（VQA）等任務(wù)上進(jìn)行基準(zhǔn)測試。然而，這些方法對整個(gè)LLM進(jìn)行微調(diào)以學(xué)習(xí)視覺表示，這在時(shí)間和內(nèi)存方面都是低效的。因此，將PEFT技術(shù)應(yīng)用于LLM后視覺教學(xué)的微調(diào)是很自然的。

2）持續(xù)學(xué)習(xí)（CL）：CL旨在在一個(gè)模型中學(xué)習(xí)一系列新任務(wù)，在對話系統(tǒng)、信息提取系統(tǒng)和問答系統(tǒng)等場景中有廣泛應(yīng)用。CL的主要挑戰(zhàn)是災(zāi)難性遺忘。一種流行的做法，稱為基于體系結(jié)構(gòu)的方法，通過在模型中為每個(gè)新任務(wù)維護(hù)特定于任務(wù)的參數(shù)來處理CL。因此，將PEFT方法用于CL任務(wù)是很自然的。

3）上下文窗口擴(kuò)展：LLM通常使用預(yù)定義的上下文大小進(jìn)行訓(xùn)練。例如，LLaMA和LLaMA2分別具有2048和4096個(gè)令牌的預(yù)定義上下文大小。位置編碼RoPE具有弱的外推特性，這意味著在輸入長度超過預(yù)定義上下文長度的情況下，性能明顯下降。為了解決這個(gè)問題，一個(gè)簡單的解決方案是將預(yù)先訓(xùn)練的LLM微調(diào)到更長的上下文。然而，這會隨著上下文大小的二次方增加計(jì)算成本，從而使內(nèi)存和處理資源緊張。

B. PEFT for ViTs

在最近的計(jì)算機(jī)視覺社區(qū)中，ViT已經(jīng)成為一種強(qiáng)大的骨干模型。在ViT模型中，圖像被視為固定大小的補(bǔ)丁序列，類似于LLM如何使用離散標(biāo)記。這些補(bǔ)丁經(jīng)過線性嵌入，然后接收位置編碼。隨后，它們通過標(biāo)準(zhǔn)的Transformer編碼器進(jìn)行處理。ViT的訓(xùn)練可以是監(jiān)督的或自監(jiān)督的，并且當(dāng)使用更多數(shù)據(jù)和更大的模型大小進(jìn)行訓(xùn)練時(shí)，ViT可以實(shí)現(xiàn)卓越的性能。然而，這種規(guī)模的擴(kuò)大不可避免地會增加培訓(xùn)和存儲成本。因此，與LLM類似，PEFT廣泛應(yīng)用于各種下游任務(wù)，如密集預(yù)測、連續(xù)學(xué)習(xí)、深度度量學(xué)習(xí)。在這里，我們重點(diǎn)關(guān)注兩個(gè)典型的任務(wù)來展示PEFT的參與：圖像分類和視頻復(fù)原。

1）圖像分類：在目標(biāo)視覺數(shù)據(jù)集上進(jìn)行圖像分類是一種非常普遍的需求，具有廣泛的應(yīng)用，而預(yù)訓(xùn)練-微調(diào)范式是一種廣泛的策略。多種方法利用PEFT技術(shù)實(shí)現(xiàn)有效的模型調(diào)整。

2）視頻識別：一些工作考慮了更具挑戰(zhàn)性的適應(yīng)問題，即將ViT轉(zhuǎn)移到具有更大領(lǐng)域差距的下游任務(wù)。例如，ST適配器（時(shí)空適配器）和AIM都將適配器層插入到預(yù)訓(xùn)練的ViT塊中。他們的主要目標(biāo)是對時(shí)空信息進(jìn)行建模，從而使ViT能夠有效地從圖像模型適應(yīng)視頻任務(wù)。值得注意的是，這兩種方法的性能都超過了傳統(tǒng)的全模型微調(diào)方法。

C. PEFT for VLAs

視覺語言對齊模型（VLA），如CLIP、ALIGN、DeCLIP和FLAVA，旨在學(xué)習(xí)可以在統(tǒng)一表示空間內(nèi)對齊的良好圖像和文本特征。每個(gè)VLA通常由提取各自特征的獨(dú)立圖像和文本編碼器組成。在這些模型中，對比學(xué)習(xí)被用來有效地對齊圖像和文本特征。微調(diào)被用來提高VLA在特定數(shù)據(jù)集或任務(wù)中的性能，但對整個(gè)模型的微調(diào)是計(jì)算密集型的。

1）開放式詞匯圖像分類：在開放式詞匯的圖像分類中，早期的作品為每個(gè)類別設(shè)計(jì)特定類別的提示，例如class的照片，并根據(jù)圖像與這些文本描述的相似性對圖像進(jìn)行排名。CoOp（上下文優(yōu)化）用可學(xué)習(xí)向量替換手工制作的文本提示，同時(shí)在訓(xùn)練期間保留整個(gè)VLA修復(fù)。CoCoOp（條件上下文優(yōu)化）通過解決CoOp在推廣到看不見的類方面的局限性，建立在這一基礎(chǔ)上。

在另一個(gè)方向上，一些研究探討了適配器在VLA中的使用。例如，CLIP適配器在CLIP的文本和視覺編碼器之后集成了殘余樣式適配器。因此，與CoOp和CoCoOp不同，CLIP Adapter避免了通過CLIP編碼器的梯度反向傳播，從而降低了訓(xùn)練內(nèi)存和時(shí)間方面的計(jì)算要求。尖端適配器采用與CLIP適配器相同的設(shè)計(jì)。與CLIP適配器不同的是，適配器的權(quán)重是以無訓(xùn)練的方式從查詢密鑰緩存模型中獲得的，該模型是以非參數(shù)方式從最少監(jiān)督構(gòu)建的。因此，與CLIP-Adapter的SGD訓(xùn)練過程相比，Tip-Adapter表現(xiàn)出了極大的效率。

D. PEFT for Diffusion Models

擴(kuò)散模型是一類生成模型，通過漸進(jìn)去噪過程將隨機(jī)噪聲轉(zhuǎn)換為結(jié)構(gòu)化輸出，學(xué)習(xí)生成數(shù)據(jù)。在訓(xùn)練過程中，擴(kuò)散模型學(xué)習(xí)使用去噪網(wǎng)絡(luò)來反轉(zhuǎn)添加到訓(xùn)練數(shù)據(jù)中的噪聲，而在推理中，它們從噪聲開始，使用去噪網(wǎng)迭代創(chuàng)建與訓(xùn)練示例相同分布的數(shù)據(jù)。擴(kuò)散模型有各種應(yīng)用，而最值得注意的是穩(wěn)定擴(kuò)散，它以其直接從文本描述生成連貫和上下文相關(guān)圖像的強(qiáng)大能力彌合了文本和圖像之間的差距。許多研究利用PEFT技術(shù)將預(yù)先訓(xùn)練的擴(kuò)散模型用于下游任務(wù)，包括加速采樣速度、文本到視頻的自適應(yīng)、文本到3D的自適應(yīng)等。本節(jié)主要關(guān)注兩種場景：在僅基于文本的條件之外集成額外的輸入模式，以及基于預(yù)先訓(xùn)練的傳播模型定制內(nèi)容生成。

1）附加輸入控制：為了在保留預(yù)先訓(xùn)練的模型中的廣泛知識的同時(shí)納入附加輸入模式（如布局、關(guān)鍵點(diǎn)），GLIGEN引入了一種新的方法，該方法保持原始模型的權(quán)重不變，并集成新的、可訓(xùn)練的門控Transformer，以接受新的接地輸入。所得到的模型不僅可以準(zhǔn)確地表示接地條件，而且可以生成高質(zhì)量的圖像。值得注意的是，該模型在推理過程中也能很好地推廣到看不見的物體。

2）自定義生成：文本到圖像擴(kuò)散模型的有效性受到用戶通過文本描述闡明所需目標(biāo)的能力的限制。例如，很難描述一輛創(chuàng)新玩具車的精確特征，而這在大型模型訓(xùn)練中是不會遇到的。因此，定制生成的目標(biāo)是使模型能夠從用戶提供的圖像的最小集合中掌握新概念。

SYSTEM DESIGN CHALLENGE FOR PEFT

A. System design for PEFT

在本節(jié)中，我們首先簡要介紹基于云的PEFT系統(tǒng)。接下來，我們介紹了用于評估系統(tǒng)性能的相應(yīng)指標(biāo)。此外，我們還提出了三種潛在的利用場景，以說明系統(tǒng)設(shè)計(jì)中的挑戰(zhàn)。

1）集中式PEFT查詢服務(wù)：云提供商最近推出了一系列LLM服務(wù)，旨在通過應(yīng)用程序編程接口（API）提供用戶應(yīng)用程序。這些API有助于將許多ML功能無縫集成到應(yīng)用程序中。在通過API接收到針對一個(gè)特定下游任務(wù)的一個(gè)查詢之后，基于云的服務(wù)器使用一個(gè)特色LLM模型來處理該查詢。在這種情況下，所提出的用于處理多個(gè)PEFT查詢的云解決方案涉及僅存儲LLM的單個(gè)副本和多個(gè)PETT模塊。此單個(gè)副本維護(hù)多個(gè)PEFT模塊分支，每個(gè)分支與不同的PEFT查詢相關(guān)聯(lián)。最先進(jìn)系統(tǒng)的案例研究可在第VI-C節(jié)中找到。圖10（b）說明了多查詢PEFT推理的計(jì)算模式，其中打包PEFT查詢根據(jù)其截止日期和當(dāng)前系統(tǒng)條件進(jìn)行調(diào)度和執(zhí)行。

2）服務(wù)指標(biāo)：為了評估集中式PEFT查詢服務(wù)的系統(tǒng)性能，我們提出了一組評估指標(biāo)。

系統(tǒng)吞吐量：將PEFT查詢視為內(nèi)部任務(wù)和內(nèi)部任務(wù)，我們使用每秒令牌來測量系統(tǒng)吞吐量。
內(nèi)存占用：查詢服務(wù)期間的運(yùn)行時(shí)內(nèi)存消耗，內(nèi)存利用率來自模型參數(shù)和KV緩存，如第IV-A節(jié)所述。
準(zhǔn)確性性能：真實(shí)世界的查詢通常具有不同的上下文長度，具有變化長度的性能作為性能基準(zhǔn)。
服務(wù)質(zhì)量：查詢與延遲要求相關(guān)，截止日期缺失率被視為另一個(gè)基準(zhǔn)。

3） PEFT的分布式系統(tǒng)：然而，在當(dāng)代LLM模型中，預(yù)先訓(xùn)練的模型并不完全支持個(gè)性化任務(wù)，因此，需要使用前面章節(jié)中提到的方法進(jìn)行額外的微調(diào)。然而，當(dāng)我們考慮將數(shù)據(jù)集提供給云提供商時(shí)，會引起一個(gè)很大的擔(dān)憂，因?yàn)檫@些數(shù)據(jù)集是個(gè)性化的。

對于這個(gè)問題，我們假設(shè)我們的計(jì)算遵循模型集中式和PEFT分布式范式。骨干LLM存儲在云設(shè)備中，而個(gè)人PEFT權(quán)重以及數(shù)據(jù)集存儲在用戶自己的設(shè)備中。如圖10（a）所示。

4）分布式度量：為了評估所提出方法的有效性，我們建立了一組評估度量。為了進(jìn)行此分析，在不失一般性的情況下，我們采用語言模型作為度量定義的基礎(chǔ)。

精度性能：微調(diào)模型在下游任務(wù)中的性能。
計(jì)算成本：在邊緣設(shè)備上進(jìn)行正向和反向傳播操作期間的計(jì)算成本。
通信成本：指邊緣設(shè)備和云之間傳輸中間數(shù)據(jù)時(shí)所涉及的數(shù)據(jù)量。

5）多產(chǎn)品環(huán)境足跡培訓(xùn)：與多個(gè)產(chǎn)品環(huán)境足跡服務(wù)不同，使用多個(gè)定制產(chǎn)品環(huán)境足跡進(jìn)行調(diào)整總是涉及不同的骨干LLM。當(dāng)考慮在各種下游任務(wù)中使用LLM時(shí)，預(yù)先訓(xùn)練的模型通常表現(xiàn)出較差的性能。使LLM適應(yīng)不同任務(wù)的一種流行方法涉及精心調(diào)整的PEFT。然而，同時(shí)調(diào)整多個(gè)PEFT可能會帶來相當(dāng)大的挑戰(zhàn)。如何管理內(nèi)存梯度和模型權(quán)重存儲，以及如何設(shè)計(jì)用于批處理PEFT訓(xùn)練的高效內(nèi)核等挑戰(zhàn)仍未解決。產(chǎn)品環(huán)境足跡將根據(jù)其產(chǎn)品環(huán)境足跡算法和骨干LLM模型進(jìn)行分類。設(shè)計(jì)挑戰(zhàn)涉及如何同時(shí)將多個(gè)具有相同LLM主干和多個(gè)不同LLM主干的PEFT合并。

B. Parallel PEFT Training Frameworks

a）設(shè)計(jì)挑戰(zhàn)：與旨在適應(yīng)靈活的多PEFT算法的PetS系統(tǒng)不同，SLoRA和Punica僅專注于促進(jìn)各種任務(wù)的多個(gè)LoRA塊。設(shè)計(jì)多個(gè)產(chǎn)品環(huán)境足跡培訓(xùn)系統(tǒng)主要面臨兩個(gè)方面的關(guān)鍵挑戰(zhàn) 方面：

具有相同LLM主干的多個(gè)PEFT模型的高效并發(fā)執(zhí)行。
設(shè)計(jì)一個(gè)高效的系統(tǒng)，用于不同LLM骨干網(wǎng)的多租戶服務(wù)。

b）高效的內(nèi)核設(shè)計(jì)：Punica解決了第一個(gè)挑戰(zhàn)，將現(xiàn)有的矩陣乘法用于主干計(jì)算，并引入了一種新的CUDA內(nèi)核——分段聚集矩陣矢量乘法（SGMV），用于以批處理的方式將PEFT附加項(xiàng)添加到主干計(jì)算中。該內(nèi)核對批處理中不同請求的特征權(quán)重相乘進(jìn)行并行化，并將對應(yīng)于同一PEFT模型的請求分組，以增加操作強(qiáng)度并使用GPU張量核心進(jìn)行加速。

第二個(gè)挑戰(zhàn)超出了計(jì)算成本，設(shè)計(jì)一種高效的系統(tǒng)架構(gòu)是另一個(gè)重大挑戰(zhàn)，該架構(gòu)可以在盡可能小的GPU集上有效地服務(wù)于多租戶PEFT模型工作負(fù)載，同時(shí)占用最少的GPU資源。Punica通過將用戶請求調(diào)度到已經(jīng)服務(wù)或訓(xùn)練PEFT模型的活動GPU來解決這一問題，從而提高GPU利用率。對于較舊的請求，Punica會定期遷移它們以整合工作負(fù)載，從而為新請求釋放GPU資源。

c）多租戶PEFT設(shè)計(jì)：為Punica框架中的多租戶PEVT模型設(shè)計(jì)一個(gè)高效的系統(tǒng)，重點(diǎn)是解決幾個(gè)關(guān)鍵挑戰(zhàn)，以最大限度地提高硬件利用率并最大限度地減少資源消耗。該系統(tǒng)旨在將多租戶LoRA服務(wù)工作負(fù)載整合到盡可能小的GPU集上。這種整合是通過對已經(jīng)在服務(wù)或訓(xùn)練LoRA模型的活動GPU的用戶請求進(jìn)行戰(zhàn)略調(diào)度來實(shí)現(xiàn)的，從而提高GPU利用率。對于較舊的請求，Punica會定期遷移它們以進(jìn)一步整合工作負(fù)載，從而為新請求釋放GPU資源。它結(jié)合了LoRA模型權(quán)重的按需加載，只引入了毫秒級的延遲。該功能為Punica提供了將用戶請求動態(tài)合并到一小組GPU的靈活性，而不受已經(jīng)在這些GPU上運(yùn)行的特定LoRA模型的約束。除此之外，Punica認(rèn)為解碼階段是模型服務(wù)成本的主要因素，其設(shè)計(jì)主要側(cè)重于優(yōu)化解碼階段的性能。模型服務(wù)的其他方面利用直接的技術(shù)，例如按需加載LoRA模型權(quán)重，來有效地管理資源利用率。

結(jié)論和未來方向

在當(dāng)前由大型模型和大型數(shù)據(jù)集主導(dǎo)的時(shí)代，PEFT是一種非常有吸引力的方法，可以有效地使模型適應(yīng)下游任務(wù)。這項(xiàng)技術(shù)通過解決傳統(tǒng)的全模型微調(diào)帶來的重大挑戰(zhàn)而獲得吸引力，這種微調(diào)通常會給普通用戶帶來難以維持的計(jì)算和數(shù)據(jù)需求。本調(diào)查對PEFT的最新進(jìn)展進(jìn)行了系統(tǒng)回顧，涵蓋算法開發(fā)、計(jì)算和效率方面、應(yīng)用和系統(tǒng)部署。它提供了一個(gè)全面的分類和解釋，作為一個(gè)很好的指導(dǎo)和知識庫，使不同級別和學(xué)科的讀者能夠迅速掌握PEFT的核心概念。

為了進(jìn)一步研究PEFT，我們從算法和系統(tǒng)的角度提出了一系列可能的方向，希望能激勵(lì)更多的研究人員在這些領(lǐng)域進(jìn)行進(jìn)一步的研究。

A. Simplify hyperparameter tuning

PEFT的有效性通常對其超參數(shù)敏感，如適配器的瓶頸尺寸r、LoRA的等級和不同附加PEFT層的位置。手動調(diào)整這些超參數(shù)將花費(fèi)大量精力。因此，未來的工作可以集中在開發(fā)不太依賴手動調(diào)整這些參數(shù)的方法，或者自動找到最佳超參數(shù)設(shè)置。一些研究已經(jīng)開始解決這個(gè)問題，但需要更簡單有效的解決方案來優(yōu)化這些超參數(shù)。

B. Establish a unified benchmark

盡管存在像HuggingFace的PEFT和AdapterHub這樣的庫，但仍然缺乏一個(gè)全面的PEFT基準(zhǔn)。這種差距阻礙了公平比較不同PEFT方法的性能和效率的能力。一個(gè)被廣泛接受的、類似于物體檢測的MMDetection的最新基準(zhǔn)將使研究人員能夠根據(jù)一組標(biāo)準(zhǔn)的任務(wù)和指標(biāo)來驗(yàn)證他們的方法，從而促進(jìn)社區(qū)內(nèi)的創(chuàng)新和合作。

C. Enhance training efficiency

PEFT的假定參數(shù)效率并不總是與訓(xùn)練期間的計(jì)算和內(nèi)存節(jié)省一致?？紤]到可訓(xùn)練參數(shù)在預(yù)訓(xùn)練模型的體系結(jié)構(gòu)中相互交織，在微調(diào)過程中通常需要計(jì)算和存儲整個(gè)模型的梯度。這種監(jiān)督要求重新思考什么是效率。如第四節(jié)所述，潛在的解決方案在于模型壓縮技術(shù)的集成，如修剪和量化，以及專門為優(yōu)化PEFT調(diào)整期間的內(nèi)存而設(shè)計(jì)的創(chuàng)新。進(jìn)一步研究提高PEFT方法的計(jì)算效率勢在必行。

D. Explore scaling laws

最初為較小的Transformer模型開發(fā)的PEFT方法的設(shè)計(jì)和有效性不一定與較大的模型相適應(yīng)。隨著基礎(chǔ)模型規(guī)模的增加，識別和調(diào)整保持有效的產(chǎn)品環(huán)境足跡戰(zhàn)略至關(guān)重要。這一探索將有助于根據(jù)大型模型架構(gòu)的發(fā)展趨勢定制PEFT方法。

E. Serve more models and tasks

大型基礎(chǔ)模型在各個(gè)領(lǐng)域的興起為PEFT提供了新的機(jī)會。設(shè)計(jì)適合模型獨(dú)特特征的PEFT方法，如Sora、Mamba和LVM，可以釋放新的應(yīng)用場景和機(jī)會。

F. Enhancing data privacy

信任集中式系統(tǒng)來服務(wù)或微調(diào)個(gè)性化PEFT模塊是系統(tǒng)開發(fā)人員的另一個(gè)問題。側(cè)通道攻擊者已成功部署，通過劫持中間結(jié)果來重建用戶的數(shù)據(jù)。未來值得信賴的LLM系統(tǒng)設(shè)計(jì)的一個(gè)視角涉及為個(gè)人數(shù)據(jù)以及中間訓(xùn)練和推理結(jié)果開發(fā)加密協(xié)議。

G. PEFT with model compression

模型壓縮是使LLM在資源有限的設(shè)備上可執(zhí)行的最有效方法之一。然而，模型壓縮技術(shù)對在硬件上運(yùn)行的PEFT算法性能的影響仍然是另一個(gè)系統(tǒng)性挑戰(zhàn)。量化和修剪等常見的壓縮技術(shù)需要專用的硬件平臺來加快過程，而為壓縮模型構(gòu)建這樣的硬件平臺是研究人員的另一個(gè)方向。

責(zé)任編輯：張燕妮來源：自動駕駛之心

算法技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營