自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<rt id="pkrow"></rt>

<cite id="pkrow"></cite>

<tr id="pkrow"></tr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA 原創(chuàng)

大模型自然語言處理

發(fā)布于 2024-12-4 10:51

瀏覽

0收藏

回顧一下三種參數(shù)高效微調(diào)方法-Prefix Tuning、Adapter Tuning、LoRA

Prefix Tuning

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA-AI.x社區(qū)

Prefix Tuning

在prefix-tuning之前的工作主要是人工設(shè)計(jì)離散的template或者自動(dòng)化搜索離散template，問題在于最終的性能對(duì)人工設(shè)計(jì)的template的特別敏感：加一個(gè)詞或者少一個(gè)詞，或者變動(dòng)位置，都會(huì)造成很大的變化，所以這種離散化的token的搜索出來的結(jié)果可能并不是最優(yōu)的。Prefix Tuning方法使用連續(xù)的virtual token embedding來代替離散的token，且與Full-finetuning更新所有參數(shù)的方式不同。簡(jiǎn)而言之就是Prefix Tuning在原始文本進(jìn)行詞嵌入之后，在前面拼接上一個(gè)前綴矩陣，或者將前綴矩陣拼在模型每一層的輸入前。

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA-AI.x社區(qū)

Prefix Tuning的兩種示例

Prefix Tuning相關(guān)設(shè)置：

前綴初始化時(shí)，[前綴長(zhǎng)度, 嵌入維度]，其中嵌入維度與模型詞嵌入的維度相同。前綴長(zhǎng)度可以根據(jù)任務(wù)需求進(jìn)行調(diào)整。
更長(zhǎng)的前綴意味著更多的可微調(diào)參數(shù)，效果也變好，不過長(zhǎng)度還是有閾值限制的(table-to-text是10，summarization是200)

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA-AI.x社區(qū)

（上）：針對(duì)表格描述(Table-to-text)、文章總結(jié)(Summarization)、翻譯(Translation)三種任務(wù)，F(xiàn)ine-Tuning需微調(diào)三個(gè)LM，且需保存每個(gè)特定任務(wù)的LM參數(shù)，臃腫和低效；（下）：然而，Prefix Tuning要清爽得多，針對(duì)三類任務(wù)，只需訓(xùn)練三個(gè)Prefix生成器，原LM參數(shù)可直接復(fù)用。

推理階段，只需要將任務(wù)相關(guān)的輸入序列與訓(xùn)練好的前綴嵌入進(jìn)行拼接，然后輸入到模型中即可得到預(yù)測(cè)結(jié)果。

代碼過程，下面這個(gè)類旨在將輸入的前綴有效地編碼為適合后續(xù)處理的向量形式。

參考：https://github.com/THUDM/P-tuning-v2/blob/main/model/prefix_encoder.py

import torch


class PrefixEncoder(torch.nn.Module):
    r'''
    The torch.nn model to encode the prefix

    Input shape: (batch-size, prefix-length)

    Output shape: (batch-size, prefix-length, 2*layers*hidden)
    '''
    def __init__(self, config):
        super().__init__()
        self.prefix_projection = config.prefix_projection
        if self.prefix_projection:
            # Use a two-layer MLP to encode the prefix
            self.embedding = torch.nn.Embedding(config.pre_seq_len, config.hidden_size)
            self.trans = torch.nn.Sequential(
                torch.nn.Linear(config.hidden_size, config.prefix_hidden_size),
                torch.nn.Tanh(),
                torch.nn.Linear(config.prefix_hidden_size, config.num_hidden_layers * 2 * config.hidden_size)
            )
        else:
            self.embedding = torch.nn.Embedding(config.pre_seq_len, config.num_hidden_layers * 2 * config.hidden_size)

    def forward(self, prefix: torch.Tensor):
        if self.prefix_projection:
            prefix_tokens = self.embedding(prefix)
            past_key_values = self.trans(prefix_tokens)
        else:
            past_key_values = self.embedding(prefix)
        return past_key_values

Adapter Tuning

通過引入少量可訓(xùn)練參數(shù)（適配器模塊）來進(jìn)行特定任務(wù)的優(yōu)化。適配器模塊是一組輕量級(jí)的參數(shù)，被添加到模型的中間層，以保護(hù)原有預(yù)訓(xùn)練模型的參數(shù)。這種方法的目標(biāo)是在不改變整體模型結(jié)構(gòu)的情況下，通過調(diào)整適配器模塊的參數(shù)來適應(yīng)新任務(wù)。

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA-AI.x社區(qū)

Adapter Tuning針對(duì)Transformer的添加方式。左：針對(duì)每個(gè)Transformer層，Adapter參數(shù)在兩個(gè)殘差前插入。在Tuning中，圖中的綠色模塊是可訓(xùn)練的，其他模塊的參數(shù)固定。

Adapter Tuning的核心思想是在預(yù)訓(xùn)練模型的中間層中插入小的可訓(xùn)練層或“適配器”。這些適配器通常包括一些全連接層、非線性激活函數(shù)等，它們被設(shè)計(jì)用來捕獲特定任務(wù)的知識(shí)，而不需要對(duì)整個(gè)預(yù)訓(xùn)練模型進(jìn)行大規(guī)模的微調(diào)。

下面舉個(gè)例子看下Adapter Tuning過程：

Adapters還可以和HuggingFace的Transformer包無縫整合，可以直接加載HuggingFace上的模型進(jìn)行Adapter微調(diào)。

以文本分類為例，BERT預(yù)訓(xùn)練模型加載：

from transformers import AutoTokenizer, AutoConfig
from adapters import AutoAdapterModel
 
model_path = "bert-base-chinese"
tokenizer = AutoTokenizer.from_pretrained(model_path)
config = AutoConfig.from_pretrained(model_path, num_labels=3)
model = AutoAdapterModel.from_pretrained(model_path, cnotallow=config)

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA-AI.x社區(qū)

然后為預(yù)訓(xùn)練模型設(shè)置適配器。這里需要注意，在Adapters包里，本節(jié)所介紹的適配器結(jié)構(gòu)被稱為瓶頸適配器（Bottleneck adapters）（如上圖1）,使用BnConfig類來配置。這里需要為適配器取一個(gè)名字，之后可以通過這個(gè)名字來激活或者禁用這個(gè)適配器。

from adapters import BnConfig

adapter_name = "trouble_shooting"
# 添加一個(gè)新的adapter，類型為Bn adapter，即bottleneck adapter
config = BnConfig(mh_adapter=True, output_adapter=True, reduction_factor=16, non_linearity="relu")

model.add_adapter(adapter_name, cnotallow=config)
# 添加一個(gè)分類頭
model.add_classification_head(adapter_name,num_labels=3, activation_functinotallow="relu")
# 激活這個(gè)adapter
model.train_adapter(adapter_name)

主要參數(shù)：

mh_adapter：設(shè)置是否要在多頭注意力模塊之后添加適配器。
output_adapter：設(shè)置是否要在Transformer模塊的輸出層添加適配器。
reduction_factor：模型參數(shù)量與需調(diào)整的適配器參數(shù)量的比值。
non_linearity：設(shè)置非線性部分使用的激活函數(shù)。

trainer訓(xùn)練模型：

from transformers import TrainingArguments
from adapters import AdapterTrainer
training_args = TrainingArguments(
    num_train_epochs=5,
    per_device_train_batch_size = 16,
    logging_steps=2,
    save_steps = 10,
    gradient_accumulation_steps = 4,
    output_dir="bert-adapter",
)
 
trainer = AdapterTrainer (
model=model, tokenizer=tokenizer
args=training_args, train_dataset=train_dataset,
    optimizers=(optimizer, None)
)
trainer.train() # 開始訓(xùn)練
trainer.save_model() # 保存訓(xùn)練好的模型

LoRA

矩陣的秩（Rank）：衡量了矩陣中行或列向量的線性無關(guān)性。

低秩：秩遠(yuǎn)小于矩陣的行數(shù)或列數(shù)。

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA-AI.x社區(qū)

LoRA（Low-Rank Adaptation）假設(shè)模型在任務(wù)適配過程中權(quán)重的改變量可以是低秩的。 LoRA通過在預(yù)訓(xùn)練模型中引入一個(gè)額外的線性層（由低秩矩陣A和B組成），并使用特定任務(wù)的訓(xùn)練數(shù)據(jù)來微調(diào)這個(gè)線性層，從而實(shí)現(xiàn)對(duì)模型的高效微調(diào)。

假設(shè)預(yù)訓(xùn)練參數(shù)為,那么全量微調(diào)時(shí)的更新量自然也是一個(gè)矩陣，LoRA將更新量約束為低秩矩陣來降低訓(xùn)練時(shí)的參數(shù)量，即設(shè),其中以及,用新的替換模型原參數(shù)，并固定不變，只訓(xùn)練,如下圖所示：

參數(shù)高效微調(diào)-Prefix Tuning、Adapter Tuning、LoRA-AI.x社區(qū)

為了使得LoRA的初始狀態(tài)跟預(yù)訓(xùn)練模型一致，通常會(huì)將之一全零初始化，這樣可以得到,那么初始的就是。但這并不是必須的，如果都是非全零初始化，那么我們只需要將設(shè)置為

也就是說將固定不變的權(quán)重從換為,同樣可以滿足初始等于這一條件。

影響LoRA微調(diào)的相關(guān)參數(shù)如下：

秩（Rank）
參數(shù)：lora_rank
描述：秩是LoRA中最重要的參數(shù)之一，它決定了低秩矩陣的維度。秩的大小直接影響模型的性能和訓(xùn)練時(shí)間。
常用值：對(duì)于小型數(shù)據(jù)集或簡(jiǎn)單任務(wù)，秩可以設(shè)置為1或2；對(duì)于更復(fù)雜的任務(wù)，秩可能需要設(shè)置為4、8或更高。
縮放系數(shù)（Alpha）
參數(shù)：lora_alpha
描述：縮放系數(shù)用于在訓(xùn)練開始時(shí)對(duì)低秩矩陣的更新進(jìn)行縮放，以確保訓(xùn)練過程的穩(wěn)定性。
常用值：縮放系數(shù)的具體值取決于秩的大小和任務(wù)的復(fù)雜度。
Dropout系數(shù)
參數(shù)：lora_dropout
描述：Dropout是一種正則化技術(shù)，用于防止模型過擬合。在LoRA Fine-tuning中，Dropout系數(shù)決定了在訓(xùn)練過程中隨機(jī)丟棄低秩矩陣中元素的概率。
常用值：Dropout系數(shù)的常用值范圍在0到1之間，具體值取決于模型的復(fù)雜度和數(shù)據(jù)的規(guī)模。
學(xué)習(xí)率
參數(shù)：learning_rate
描述：學(xué)習(xí)率決定了模型在訓(xùn)練過程中權(quán)重更新的步長(zhǎng)。適當(dāng)?shù)膶W(xué)習(xí)率可以幫助模型在訓(xùn)練過程中更快地收斂到最優(yōu)解。
常用值：學(xué)習(xí)率的具體值取決于多個(gè)因素，包括模型的復(fù)雜度、數(shù)據(jù)的規(guī)模以及訓(xùn)練過程中的其他超參數(shù)設(shè)置。

LoRA微調(diào)如今是高效微調(diào)LLM的重要手段，PEFT庫也集成了相關(guān)方法： PEFT庫：https://github.com/huggingface/peft

參考文獻(xiàn)

Prefix-Tuning: Optimizing Continuous Prompts for Generation
Parameter-Efficient Transfer Learning for NLP
LoRA: Low-Rank Adaption of Large Language Models

本文轉(zhuǎn)載自公眾號(hào)大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/X-_l4FCuAhzrkNiLGZyLfw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大模型微調(diào)新范式：當(dāng)LoRA遇見MoE

zhangyannni ? 3350瀏覽 ? 0回復(fù)
改變LoRA的初始化方式，北大新方法PiSSA顯著提升微調(diào)效果

輕薄滴假象 ? 2246瀏覽 ? 0回復(fù)
單GPU實(shí)現(xiàn)LLM多LoRA微調(diào)

angel ? 3963瀏覽 ? 0回復(fù)
讓大模型不再「巨無霸」，這是一份最新的大模型參數(shù)高效微調(diào)綜述

輕薄滴假象 ? 2260瀏覽 ? 0回復(fù)
LLM高效微調(diào)詳解-從Adpter、PrefixTuning到LoRA

angel ? 3566瀏覽 ? 0回復(fù)
LoRA數(shù)學(xué)編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究

Crystalcxt ? 2478瀏覽 ? 0回復(fù)
ICML 2024 | 脫離LoRA架構(gòu)，訓(xùn)練參數(shù)大幅減少，新型傅立葉微調(diào)來了

輕薄滴假象 ? 3251瀏覽 ? 0回復(fù)
LLM微調(diào)技術(shù)LoRA圖解

51CTO內(nèi)容精選 ? 2769瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：Fine-Tuning總覽

魯班模錘1 ? 3166瀏覽 ? 0回復(fù)
LLM基礎(chǔ)模型系列：Prompt-Tuning

探索AGI ? 3030瀏覽 ? 0回復(fù)
大模型高效微調(diào)Prompt Tuning論文解讀

AIRoobt ? 4450瀏覽 ? 0回復(fù)
如何拯救LoRA初始化？LoRA-GA：性能顯著提升+收斂速度更快！

angel ? 2548瀏覽 ? 0回復(fù)
修改一行代碼就能實(shí)現(xiàn)高效微調(diào)！上海交大&騰訊開源SaRA：兼顧原始生成和下游任務(wù)

angel ? 2239瀏覽 ? 0回復(fù)
你的LoRA需要更新了！科大訊飛等提出MiLoRA：新穎且高效的LoRA變體

angel ? 2430瀏覽 ? 0回復(fù)
在家中完成LLM微調(diào)高效指南（上）

51CTO技術(shù)棧 ? 1952瀏覽 ? 0回復(fù)
LLM微調(diào)的關(guān)鍵要點(diǎn)：如何打造高效、可靠的AI模型

Halo咯咯 ? 2360瀏覽 ? 0回復(fù)
使用 LlamaFactory 結(jié)合開源大語言模型實(shí)現(xiàn)文本分類：從數(shù)據(jù)集構(gòu)建到 LoRA 微調(diào)與推理評(píng)估

AI悠閑區(qū) ? 5108瀏覽 ? 0回復(fù)
中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理

Aceryt ? 1455瀏覽 ? 0回復(fù)
一文讀遍 LoRA 家族：大語言模型高效訓(xùn)練的"秘密武器"

鴻煊的學(xué)習(xí)筆記 ? 594瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： aiops第一名方案-EasyRAG：自動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)的高效檢索增強(qiáng)生成框架

下一篇：淺看大模型用于Text2SQL的綜述

社區(qū)精華內(nèi)容

目錄

<sub id="c7zs9"><s id="c7zs9"><li id="c7zs9"></li></s></sub>

^{<thead id="c7zs9"></thead>}

<cite id="c7zs9"></cite>