自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

機(jī)器學(xué)習(xí)|從0開(kāi)始大模型之模型DPO訓(xùn)練

周末程序猿

發(fā)布于 2025-2-4 20:36

瀏覽

0收藏

1、為什么需要DPO

Rafailov等人在2023年發(fā)表了一篇論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》，該論文提出了一種新的訓(xùn)練方法，稱為直接偏好優(yōu)化（DPO），該論文介紹：

雖然大規(guī)模無(wú)監(jiān)督語(yǔ)言模型 (LM) 可以學(xué)習(xí)廣泛的世界知識(shí)和一些推理技能，但由于其訓(xùn)練完全無(wú)監(jiān)督，因此很難精確控制其行為。  
現(xiàn)有的獲得這種可控性的方法是收集模型生成相對(duì)質(zhì)量的人類標(biāo)簽，并微調(diào)無(wú)監(jiān)督語(yǔ)言模型以符合這些偏好，通常使用從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí) (RLHF)。  
然而，RLHF 是一個(gè)復(fù)雜且通常不穩(wěn)定的過(guò)程，首先要擬合一個(gè)反映人類偏好的獎(jiǎng)勵(lì)模型，然后使用強(qiáng)化學(xué)習(xí)微調(diào)大型無(wú)監(jiān)督語(yǔ)言模型以最大化這個(gè)估計(jì)的獎(jiǎng)勵(lì)，而不會(huì)偏離原始模型太遠(yuǎn)。  
在該論文中，利用獎(jiǎng)勵(lì)函數(shù)和最優(yōu)策略之間的映射來(lái)表明，這個(gè)受約束的獎(jiǎng)勵(lì)最大化問(wèn)題可以通過(guò)一個(gè)階段的策略訓(xùn)練進(jìn)行精確優(yōu)化，本質(zhì)上是解決人類偏好數(shù)據(jù)的分類問(wèn)題。  
由此產(chǎn)生的算法，稱之為直接偏好優(yōu)化 (DPO)，穩(wěn)定、高效且計(jì)算量小，無(wú)需擬合獎(jiǎng)勵(lì)模型、在微調(diào)期間從 LM 中采樣或執(zhí)行重大超參數(shù)調(diào)整。

由此可見(jiàn)，DPO 主要解決RLHF不穩(wěn)定的問(wèn)題，直接使用人類偏好數(shù)據(jù)訓(xùn)練模型。

2、DPO的訓(xùn)練原理

DPO 的訓(xùn)練原理如下圖所示（出自原論文）：

機(jī)器學(xué)習(xí)|從0開(kāi)始大模型之模型DPO訓(xùn)練-AI.x社區(qū)

DPO

主要包括兩個(gè)步驟：

數(shù)據(jù)收集：收集一個(gè)偏好數(shù)據(jù)集，其中包含給定提示的生成結(jié)果的正負(fù)選擇對(duì)；
優(yōu)化：直接最大化DPO 損失的對(duì)數(shù)似然函數(shù)，該損失函數(shù)是偏好數(shù)據(jù)集上的交叉熵?fù)p失和模型生成結(jié)果的對(duì)數(shù)似然性之間的加權(quán)平均值；

具體公式推導(dǎo)可以參考這篇博客：https://www.cnblogs.com/lemonzhang/p/17910358.html。

3、DPO的代碼實(shí)現(xiàn)

3.1 收集數(shù)據(jù)

DPO 訓(xùn)練器對(duì)數(shù)據(jù)集的格式有具體的要求，包括三個(gè)部分：

提示（prompt）：提示的格式為：prompt: 文本；
選中（chosen）：選中文本的格式為：chosen: 文本；
拒絕（rejected）：拒絕選中文本的格式為：rejected: 文本；
示例：

{
    "id": 0,
    "prompt": "最近，馬其頓流行歌手托瑟·普羅埃斯基在一場(chǎng)巡回展覽中被紀(jì)念。",
    "chosen": "\"最近，馬其頓流行歌手托斯·普羅埃斯基在一場(chǎng)展覽中被人們銘記。\" 讓我?guī)湍憷斫?。這意味著他們舉辦了一場(chǎng)特別的展示（我們稱之為展覽），以幫助人們記住馬其頓這個(gè)地方的歌手托斯·普羅埃斯基有多特別。這有點(diǎn)像翻看你的相冊(cè)來(lái)回憶快樂(lè)時(shí)光，但規(guī)模更大，更專注于他成名后的工作和生活。",
    "rejected": "哦！你想知道這句話的意思嗎？好的，讓我告訴你！??\n\n所以，“Son d?nem”在英語(yǔ)中意思是“Last period”。而“Makedon”在英語(yǔ)中是“Macedonian”。而“pop ?ark?c?s?”在英語(yǔ)中意思是“pop singer”！??\n\n所以，句子“Son d?nem Makedon pop ?ark?c?s? Tose Proeski gezer sergide an?l?yor”的意思是“Last period Macedonian pop singer Tose Proeski正在舞臺(tái)上表演?！??\n\n希望這有幫助，小伙伴！??"
}

DPO的數(shù)據(jù)可以搜索huggingface的DPO數(shù)據(jù)集，地址為：https://huggingface.co/datasets?sort=trending&search=dpo 。

比如 https://huggingface.co/datasets/Anthropic/hh-rlhf 的數(shù)據(jù)集如下：

hh-rlhf

3.2 TRL

引入 TRL 庫(kù)，支持 DPO 訓(xùn)練器，訓(xùn)練樣例代碼：

training_args = DPOConfig(
    beta=0.1,
)
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,  # for visual language models, use tokenizer=processor instead
)
dpo_trainer.train()
dpo_trainer.save_model()

如上訓(xùn)練默認(rèn)是保存 safetensors? 格式的模型，如果想保存 pytorch 格式的模型，可以改為如下代碼：

training_args = DPOConfig(
    beta=0.1,
    save_safetensors=False, // 設(shè)置為False，改為保存為pytorch格式的模型   
)
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,  # for visual language models, use tokenizer=processor instead
)
dpo_trainer.train()
dpo_trainer.save_model(
    output_dir=f"./out/dpo_sft_xxx.pth"
)

3.3 訓(xùn)練

Transformer?的代碼和前面的一樣，可以參考預(yù)訓(xùn)練的代碼，如下就是初始化模型和 DPO 訓(xùn)練的代碼：

def init_model():
    from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
    AutoConfig.register(MyPretrainConfig.model_type, MyPretrainConfig)
    AutoModelForCausalLM.register(MyPretrainConfig, Transformer)
    my_tokenizer = "./my_tokenizer"
    tokenizer = AutoTokenizer.from_pretrained(my_tokenizer, trust_remote_code=True, use_fast=False)
    ckp = f'./out/full_sft_{lm_config.dim}.pth.{batch_size}'

    print(f"lmconfigs: {lm_config.to_json_string()}")
    with open(ckp_path + "/config.json", 'w') as f:
        f.write(lm_config.to_json_string())

    # 拷貝文件到指定的目錄
    for item in os.listdir(my_tokenizer):
        src_item = os.path.join(my_tokenizer, item)
        if os.path.isfile(src_item):
            dest_item = os.path.join(ckp_path, item)
            shutil.copy2(src_item, dest_item)
    shutil.copy2(ckp, ckp_path + "/pytorch_model.bin")

    model = AutoModelForCausalLM.from_pretrained(ckp_path, trust_remote_code=True).to(device)

    def count_parameters(model):
        return sum(p.numel() for p in model.parameters() if p.requires_grad)
    
    tokenizer.pad_token = tokenizer.eos_token
    print(f'LLM總參數(shù)量：{count_parameters(model) / 1e6:.3f} 百萬(wàn)')
    model = model.to(device)
    return model, tokenizer

if __name__ == '__main__':
    lm_config = MyPretrainConfig()
    max_seq_len = lm_config.max_seq_len
    out_dir = 'out'
    epochs = 20             # 訓(xùn)練輪數(shù)
    batch_size = 8          # batch_size
    learning_rate = 1e-5    # 學(xué)習(xí)率
    device = 'cuda:0'       # or cpu
    dtype = 'bfloat16'

    ckp_path = f'./my_checkpoint'
    if not os.path.exists(ckp_path):
        os.makedirs(ckp_path)

    model, tokenizer = init_model()
    training_config = DPOConfig(
        output_dir=ckp_path,
        per_device_train_batch_size=1,
        remove_unused_columns=False,
        report_to="none",
        save_steps=2000,
        learning_rate=learning_rate,
        save_safetensors=False,
    )

    # 下載訓(xùn)練圖片：https://huggingface.co/datasets/jingyaogong/minimind_dataset/tree/main/dpo
    dataset_path = f'{basepath}/dpo_train_data.json'
    train_dataset = load_dataset('json', data_files=dataset_path)
    dpo_trainer = DPOTrainer(
        model,
        ref_model=None,
        args=training_config,
        beta=0.1,
        train_dataset=train_dataset['train'],
        tokenizer=tokenizer,
        max_length=512,
        max_prompt_length=512
    )
    dpo_trainer.train()
    dpo_trainer.save_model(
        output_dir=f"./out/dpo_sft_{lm_config.dim}.pth.{batch_size}"
    )

init_model 函數(shù)主要是注冊(cè)和加載預(yù)訓(xùn)練的模型，并將tokeinzer 的一些配置文件都拷貝到./my_checkpoint 方便后續(xù)的訓(xùn)練；
DPOConfig 主要是配置訓(xùn)練的一些參數(shù)，比如保存的模型路徑、學(xué)習(xí)率等；
DPOTrainer? 是DPO 訓(xùn)練器，將模型載入后調(diào)用train 進(jìn)行訓(xùn)練，參數(shù)說(shuō)明如下：

model: transformers.PreTrainedModel，預(yù)訓(xùn)練模型

ref_model: transformers.PreTrainedModel，參考模型

args: DPOConfig，用于訓(xùn)練的 DPO 配置參數(shù)

train_dataset: datasets.Dataset，訓(xùn)練數(shù)據(jù)集

tokenizer: transformers.PreTrainedTokenizerBase，分詞器

model_init: 用于訓(xùn)練的模型初始化器，如果指定為 None，則將使用默認(rèn)的模型初始化器

optimizer: torch.optim.Optimizer，優(yōu)化器

callbacks: 用于訓(xùn)練的回調(diào)函數(shù)

dpo_trainer.save_model? 保存模型，傳入output_dir 參數(shù)，指定保存的模型路徑

4、總結(jié)

至此，訓(xùn)練系列按照步驟寫完了，現(xiàn)在總結(jié)訓(xùn)練流程：

模型訓(xùn)練流程

不過(guò)驗(yàn)證下來(lái)，訓(xùn)練效果不是很好，這個(gè)也是從0開(kāi)始訓(xùn)練會(huì)遇到的問(wèn)題，因此接下來(lái)會(huì)完成幾個(gè)事項(xiàng)：

模型迭代優(yōu)化，解決訓(xùn)練效果不好的問(wèn)題；
模型嘗試新的模型和解決方案，解決訓(xùn)練速度問(wèn)題；
加入多模態(tài)訓(xùn)練集，將語(yǔ)言大模型改進(jìn)為多模態(tài)模型；
最后將整個(gè)模型訓(xùn)練完成后，將代碼開(kāi)源；

標(biāo)簽

機(jī)器學(xué)習(xí)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

機(jī)器學(xué)習(xí)之特征工程深度解析

51CTO內(nèi)容精選 ? 2515瀏覽 ? 0回復(fù)
大模型學(xué)習(xí)方法之——大模型技術(shù)學(xué)習(xí)路線

AI探索時(shí)代 ? 3879瀏覽 ? 0回復(fù)
大模型技術(shù)學(xué)習(xí)之——大模型常用架構(gòu)以及技術(shù)難點(diǎn)

AI探索時(shí)代 ? 3453瀏覽 ? 0回復(fù)
大模型訓(xùn)練核心算法之——反向傳播算法

AI探索時(shí)代 ? 3158瀏覽 ? 0回復(fù)
大模型學(xué)習(xí)范式之——語(yǔ)境學(xué)習(xí)(In-context learning)

AI探索時(shí)代 ? 3110瀏覽 ? 0回復(fù)
不要沉迷大模型的技術(shù)與理論，學(xué)習(xí)大模型的方法——從做一個(gè)小應(yīng)用開(kāi)始

AI探索時(shí)代 ? 2432瀏覽 ? 0回復(fù)
解讀AI大模型，從了解token開(kāi)始

ermulong ? 2845瀏覽 ? 0回復(fù)
不要上來(lái)就大模型，從訓(xùn)練一個(gè)小模型開(kāi)始

AI探索時(shí)代 ? 2341瀏覽 ? 0回復(fù)
解讀AI大模型，從了解token開(kāi)始

ermulong ? 1885瀏覽 ? 0回復(fù)
拋開(kāi)技術(shù)，從問(wèn)題來(lái)串聯(lián)人工智能，機(jī)器學(xué)習(xí)和大模型技術(shù)

AI探索時(shí)代 ? 1533瀏覽 ? 0回復(fù)
AI大模型實(shí)踐之字節(jié)0-1智能客服

數(shù)字化助推器 ? 1830瀏覽 ? 0回復(fù)
如何從0開(kāi)始構(gòu)建一個(gè)通用AI Agent 智能體架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)？

玄姐聊AGI ? 3064瀏覽 ? 0回復(fù)
Reyes：一個(gè)從0到1開(kāi)始訓(xùn)練的多模態(tài)大模型（技術(shù)報(bào)告）

大模型自然語(yǔ)言處理 ? 1857瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開(kāi)始大模型之位置編碼

周末程序猿 ? 1549瀏覽 ? 0回復(fù)
DeepSeek 爆了，普通人如何3小時(shí)完全從0訓(xùn)練自己的大模型

玄姐聊AGI ? 6088瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí) | 從0開(kāi)發(fā)大模型之DeepSeek的GRPO

周末程序猿 ? 1882瀏覽 ? 0回復(fù)
從0開(kāi)始：用 Streamlit + LangChain 搭建個(gè)簡(jiǎn)易ChatGPT

AI取經(jīng)路 ? 2893瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí) | 從0開(kāi)發(fā)大模型-譯llama3-from-scratch

周末程序猿 ? 1704瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)|從0開(kāi)發(fā)大模型之復(fù)現(xiàn)DeepSeek的aha moment

周末程序猿 ? 1631瀏覽 ? 0回復(fù)

周末程序猿

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

機(jī)器學(xué)習(xí)｜MCP（Model Context Protocol）實(shí)戰(zhàn) 2025-04-16 06:17:45發(fā)布
RAG實(shí)戰(zhàn) | 向量數(shù)據(jù)庫(kù)LanceDB指南 2025-04-03 00:15:42發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：機(jī)器學(xué)習(xí)|從0開(kāi)始大模型之位置編碼

下一篇：機(jī)器學(xué)習(xí) | 從0開(kāi)發(fā)大模型之DeepSeek的GRPO

社區(qū)精華內(nèi)容

目錄

<blockquote id="jeex1"><p id="jeex1"></p></blockquote>