自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="v6df6"></sub>

^{<sub id="v6df6"></sub>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

大模型 SFT 有監(jiān)督微調教程

AI悠閑區(qū)

發(fā)布于 2025-3-10 00:11

瀏覽

0收藏

開源地址：???https://github.com/JieShenAI/csdn/tree/main/25/02/SFT???

大模型 SFT 有監(jiān)督微調教程-AI.x社區(qū)

??train.ipynb???：模型有監(jiān)督微調的代碼??infer.ipynb??: 模型訓練完成后，進行推理的代碼\\

{
     'instruct': '請你給敖丙寫一首詩：', 
     'input': '碧海生龍子，云中舞雪霜。', 
     'label': '恩仇難兩忘，何處是家鄉(xiāng)？'
 }

預訓練與有監(jiān)督微調對比

大模型 SFT 有監(jiān)督微調教程-AI.x社區(qū)

兩者的訓練數(shù)據(jù)，大部分都一模一樣，維度在 label 部分，SFT 需要把指令部分的 label 設置為-100。

import json
from typing import List, Dict, Sequence
import torch
from torch.nn.utils.rnn import pad_sequence
import transformers
from transformers import TrainingArguments, Trainer, AutoModelForCausalLM, AutoTokenizer
from torch.utils.data import Dataset
from dataclasses import dataclass

IGNORE_INDEX = -100
device = "cuda:0"if torch.cuda.is_available() else"cpu"
model_dir = r"Qwen/Qwen2.5-0.5B"

model = AutoModelForCausalLM.from_pretrained(model_dir)
model = model.to("cuda:0")

tokenizer = AutoTokenizer.from_pretrained(model_dir, padding_side="right")

tokenizer.add_special_tokens({
    "pad_token": "[PAD]"
})

# 數(shù)據(jù)加載
with open("data.json.demo", "r") as f:
    data = json.load(f)

自定義數(shù)據(jù)集

class PreTrainDataset(Dataset):

    def __init__(self, data: List):
        super().__init__()
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx) -> List[Dict]:
        item = self.data[idx]
        text = item["instruct"] + item["input"] + item["label"] + tokenizer.eos_token
        text_token = tokenizer(
            text,
            return_tensors="pt",
            padding="longest",
            max_length=tokenizer.model_max_length,
            truncatinotallow=True,
        )
        label = text_token["input_ids"].clone()

        instruct = item["instruct"] + item["input"]
        instruct_token = tokenizer(
            instruct,
            return_tensors="pt",
            padding="longest",
            max_length=tokenizer.model_max_length,
            truncatinotallow=True,
        )
        instruct_len = instruct_token["input_ids"].size(-1)

        label[:, :instruct_len] = -100
        text_token["labels"] = label
        return text_token


dataset = PreTrainDataset(data)
dataset[0]

因為 tokenizer 對文本進行encode的時候，并不是一個詞一個token，會出現(xiàn)多個詞對應一個token的情況。為了確定指令部分的token長度，單獨對指令部分的文本計算一次的encode。然后使用切片 ??label[:, :instruct_len] = -100?? 把指令部分的 label 設置為 -100 不計算 loss。

查看第一個數(shù)據(jù):

# 查看第一個原始數(shù)據(jù)
data[0]

輸出：

{'instruct': '請你給哪吒寫一首詩：',
 'input': '哪吒降世，意氣飛揚。\n逆天改命，破障沖霄。',
 'label': '紅綾纏腕，風火踏浪。\n不屈不悔，笑傲蒼茫。'}

# 查看需要計算loss的文本
test_label = dataset[0][0]["label"]
test_label = test_label[test_label != -100]
tokenizer.decode(test_label)

輸出:

'紅綾纏腕，風火踏浪。\n不屈不悔，笑傲蒼茫。<|endoftext|>'

# 查看label -100位置對應的input_ids的文本
test_input_ids = dataset[0][0]["input_ids"]
test_label = dataset[0][0]["labels"]
test_input_ids = test_input_ids[test_label == -100]
tokenizer.decode(test_input_ids)
# label -100 位置的都是用戶的指令不參與 loss 計算

輸出：

'請你給哪吒寫一首詩：哪吒降世，意氣飛揚。\n逆天改命，破障沖霄。'

DataCollatorForSFTDataset

下面是使用 ??pad_sequence?? 對 tensor 進行填充的一個示例。batch 放在第一個維度，用 0 進行填充，在右邊進行填充。

pad_sequence(
    [torch.randn(2), torch.randn(3), torch.randn(4)],
    batch_first=True,
    padding_value=0,
    padding_side="right",
)

輸出：

tensor([[-0.3421,  0.4131,  0.0000,  0.0000],
        [-0.1345,  1.2843,  1.0892,  0.0000],
        [-0.0567, -0.6993, -0.9386,  1.1316]])

使用 ??pad_sequence?? 在 DataCollatorForSFTDataset中，對 tensor 進行拼接與填充。

@dataclass
class DataCollatorForSFTDataset(object):
    tokenizer: transformers.PreTrainedTokenizer

    def __call__(self, items: Sequence) -> Dict[str, torch.Tensor]:
        # pad_sequence 不支持多維tensor，進行維度壓縮 squeeze
        # input_ids, attention_mask = [
        #     [item.squeeze(0) for item in tokens[k]]
        #     for k in ["input_ids", "attention_mask"]
        # ]

        input_ids = [item["input_ids"].squeeze(0) for item in items]
        attention_mask = [item["attention_mask"].squeeze(0) for item in items]
        label = [item["label"].squeeze(0) for item in items]

        input_ids = pad_sequence(
            input_ids,
            batch_first=True,
            padding_value=tokenizer.pad_token_id,
            padding_side="right",
        )
        attention_mask = pad_sequence(
            attention_mask,
            batch_first=True,
            padding_value=0,
            padding_side="right",
        )
        label = pad_sequence(
            label,
            batch_first=True,
            padding_value=-100,
            padding_side="right",
        )

        return {
            "input_ids": input_ids,
            "attention_mask": attention_mask,
            "labels": label,
        }

注意: 在返回的字典中，要用 ??labels??? 而不是 ??label??。

驗證一下，??DataCollatorForSFTDataset?? 的效果：

DataCollatorForSFTDataset(tokenizer=tokenizer)([dataset[0], dataset[1], dataset[2]])

模型訓練

args = TrainingArguments(
    output_dir=r"C:\Users\1\Desktop\train_model_output\Qwen2.5-0.5B\SFT_output",
    num_train_epochs=10,
    per_device_train_batch_size=2,
    save_safetensors=True,
    logging_strategy="epoch",
)

??processing_class?? 是新參數(shù)名，使用舊參數(shù)名也可以：

trainer = Trainer(
    model=model,
    processing_class=tokenizer,
    args=args,
    train_dataset=dataset,
    eval_dataset=None,
    data_collator=DataCollatorForSFTDataset(tokenizer=tokenizer),
)

train_result = trainer.train()

大模型 SFT 有監(jiān)督微調教程-AI.x社區(qū)

查看模型訓練的結果：

train_result.metrics

保存訓練完成的模型：

trainer.save_state()
trainer.save_model(output_dir=args.output_dir)
tokenizer.save_pretrained(args.output_dir)

模型推理

看一下模型有監(jiān)督微調的效果。對比一下，預訓練與有監(jiān)督微調，模型在進行推理的時候的區(qū)別：

預訓練的模型，對于輸入的文本都可以繼續(xù)續(xù)寫出原文；
有監(jiān)督微調，只能根據(jù)指令寫出對應的答案；無法根據(jù)指令的前半部分，寫出指令的后半部分：

instruct + label 作為指令部分，label 是指令的答案。若SFT微調后的大模型，輸入 instruct + label 能得到 label，說明模型微調有效。當給SFT微調后的大模型輸入instruct，模型應該輸出label中的文本，但不能輸出input的文本，就能說明label設置為-100，沒有計算指令部分loss。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda:0"if torch.cuda.is_available() else"cpu"

train_model = r"C:\Users\1\Desktop\train_model_output\Qwen2.5-0.5B\SFT_output"

model = AutoModelForCausalLM.from_pretrained(train_model)
model = model.to(device)
tokenizer = AutoTokenizer.from_pretrained(train_model, padding_side="right")

tokenizer.add_special_tokens({"pad_token": "[PAD]"})

import json

with open("data.json", "r") as f:
    data =json.load(f)
data

def infer(text):
    input_ids = tokenizer(text, return_tensors="pt").to(model.device)

    generated_ids = model.generate(**input_ids)
    generated_ids = [
        output_ids[len(input_ids) :]
        for input_ids, output_ids in zip(input_ids.input_ids, generated_ids)
    ]

    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    return response

print("=" * 50 + "instruct" + "=" * 50)
for item in data:
    # instruct + input -> label
    instruct, input, label = item["instruct"], item["input"], item["label"]
    print(f"text_input: {instruct + input}")
    print(f"predict: {infer(instruct + input)}")
    print(f"label: {label}")
    print("-" * 101)

部分輸出結果：

text_input: 請你給哪吒寫一首詩：哪吒降世，意氣飛揚。
逆天改命，破障沖霄。
predict: 紅綾纏腕，風火踏浪。
不屈不悔，笑傲蒼茫。
label: 紅綾纏腕，風火踏浪。
不屈不悔，笑傲蒼茫。

模型能夠根據(jù)指令，完成詩歌下半部分的寫作。

print("=" * 50 + "instruct" + "=" * 50)
for item in data:
    # instruct + input -> label
    instruct, input, label = item["instruct"], item["input"], item["label"]
    print(f"text_input: {instruct }")
    print(f"predict: {infer(instruct)}")
    print(f"label: {label}")
    print("-" * 101)

部分輸出：

text_input: 請你給哪吒寫一首詩：
predict: 紅綾纏腕，風火踏浪。不屈不悔，笑傲蒼茫。
label: 紅綾纏腕，風火踏浪。
不屈不悔，笑傲蒼茫。

大模型只能輸出 label中的文本，模型不能輸出 input中的詩歌: ??哪吒降世，意氣飛揚。逆天改命，破障沖霄。??這說明模型沒有學到用戶指令部分的文本，這符合我們的預期。

本文轉載自??AI悠閑區(qū)??，作者：jieshenai

標簽

贊

收藏

回復

舉報

回復

相關推薦

機器學習有哪些類型？ 監(jiān)督學習、無監(jiān)督學習、強化學習、深度學習等等！

parson2000 ? 3560瀏覽 ? 0回復
機器學習有哪些類型？ 監(jiān)督學習、無監(jiān)督學習、強化學習、深度學習等等

parson2000 ? 4012瀏覽 ? 0回復
你知道什么是微調嗎？大模型為什么要微調？以及大模型微調的原理是什么？

AI探索時代 ? 6025瀏覽 ? 0回復
什么監(jiān)督學習，無監(jiān)督學習與深度學習？它們之間有什么區(qū)別和聯(lián)系？

AI探索時代 ? 8844瀏覽 ? 0回復
大模型的訓練與調優(yōu)，SFT(監(jiān)督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 6980瀏覽 ? 0回復
大模型微調終極指南

NLP工作站 ? 3454瀏覽 ? 0回復
大模型的訓練與調優(yōu)，SFT(監(jiān)督微調)和RLHF(基于人類反饋的強化學習)到底是什么？

AI探索時代 ? 7521瀏覽 ? 0回復
大模型微調方法之QLoRA

shizhi02 ? 2229瀏覽 ? 0回復
大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響

kede96 ? 2232瀏覽 ? 0回復
為什么預訓練大模型要使用無監(jiān)督學習的方式？

AI探索時代 ? 2365瀏覽 ? 0回復
機器學習四大范式：監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和自監(jiān)督學習

智駐未來 ? 1.2w瀏覽 ? 0回復
FineMedLM-o1: 基于監(jiān)督微調與測試時訓練的醫(yī)學推理增強型大語言模型

頓數(shù)AI ? 2589瀏覽 ? 0回復
大模型面經：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 1897瀏覽 ? 0回復
我們一起聊聊大模型 SFT 有監(jiān)督微調教程

AI悠閑區(qū) ? 1228瀏覽 ? 0回復
從零開始微調Embedding模型：基于BERT的實戰(zhàn)教程

AI悠閑區(qū) ? 795瀏覽 ? 0回復
突破性創(chuàng)新：Genius框架實現(xiàn)大語言模型無監(jiān)督自我進化

頓數(shù)AI ? 614瀏覽 ? 0回復
用本地文件調教 DeepSeek

機器學習與數(shù)學 ? 826瀏覽 ? 0回復
大模型微調真的有技術含量嗎？

智駐未來 ? 531瀏覽 ? 0回復
一文帶你了解【SFT微調】與【Unsloth】

碼農隨心筆記 ? 274瀏覽 ? 0回復

AI悠閑區(qū)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

提示詞繞過大模型安全限制 5天前發(fā)布
從零開始微調Embedding模型：基于BERT的實戰(zhàn)教程 2025-04-14 01:31:07發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：三種文本相似計算方法：規(guī)則、向量與大模型裁判

下一篇：我們一起聊聊大模型 SFT 有監(jiān)督微調教程

社區(qū)精華內容

目錄

<style id="dmxax"></style>

<legend id="dmxax"><track id="dmxax"></track></legend>

<sub id="dmxax"></sub>

<p id="dmxax"><li id="dmxax"></li></p>