自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="2sohi"><p id="2sohi"></p></blockquote>

<style id="2sohi"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS

發(fā)布于 2024-7-16 09:11

瀏覽

0收藏

寫在前面

大家好，我是劉聰NLP。

大模型時代，指令微調(diào)已經(jīng)成了算法工程師們必不可少的技能。而在指令微調(diào)過程中，我們往往會從數(shù)據(jù)數(shù)量和數(shù)據(jù)質(zhì)量兩個維度來對模型進(jìn)行調(diào)優(yōu)。

今天給大家?guī)硪粋€新的方法-MoDS，一種面向模型的指令數(shù)據(jù)選擇方法-《MoDS: Model-oriented Data Selection for Instruction Tuning》，核心是從數(shù)據(jù)質(zhì)量、覆蓋范圍、必要性三個角度來對原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)過濾，最終獲取對于不同模型的高質(zhì)量數(shù)據(jù)集。并且相較于自動識別方法，在使用更少數(shù)據(jù)的情況下，就可以獲取更好的效果。

paper: https://arxiv.org/pdf/2311.15653.pdf
github: https://github.com/CASIA-LM/MoDS

MoDS方法

MoDS方法主要通過質(zhì)量、覆蓋范圍、必要性三個指標(biāo)來進(jìn)行數(shù)據(jù)的篩選，其中數(shù)據(jù)質(zhì)量是為了保證所選的指令數(shù)據(jù)的問題和答案都足夠好；數(shù)據(jù)覆蓋范圍是為了讓所選擇的數(shù)據(jù)中指令足夠多樣、涉及知識范圍更廣；數(shù)據(jù)必要性是選擇對于大模型較復(fù)雜、較難或不擅長的數(shù)據(jù)以填補(bǔ)大模型能力的空白。整體流程如下圖所示，

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

質(zhì)量篩選

對于數(shù)據(jù)進(jìn)行質(zhì)量過濾時，采用OpenAssistant的reward-model-debertav3-large-v2模型（一個基于DeBERTa架構(gòu)設(shè)計的獎勵模型）對數(shù)據(jù)進(jìn)行質(zhì)量打分。講原始數(shù)據(jù)的Instruction、Input、Output的三個部分進(jìn)行拼接，送入到獎勵模型中，得到一個評分，當(dāng)評分超過α?xí)r，則認(rèn)為數(shù)據(jù)質(zhì)量達(dá)標(biāo)，構(gòu)建一份高質(zhì)量數(shù)據(jù)集-Data1。

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

多樣性篩選

為了避免所選質(zhì)量數(shù)據(jù)高度相似，通過K-Center-Greedy算法進(jìn)行數(shù)據(jù)篩選，在最大化多樣性的情況下，使指令數(shù)據(jù)集最小。獲取種子指令數(shù)據(jù)集（Seed Instruction Data）-SID。

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

在該步驟中，采用BERT模型為指令數(shù)據(jù)生成句向量來計算不同數(shù)據(jù)之間的距離。

必要性篩選

不同的大型語言模型在預(yù)訓(xùn)練過程中所學(xué)到的知識和具有的能力不同，因此在對不同的大型語言模型進(jìn)行指令微調(diào)時，所需的指令數(shù)據(jù)也需要不同。

對于一條指令，如果給定的大型語言模型本身能夠生成較好的回答，則說明給定的大型語言模型具有處理該指令或者這類指令的能力，反之亦然，并且哪些不能處理的指令對于模型微調(diào)來說更為重要。

使用SID數(shù)據(jù)集對模型進(jìn)行一個初始訓(xùn)練
用訓(xùn)練好的初始模型對整個高質(zhì)數(shù)據(jù)集-Data1中的指令進(jìn)行結(jié)果預(yù)測
利用獎勵模型對結(jié)果進(jìn)行評分，當(dāng)分值小于β時，說明初始模型不能對這些指令生成優(yōu)質(zhì)的回復(fù)，不具有處理這些類型指令的能力，獲取必要性數(shù)據(jù)集-Data2
對Data2進(jìn)行多樣性篩選，獲取增強(qiáng)指令數(shù)據(jù)集（Augmented Instruction Data）-AID。

模型訓(xùn)練

最終利用種子指令數(shù)據(jù)集和增強(qiáng)指令數(shù)據(jù)集一起對模型進(jìn)行指令微調(diào)，獲得最終模型。

實(shí)驗(yàn)結(jié)果

訓(xùn)練數(shù)據(jù)

訓(xùn)練數(shù)據(jù)有兩種，一種是單獨(dú)的Alpaca數(shù)據(jù)集（52k），一種時混合數(shù)據(jù)集（214k），包含HC3數(shù)據(jù)集、Alpaca數(shù)據(jù)集、Alpaca-evol-instruct數(shù)據(jù)集、Dolly-v2數(shù)據(jù)集、InstructWild數(shù)據(jù)集和LIMA數(shù)據(jù)集。

測試數(shù)據(jù)主要包含5個測試集，分別為Koala數(shù)據(jù)集（180）、WizardLM數(shù)據(jù)集（218）、Self-instruct數(shù)據(jù)集（252）、Vicuna數(shù)據(jù)集（80）和LIMA數(shù)據(jù)集（300）。

訓(xùn)練超參

模型基座采用LLaMA2-7B模型，訓(xùn)練過程中學(xué)習(xí)率為2e-5，warmup的比率為0.03，權(quán)重衰減為0.0，批大小為128，訓(xùn)練輪數(shù)為3。在質(zhì)量評價和必要性評價過程中，Alpaca數(shù)據(jù)集的α和β均設(shè)置為0.0，混合數(shù)據(jù)集的α和β分別設(shè)置為1.0和-1.0。

在模型測試過程中，采用ChatGPT和GPT4作為裁判，對模型生成結(jié)果從相關(guān)性和準(zhǔn)確性兩個角度進(jìn)行打分，每個角度的評分從1到10。在評價兩個模型勝、平、負(fù)時，當(dāng)兩個角度評分都高時為勝；當(dāng)兩個角度評分一高一低時為平；當(dāng)兩個角度評分都低時為負(fù)。

結(jié)果分析

在Alpaca數(shù)據(jù)集中通過MoDS方法獲取1k數(shù)據(jù)的效果要優(yōu)于全量數(shù)據(jù)訓(xùn)練的結(jié)果，如下圖所示。

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

在Alpaca數(shù)據(jù)集中MoDS方法在選擇2k數(shù)據(jù)時，訓(xùn)練效果優(yōu)于基于IFD的自動選擇方法，如下表所示。

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

在混合數(shù)據(jù)及中MoDS方法獲取4k數(shù)據(jù)的效果全面優(yōu)于全量數(shù)據(jù)訓(xùn)練的結(jié)果，如下圖所示。

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

驗(yàn)證指令多樣性選擇的重要性，與隨機(jī)選擇進(jìn)行對比，如下圖所示。

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

驗(yàn)證必要性篩選的重要性，與僅用種子數(shù)據(jù)訓(xùn)練的模型進(jìn)行對比，如下圖所示。

大模型微調(diào)技巧 | 高質(zhì)量指令數(shù)據(jù)篩選方法-MoDS-AI.x社區(qū) 圖片

寫在最后

大模型時代，大多數(shù)算法工程師已經(jīng)變成了數(shù)據(jù)工程師，如何構(gòu)造出讓模型表現(xiàn)更好地數(shù)據(jù)，變成了大家的日常工作，但千萬不要小看這份工作，往往細(xì)節(jié)決定成敗。

本文轉(zhuǎn)載自 ??NLP工作站??，作者：劉聰NLP

標(biāo)簽

已于2024-7-16 09:24:20修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

CVPR 2024滿分論文解讀：基于可變形三維高斯的高質(zhì)量單目動態(tài)重建新方法

kcoufee ? 2632瀏覽 ? 0回復(fù)
Arena-Hard：開源高質(zhì)量大模型評估基準(zhǔn)

Aceryt ? 3983瀏覽 ? 0回復(fù)
ICLR 2024 Spotlight | 無懼中間步驟，MUSTARD可生成高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)

輕薄滴假象 ? 3071瀏覽 ? 0回復(fù)
Meta 聯(lián)合紐約大學(xué)和華盛頓大學(xué)提出MetaCLIP，帶你揭開CLIP的高質(zhì)量數(shù)據(jù)之謎。

輕薄滴假象 ? 2463瀏覽 ? 0回復(fù)
七個高質(zhì)量潤色論文和文章的指令

數(shù)師兄 ? 3256瀏覽 ? 0回復(fù)
Advanced RAG 08：使用 Self-RAG 打造高質(zhì)量、可追溯的 RAG System

Baihai_IDP ? 2819瀏覽 ? 0回復(fù)
百萬高質(zhì)量視頻-字幕數(shù)據(jù)助力社區(qū)提升多模態(tài)大模型視頻理解及生成能力

輕薄滴假象 ? 2411瀏覽 ? 0回復(fù)
百萬級高質(zhì)量視頻數(shù)據(jù)集發(fā)布，登頂抱抱臉數(shù)據(jù)集排行榜，中科大&上海AI Lab等出品

Crystalcxt ? 2520瀏覽 ? 0回復(fù)
數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對齊數(shù)據(jù)

NLP工作站 ? 2636瀏覽 ? 0回復(fù)
超越所有NeRF方法！快速和高質(zhì)量的3D編輯和身份保持新策略：DreamCatalyst

angel ? 2834瀏覽 ? 0回復(fù)
谷歌發(fā)布大模型數(shù)據(jù)篩選方法：效率提升13倍，算力降低10倍

Aceryt ? 2256瀏覽 ? 0回復(fù)
1890美元訓(xùn)出11.6億參數(shù)高質(zhì)量文生圖模型

duhorse ? 2085瀏覽 ? 0回復(fù)
國外驚訝，中國文生視頻模型超高質(zhì)量！

Aceryt ? 2934瀏覽 ? 0回復(fù)
如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？

NLP工作站 ? 2304瀏覽 ? 0回復(fù)
LLaMA-Omni：專為與大型語言模型（LLMs）進(jìn)行低延遲、高質(zhì)量的語音交互而設(shè)計

Halo咯咯 ? 3216瀏覽 ? 0回復(fù)
大模型訓(xùn)練之訓(xùn)練數(shù)據(jù)準(zhǔn)備，即怎么準(zhǔn)備高質(zhì)量的訓(xùn)練數(shù)據(jù)集？

AI探索時代 ? 3002瀏覽 ? 0回復(fù)
關(guān)于打造高質(zhì)量RAG系統(tǒng)的問題記錄

AI探索時代 ? 832瀏覽 ? 0回復(fù)
ControlNet作者：視頻生成論文Frameback，超低顯存生成高質(zhì)量視頻，ComfyUI必備組件！

石映飛云 ? 465瀏覽 ? 0回復(fù)
關(guān)于RAG應(yīng)用中怎么高質(zhì)量的進(jìn)行數(shù)據(jù)召回——召回策略的研究

AI探索時代 ? 164瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實(shí)測 2025-04-09 07:07:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對齊數(shù)據(jù)

下一篇： Llama3.1系列模型正式開源，最大405B，閉源模型的統(tǒng)治時代將迎來結(jié)束？

社區(qū)精華內(nèi)容

目錄