自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)

發(fā)布于 2024-7-1 10:40
瀏覽
0收藏

寫在前面

大家好,我是劉聰NLP。

大模型時(shí)代,數(shù)據(jù)至上,如何利用大模型合成更多高質(zhì)量數(shù)據(jù)也備受關(guān)注。

今天給大家分享一個(gè)有意思的大模型合成數(shù)據(jù)方法-MAGPIE,在不需要種子數(shù)據(jù)和額外人工干預(yù)的情況下,挖掘出對(duì)齊過的模型自身的指令數(shù)據(jù)。

《MAGPIE: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing》

paper: https://arxiv.org/abs/2406.08464
github: https://github.com/magpie-align/magpie

核心思想:對(duì)齊過的大模型本身是經(jīng)過大量指令數(shù)據(jù)對(duì)齊得來,往往這些對(duì)齊后的模型接受的輸入通常由“前置查詢模板”、“查詢內(nèi)容”、“后置查詢模板”組成(例如:Llama2-Chat模型接受的輸入是"[INST] Hi! [/INST]",[INST] 是前置查詢模板”,[/INST]則是后置查詢模板)當(dāng)對(duì)模型僅輸入前置模板時(shí),模型會(huì)自回歸的合成“查詢內(nèi)容”;并且當(dāng)組合完全時(shí),開源獲得模型的回復(fù)結(jié)果。

這樣就變相地挖掘出對(duì)齊模型的指令數(shù)據(jù),你以為只開了模型,我直接挖向

方法介紹

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

如上圖所示,合成數(shù)據(jù)主要涉及兩個(gè)步驟:

  • 指令合成:僅給大模型輸入前置查詢模板“<|start_header_id|>user<|end_header_id|>”,大模型會(huì)自動(dòng)續(xù)寫出指令內(nèi)容“What materials should I use to build a nest?”
  • 回復(fù)合成:將生成的指令內(nèi)容與前置查詢模板、后置查詢模板拼接“<|start_header_id|>user<|end_header_id|>What materials should I use to build a nest?<|start_header_id|>assistant<|end_header_id|>”輸入到大模型中,大模型給出回復(fù)結(jié)果“Other birds collect twigs for their nests. Magpies acquire jewels for theirs.”

注意:在指令合成過程中,Temperature和Top-p都需要開得比較大,保證指令的多樣性;在回復(fù)合成過程中,采用貪婪解碼,默認(rèn)概率最高的Token可能來自模型的訓(xùn)練語料。

當(dāng)然直接生成的指令是涉及的場(chǎng)景是廣泛、隨機(jī)的,如果需要針對(duì)限定任務(wù)進(jìn)行數(shù)據(jù)生成,可以通過增加系統(tǒng)提示詞來限定場(chǎng)景,比如:增加對(duì)數(shù)學(xué)任務(wù)進(jìn)行指令數(shù)據(jù)生成,

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

如果想獲取多輪對(duì)話數(shù)據(jù),只需要在單輪的指令數(shù)據(jù)后面繼續(xù)進(jìn)行指令和回復(fù)的生成即可。但當(dāng)開源模型本身參數(shù)較小時(shí),生成的多輪數(shù)據(jù)可能出現(xiàn)忘記上下文內(nèi)容的情況,可以通過增加系統(tǒng)提示的方式,讓模型強(qiáng)制記住上文信息。

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)


還可以構(gòu)造偏好數(shù)據(jù),額外利用模型基座生成回復(fù),再通過獎(jiǎng)勵(lì)模型FsfairX-LLaMA3-RM-v0.1進(jìn)行打分,保留合成回復(fù)分?jǐn)?shù)大于基座回復(fù)分?jǐn)?shù)的數(shù)據(jù)。

數(shù)據(jù)分析

衡量合成數(shù)據(jù)好壞,最簡(jiǎn)單直接辦法就是SFT一把模型,比較訓(xùn)練后模型的效果。

MAGPIE方法利用Llama3-8B-Instruct模型和Llama3-70B-Instruct模型分別構(gòu)造了MAGPIE-Air數(shù)據(jù)和MAGPIE-Pro數(shù)據(jù),詳細(xì)分布如下表所示,

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

與ShareGPT、WildChat、Evol Instruct、UltraChat、OpenHermes和Tulu V2 Mix數(shù)據(jù)分別對(duì)Llama3-8B模型進(jìn)行微調(diào),效果如下表所示,

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

采用MAGPIE-Air和MAGPIE-Pro訓(xùn)練的模型,要比其他數(shù)據(jù)集訓(xùn)練的模型效果要好,甚至在AlpacaEval 2榜單上超過了原始的Llama3-Instruct模型。

Pro數(shù)據(jù)訓(xùn)練的模型優(yōu)于Air數(shù)據(jù)訓(xùn)練的模型,主要是Llama3-70B-Instruct模型能力更強(qiáng),獲得的指令數(shù)據(jù)質(zhì)量更高。

經(jīng)過過濾的數(shù)據(jù)集訓(xùn)練的模型效果比原始數(shù)據(jù)集更優(yōu),其中過濾指標(biāo)包括:

  • 指令長(zhǎng)度:指令中的字符總數(shù)。
  • 回復(fù)長(zhǎng)度:響應(yīng)中的字符總數(shù)。
  • 任務(wù)類別:指令的類別,分布如下圖所示,

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

  • 指令質(zhì)量:根據(jù)指令的清晰度、特定性和連貫性,分為“非常差”、“差”、“一般”、“好”和“優(yōu)秀”5個(gè)等級(jí)。
  • 指令難度:根據(jù)指令中描述的任務(wù)所需的知識(shí)水平,分為“非常容易”、“容易”、“中等”、“困難”和“非常困難”5個(gè)等級(jí)。
  • 指令相似度:采用all-mpnet-base-v2模型對(duì)指令進(jìn)行向量化表征,計(jì)算指令之間的相似程度,篩選出重復(fù)或相似的樣本。
  • 獎(jiǎng)勵(lì)值:采用FsfairX-LLaMA3-RM-v0.1模型對(duì)回復(fù)內(nèi)容進(jìn)行評(píng)分,通過過濾低質(zhì)量的樣本。
  • 獎(jiǎng)勵(lì)差:利用獎(jiǎng)勵(lì)模型對(duì)基模生成的回復(fù)評(píng)分,通過獲得更高質(zhì)量的樣本。

上面每個(gè)過濾數(shù)據(jù)的詳細(xì)過濾規(guī)則如下表所示,

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

利用MAGPIE-Pro-300K-Filtered數(shù)據(jù)集,訓(xùn)練Qwen1.5-4B和Qwen1.5-7B模型的效果要好于Qwen1.5-4B-Chat和Qwen1.5-7B-Chat模型,說明MAGPIE方法獲取的指令數(shù)據(jù)對(duì)其他非同源模型,依然有效。

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

多輪數(shù)據(jù)的質(zhì)量要高于單論數(shù)據(jù)集。

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

其他榜單(MMLU 、ARC、HellaSwag、TruthfulQA、Winogard、GSM8K、MMLU-Redux)上的效果如下,

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

對(duì)MAGPIE數(shù)據(jù)進(jìn)行安全性分析,利用Llama-Guard-2模型進(jìn)行預(yù)測(cè),有害指令少于1%。

數(shù)據(jù)合成方法-讓模型自己說出用了哪些指令對(duì)齊數(shù)據(jù)-AI.x社區(qū)

寫在最后

MAGPIE方法不用種子數(shù)據(jù),不用昂貴的GPT4 API接口,僅靠挖掘開源模型本身,就可以獲取高質(zhì)量合成數(shù)據(jù),是個(gè)有趣的研究。

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦