20K合成數(shù)據(jù)就能讓大模型能力飆升!還能實(shí)現(xiàn)模型自我迭代,上海AI Lab數(shù)據(jù)合成新范式
僅使用20K合成數(shù)據(jù),就能讓Qwen模型能力飆升——
模型主觀對(duì)話能力顯著提升,還能實(shí)現(xiàn)模型自我迭代。
合成數(shù)據(jù)大法好!
最近,來(lái)自上海AI Lab的研究團(tuán)隊(duì)針對(duì)合成數(shù)據(jù)技術(shù)展開(kāi)研究,提出了SFT數(shù)據(jù)合成引擎Condor,通過(guò)世界知識(shí)樹(shù)(World Knowledge Tree)和自我反思(Self-Reflection)機(jī)制,探索合成海量高質(zhì)量SFT數(shù)據(jù)的方案。
結(jié)果,他們還意外發(fā)現(xiàn),在增大合成數(shù)據(jù)量的情況下,模型性能持續(xù)提升。
從5K數(shù)據(jù)量開(kāi)始,模型主觀對(duì)話性能隨著數(shù)據(jù)量增加而提升,但數(shù)據(jù)量達(dá)到20K后,性能增長(zhǎng)變緩——
LLM數(shù)據(jù)合成新范式:基于世界知識(shí)樹(shù)打造高質(zhì)量對(duì)話數(shù)據(jù)
隨著大模型能力的快速發(fā)展,模型訓(xùn)練對(duì)高質(zhì)量SFT數(shù)據(jù)的需求日益迫切。數(shù)據(jù)合成技術(shù)作為一種新穎高效的數(shù)據(jù)生成策略,逐漸成為研究熱點(diǎn),并在模型迭代過(guò)程中扮演著關(guān)鍵角色。
上海AI Lab研究團(tuán)隊(duì)的Condor數(shù)據(jù)合成主要包含兩個(gè)階段:Condor Void和Condor Refine。
整個(gè)過(guò)程中,研究團(tuán)隊(duì)僅使用一個(gè)LLM作為運(yùn)行模型,同時(shí)承擔(dān)問(wèn)題合成、回復(fù)合成、回復(fù)評(píng)價(jià)和回復(fù)改進(jìn)的多重角色。
使用世界知識(shí)樹(shù)進(jìn)行多樣化指令合成。
具體來(lái)說(shuō),Condor首先利用模型生成一系列世界知識(shí)樹(shù),給定模型一些關(guān)鍵詞,讓其自身遞歸生成更多的子關(guān)鍵詞,從而形成完整的知識(shí)樹(shù)。每個(gè)節(jié)點(diǎn)作為一個(gè)Tag,用于后續(xù)數(shù)據(jù)生成。
例如,給定“人工智能”這個(gè)關(guān)鍵詞,生成一條由粗到細(xì)的知識(shí)鏈路:
人工智能——深度學(xué)習(xí)——計(jì)算機(jī)視覺(jué)——自動(dòng)駕駛——單目目標(biāo)檢測(cè)
Condor以這條知識(shí)鏈路作為背景知識(shí),要求模型生成相關(guān)問(wèn)題。為進(jìn)一步提升合成指令的多樣性,研究團(tuán)隊(duì)引入了任務(wù)多樣性和問(wèn)題難度多樣性的增廣要求。
針對(duì)不同類(lèi)型的主觀任務(wù)(如日常聊天、角色扮演、創(chuàng)意創(chuàng)作等),研究人員精心設(shè)計(jì)了不同的問(wèn)題模板來(lái)引導(dǎo)模型生成對(duì)應(yīng)任務(wù)下的問(wèn)題。在生成問(wèn)題時(shí),Condor要求模型在一次生成中同時(shí)生成三種不同難度的問(wèn)題。
自我反思提升回復(fù)質(zhì)量
對(duì)于每一條知識(shí)鏈路,基于Condor可以收集到不同任務(wù)類(lèi)型、不同難度的多個(gè)問(wèn)題。研究人員將這些問(wèn)題輸入模型,生成初始回復(fù),得到初版的SFT合成數(shù)據(jù)。
Condor Refine Pipeline引入自我反思策略,使用模型對(duì)初版回復(fù)進(jìn)行評(píng)價(jià)并生成修改意見(jiàn),引導(dǎo)模型進(jìn)一步改進(jìn)回復(fù),從而獲得最終的高質(zhì)量SFT數(shù)據(jù)。
使用合成數(shù)據(jù)提高模型通用對(duì)話能力
研究人員使用開(kāi)源模型Qwen2.5-72B-Instruct進(jìn)行數(shù)據(jù)合成,得到Condor Void和Condor Refine兩個(gè)版本的合成數(shù)據(jù),并基于Qwen2.5-7B進(jìn)行SFT訓(xùn)練,測(cè)試其主觀對(duì)話能力和客觀綜合能力。
從實(shí)驗(yàn)結(jié)果可以看出,使用Condor合成數(shù)據(jù)訓(xùn)練的模型在主觀對(duì)話能力上與Qwen2.5-7B-Instruct具有競(jìng)爭(zhēng)力。
同時(shí),基于Condor合成數(shù)據(jù)訓(xùn)練的模型在主流客觀評(píng)測(cè)基準(zhǔn)上保持了性能。Condor相比其他基線方法具有顯著的性能優(yōu)勢(shì)。
數(shù)據(jù)規(guī)模影響與模型自我迭代
研究團(tuán)隊(duì)進(jìn)一步探索在增大合成數(shù)據(jù)量的情況下,模型性能能否持續(xù)提升。
從5K數(shù)據(jù)量開(kāi)始,逐步增加到200K,觀察不同數(shù)據(jù)量下訓(xùn)練出的模型性能。
結(jié)果顯示,模型主觀對(duì)話性能隨著數(shù)據(jù)量增加而提升,但數(shù)據(jù)量達(dá)到20K后,性能增長(zhǎng)變緩。
利用合成數(shù)據(jù)能否實(shí)現(xiàn)模型的自我迭代呢?
研究團(tuán)隊(duì)利用Qwen2.5-7B-Instruct和Qwen2.5-72B-Instruct模型經(jīng)過(guò)Condor Pipeline生成兩版數(shù)據(jù),并分別訓(xùn)練7B和72B的Base模型,觀察自我迭代效果。
從結(jié)果可以看出,經(jīng)過(guò)Condor合成數(shù)據(jù)訓(xùn)練,模型在7B和72B上均實(shí)現(xiàn)了自我迭代,相比基線性能進(jìn)一步提升。
合成數(shù)據(jù)為什么有效?
Condor的合成數(shù)據(jù)如何對(duì)模型產(chǎn)生增益作用?研究團(tuán)隊(duì)進(jìn)行了一系列分析。研究人員將主觀評(píng)測(cè)集按各個(gè)能力維度拆解,統(tǒng)計(jì)在各個(gè)維度上的增益,發(fā)現(xiàn)在所有維度上都產(chǎn)生了增益,在Creation、QA和Chat上的增益尤為明顯。
進(jìn)一步的,研究人員對(duì)Condor Pipeline合成的問(wèn)題指令進(jìn)行分析。使用T-SNE投影與Magpie方法合成的問(wèn)題進(jìn)行對(duì)比,發(fā)現(xiàn)Condor合成的數(shù)據(jù)和Magpie均能實(shí)現(xiàn)廣泛的知識(shí)覆蓋。
再來(lái)看看模型在對(duì)話回復(fù)中的表現(xiàn),通過(guò)和原始模型進(jìn)行對(duì)比我們可以發(fā)現(xiàn),Condor合成的數(shù)據(jù)訓(xùn)練后的模型即使和官方模型相比,在回復(fù)風(fēng)格(如幽默,創(chuàng)意)的主觀感受上也要更勝一籌,能更加擬人化并考慮到回答細(xì)節(jié)的改善。
合成數(shù)據(jù)是大模型迭代的重要方案,仍有許多值得探索的研究問(wèn)題,如高質(zhì)量推理數(shù)據(jù)和多輪對(duì)話數(shù)據(jù)的有效合成策略、真實(shí)數(shù)據(jù)和合成數(shù)據(jù)的協(xié)作配比機(jī)制、以及如何突破合成數(shù)據(jù)的Scaling Law等。目前,Condor的合成數(shù)據(jù)和訓(xùn)練后的模型均已開(kāi)源,歡迎社區(qū)用戶(hù)體驗(yàn)和探索。
Github: https://github.com/InternLM/Condor
數(shù)據(jù)集:https://hf.co/datasets/internlm/Condor-SFT-20K
論文:https://arxiv.org/abs/2501.12273