探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用
今天給大家?guī)?lái)一篇探討大模型預(yù)訓(xùn)練與微調(diào)之間關(guān)系的文章,主要通過微調(diào)預(yù)訓(xùn)練階段各個(gè)checkpoint,來(lái)發(fā)現(xiàn)預(yù)訓(xùn)練本身或?qū)ο掠挝⒄{(diào)有哪些影響。
- 大模型在預(yù)訓(xùn)練過程中的性能如何變化?
- 更多步數(shù)的預(yù)訓(xùn)練對(duì)下游微調(diào)有何影響?
- 大模型微調(diào)學(xué)到了什么,又忘記了什么?
Paper: https://arxiv.org/abs/2408.06663
由于目前開源模型中,開放全量checkpoints的模型較少,并且實(shí)驗(yàn)成本較大,以下分析結(jié)果主要基于OLMo-1B模型(同時(shí)訓(xùn)練細(xì)節(jié)、預(yù)訓(xùn)練數(shù)據(jù)、微調(diào)數(shù)據(jù)都公開了)進(jìn)行實(shí)驗(yàn),微調(diào)數(shù)據(jù)詳細(xì)如下表所示,
大模型在預(yù)訓(xùn)練過程中的性能如何變化?
針對(duì)大模型在預(yù)訓(xùn)練過程中的checkpoints,進(jìn)行下游任務(wù)zero-shot或few-shot測(cè)試,如上圖可以發(fā)現(xiàn),大模型隨著訓(xùn)練步數(shù)的增加,并不是所有任務(wù)數(shù)據(jù)的效果會(huì)隨之提高,部分任務(wù)數(shù)據(jù)在整個(gè)預(yù)訓(xùn)練過程中,基本沒有變化。效果提高的任務(wù)數(shù)據(jù),也主要在訓(xùn)練前期提高較多,后期趨于平穩(wěn)。
模型在預(yù)訓(xùn)練過程中,更多在學(xué)習(xí)知識(shí),即使學(xué)習(xí)更多,可能也不會(huì)使用。
更多步數(shù)的預(yù)訓(xùn)練對(duì)下游微調(diào)有何影響?
如上圖所示,可以發(fā)現(xiàn),在預(yù)訓(xùn)練時(shí)表現(xiàn)較好的任務(wù)數(shù)據(jù),在微調(diào)過程中并不會(huì)得到改善,即在預(yù)訓(xùn)練過程中已經(jīng)獲取了知識(shí)信息,微調(diào)則沒有幫助。
但在預(yù)訓(xùn)練階段表現(xiàn)不好的任務(wù)數(shù)據(jù),微調(diào)模型的每個(gè)checkpoint都會(huì)有明顯的改善,一般微調(diào)收益先增加再減少。
那么,如果模型在某一任務(wù)上一定需要下游微調(diào)時(shí),可能早停的checkpoint效果更優(yōu)。
大模型微調(diào)學(xué)到了什么,又忘記了什么?
從任務(wù)格式、任務(wù)遷移和領(lǐng)域知識(shí)三個(gè)維度來(lái)分析微調(diào)學(xué)到了哪些內(nèi)容。
- 任務(wù)格式:利用三種任務(wù)格式(默認(rèn)格式、IO格式、Intruct格式)驗(yàn)證大模型在不同checkpoint上的性能。發(fā)現(xiàn):在預(yù)訓(xùn)練早期,微調(diào)格式與預(yù)訓(xùn)練格式一致可以獲取更好的效果,隨著預(yù)訓(xùn)練步數(shù)增加,大模型對(duì)格式的敏感性會(huì)隨之下降,可以變的更加靈活。微調(diào)階段可以教會(huì)大模型去適應(yīng)任務(wù)格式。
- 任務(wù)遷移:很多研究已經(jīng)發(fā)現(xiàn)模型微調(diào)會(huì)導(dǎo)致某些任務(wù)的改進(jìn),但另一些任務(wù)的退化。通過實(shí)驗(yàn)發(fā)現(xiàn),在生成任務(wù)上微調(diào),在其他生成任務(wù)和分類任務(wù)上驗(yàn)證基本無(wú)下降;在分類任務(wù)上微調(diào),在其他分類任務(wù)上無(wú)下降,但在分類任務(wù)上有明顯下降。
- 領(lǐng)域知識(shí):模型在學(xué)習(xí)其他能力之后,是否一定會(huì)遺忘微調(diào)之前擁有的領(lǐng)域知識(shí)。如下圖所示,對(duì)于不同任務(wù)的結(jié)論不一致,所有NLI數(shù)據(jù)在MNLI上微調(diào)后,都會(huì)得到提高;但在Paws微調(diào)后,其他釋義檢測(cè)數(shù)據(jù)集均有下降。意味著遺忘和學(xué)習(xí)都發(fā)生。
本文轉(zhuǎn)載自NLP工作站,作者:劉聰NLP
