大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力? 原創(chuàng)
?本篇分享SFT和RL在大模型訓(xùn)練中起到的作用。
監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL)都是目前大模型的基礎(chǔ)模型后訓(xùn)練技術(shù),像DeepSeek-R1、kimi等的訓(xùn)練方法都將兩種技術(shù)應(yīng)用到了極致。
如何去設(shè)計(jì)訓(xùn)練步驟(先SFT再RL,還是直接RL)都需要對SFT和RL的能力有較深刻的了解。
本篇就以面經(jīng)的形式,探討SFT、RL兩種不同的后訓(xùn)練范式在基于文本規(guī)則和視覺變體的情況下對模型記憶與泛化能力的作用。
下面是一個(gè)快捷目錄。
一、SFT和RL分別對基座大模型的作用和影響是什么?
二、當(dāng)模型包含視覺組件時(shí),RL/SFT 如何影響其對不同視覺變體的泛化能力?
三、RL/SFT 如何影響視覺語言模型(VLM)中的視覺識(shí)別能力?
四、SFT 在 RL 訓(xùn)練中扮演什么角色?
五、驗(yàn)證迭代次數(shù)如何影響泛化能力
一、SFT和RL分別對基座大模型的作用和影響是什么?
1. SFT
1)作用
通過在特定任務(wù),通常為指令格式的數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練模型,使其適應(yīng)下游任務(wù)。
2)影響
- SFT 傾向于記憶訓(xùn)練數(shù)據(jù),在基于規(guī)則的文本和視覺環(huán)境中都難以泛化到分布外的數(shù)據(jù)。
- SFT 對于有效的 RL 訓(xùn)練仍然非常重要:SFT 可以穩(wěn)定模型的輸出格式,使得后續(xù)的 RL 能夠?qū)崿F(xiàn)性能的提升。
2. RL
1)作用
用于使模型與人類偏好對齊,或訓(xùn)練基礎(chǔ)模型來解決特定任務(wù)。
2)影響
- RL在基于規(guī)則的文本和視覺環(huán)境中均能展現(xiàn)出泛化能力。
- RL在復(fù)雜的、多模態(tài)任務(wù)中泛化能力強(qiáng),且可以提升模型潛在的視覺識(shí)別能力,有助于增強(qiáng)視覺領(lǐng)域泛化能力。
總結(jié)就是RL 泛化,SFT 記憶。
二、當(dāng)模型包含視覺組件時(shí),RL/SFT 如何影響其對不同視覺變體的泛化能力?
這塊其實(shí)主要看多模態(tài)大模型中,視覺變化對分布外(OOD)泛化的影響。
從上圖看,強(qiáng)化學(xué)習(xí)(RL)在規(guī)則變化中展現(xiàn)出泛化能力,而監(jiān)督微調(diào)(SFT)則呈現(xiàn)相反的趨勢。
3. RL/SFT 如何影響視覺語言模型(VLM)中的視覺識(shí)別能力?
RL提高了視覺識(shí)別準(zhǔn)確率,這也是RL提高了泛化能力的表現(xiàn)。
而SFT降低了視覺識(shí)別準(zhǔn)確率和整體性能。
4. SFT 在 RL 訓(xùn)練中扮演什么角色?
實(shí)驗(yàn)流程是最好在 SFT 之后實(shí)例化 RL,特別是當(dāng)基座模型都還沒有學(xué)會(huì)模板指令的時(shí)候。
上圖是一個(gè)示例,如果沒有 SFT,基礎(chǔ)模型會(huì)表現(xiàn)出較差的指令遵循能力,傾向于生成冗長、離題且非結(jié)構(gòu)化的響應(yīng)。
這個(gè)問題使得檢索任務(wù)相關(guān)的信息和用于 RL 訓(xùn)練的獎(jiǎng)勵(lì)變得不可能。
當(dāng)主干模型不遵循指令時(shí),SFT(監(jiān)督微調(diào))對于 RL(強(qiáng)化學(xué)習(xí))訓(xùn)練是必要的。
5. 驗(yàn)證迭代次數(shù)如何影響泛化能力
驗(yàn)證是多步驟訓(xùn)練和評(píng)估流程中的一個(gè)關(guān)鍵組成部分,上圖表明隨著驗(yàn)證步驟的增加,強(qiáng)化學(xué)習(xí)的泛化能力表現(xiàn)更佳。
上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。
目前看起來這篇論文的研究結(jié)果跟DeepSeek以及o系列推理模型的訓(xùn)練報(bào)告都非常契合,特別是DeepSeek-R1的“SFT->RL->增強(qiáng)SFT->增強(qiáng)RL”這種左腳踩右腳直接起飛的操作。
看來循環(huán)利用SFT和RL,并結(jié)合一些reward模型設(shè)計(jì)、數(shù)據(jù)采用策略可以提升大模型水平,正式開始模型訓(xùn)練前需要儲(chǔ)備的各種經(jīng)驗(yàn)和trick也越來越多了,這塊后續(xù)有機(jī)會(huì)分享一下~
?
文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷
