自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力? 原創(chuàng)

發(fā)布于 2025-2-21 16:17
瀏覽
0收藏

?本篇分享SFT和RL在大模型訓(xùn)練中起到的作用。

監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL)都是目前大模型的基礎(chǔ)模型后訓(xùn)練技術(shù),像DeepSeek-R1、kimi等的訓(xùn)練方法都將兩種技術(shù)應(yīng)用到了極致。

如何去設(shè)計(jì)訓(xùn)練步驟(先SFT再RL,還是直接RL)都需要對SFT和RL的能力有較深刻的了解。

本篇就以面經(jīng)的形式,探討SFT、RL兩種不同的后訓(xùn)練范式在基于文本規(guī)則和視覺變體的情況下對模型記憶與泛化能力的作用。

下面是一個(gè)快捷目錄。

一、SFT和RL分別對基座大模型的作用和影響是什么?

二、當(dāng)模型包含視覺組件時(shí),RL/SFT 如何影響其對不同視覺變體的泛化能力?

三、RL/SFT 如何影響視覺語言模型(VLM)中的視覺識(shí)別能力?

四、SFT 在 RL 訓(xùn)練中扮演什么角色?

五、驗(yàn)證迭代次數(shù)如何影響泛化能力

一、SFT和RL分別對基座大模型的作用和影響是什么?

1.  SFT

1)作用

通過在特定任務(wù),通常為指令格式的數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練模型,使其適應(yīng)下游任務(wù)。

2)影響

  • SFT 傾向于記憶訓(xùn)練數(shù)據(jù),在基于規(guī)則的文本和視覺環(huán)境中都難以泛化到分布外的數(shù)據(jù)。
  • SFT 對于有效的 RL 訓(xùn)練仍然非常重要:SFT 可以穩(wěn)定模型的輸出格式,使得后續(xù)的 RL 能夠?qū)崿F(xiàn)性能的提升。

2. RL

1)作用

用于使模型與人類偏好對齊,或訓(xùn)練基礎(chǔ)模型來解決特定任務(wù)。

2)影響

  • RL在基于規(guī)則的文本和視覺環(huán)境中均能展現(xiàn)出泛化能力。
  • RL在復(fù)雜的、多模態(tài)任務(wù)中泛化能力強(qiáng),且可以提升模型潛在的視覺識(shí)別能力,有助于增強(qiáng)視覺領(lǐng)域泛化能力。

總結(jié)就是RL 泛化,SFT 記憶。

二、當(dāng)模型包含視覺組件時(shí),RL/SFT 如何影響其對不同視覺變體的泛化能力?

這塊其實(shí)主要看多模態(tài)大模型中,視覺變化對分布外(OOD)泛化的影響。

大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

從上圖看,強(qiáng)化學(xué)習(xí)(RL)在規(guī)則變化中展現(xiàn)出泛化能力,而監(jiān)督微調(diào)(SFT)則呈現(xiàn)相反的趨勢。

3. RL/SFT 如何影響視覺語言模型(VLM)中的視覺識(shí)別能力?


大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

RL提高了視覺識(shí)別準(zhǔn)確率,這也是RL提高了泛化能力的表現(xiàn)。

而SFT降低了視覺識(shí)別準(zhǔn)確率和整體性能。

4. SFT 在 RL 訓(xùn)練中扮演什么角色?

實(shí)驗(yàn)流程是最好在 SFT 之后實(shí)例化 RL,特別是當(dāng)基座模型都還沒有學(xué)會(huì)模板指令的時(shí)候。

大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

上圖是一個(gè)示例,如果沒有 SFT,基礎(chǔ)模型會(huì)表現(xiàn)出較差的指令遵循能力,傾向于生成冗長、離題且非結(jié)構(gòu)化的響應(yīng)。

這個(gè)問題使得檢索任務(wù)相關(guān)的信息和用于 RL 訓(xùn)練的獎(jiǎng)勵(lì)變得不可能。

當(dāng)主干模型不遵循指令時(shí),SFT(監(jiān)督微調(diào))對于 RL(強(qiáng)化學(xué)習(xí))訓(xùn)練是必要的。

5. 驗(yàn)證迭代次數(shù)如何影響泛化能力


大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

驗(yàn)證是多步驟訓(xùn)練和評(píng)估流程中的一個(gè)關(guān)鍵組成部分,上圖表明隨著驗(yàn)證步驟的增加,強(qiáng)化學(xué)習(xí)的泛化能力表現(xiàn)更佳。

上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起來這篇論文的研究結(jié)果跟DeepSeek以及o系列推理模型的訓(xùn)練報(bào)告都非常契合,特別是DeepSeek-R1的“SFT->RL->增強(qiáng)SFT->增強(qiáng)RL”這種左腳踩右腳直接起飛的操作。

看來循環(huán)利用SFT和RL,并結(jié)合一些reward模型設(shè)計(jì)、數(shù)據(jù)采用策略可以提升大模型水平,正式開始模型訓(xùn)練前需要儲(chǔ)備的各種經(jīng)驗(yàn)和trick也越來越多了,這塊后續(xù)有機(jī)會(huì)分享一下~

?

文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/lwdx98rNrAZ48jHPCM8QtQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦