自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="geyok"></legend>

<sub id="geyok"></sub><p id="geyok"><li id="geyok"><sup id="geyok"></sup></li></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？原創(chuàng)

發(fā)布于 2025-2-21 16:17

瀏覽

0收藏

?本篇分享SFT和RL在大模型訓(xùn)練中起到的作用。

監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL)都是目前大模型的基礎(chǔ)模型后訓(xùn)練技術(shù)，像DeepSeek-R1、kimi等的訓(xùn)練方法都將兩種技術(shù)應(yīng)用到了極致。

如何去設(shè)計(jì)訓(xùn)練步驟（先SFT再RL，還是直接RL）都需要對SFT和RL的能力有較深刻的了解。

本篇就以面經(jīng)的形式，探討SFT、RL兩種不同的后訓(xùn)練范式在基于文本規(guī)則和視覺變體的情況下對模型記憶與泛化能力的作用。

下面是一個(gè)快捷目錄。

一、SFT和RL分別對基座大模型的作用和影響是什么？

二、當(dāng)模型包含視覺組件時(shí)，RL/SFT 如何影響其對不同視覺變體的泛化能力？

三、RL/SFT 如何影響視覺語言模型（VLM）中的視覺識(shí)別能力？

四、SFT 在 RL 訓(xùn)練中扮演什么角色？

五、驗(yàn)證迭代次數(shù)如何影響泛化能力

一、SFT和RL分別對基座大模型的作用和影響是什么？

1. SFT

1）作用

通過在特定任務(wù)，通常為指令格式的數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練模型，使其適應(yīng)下游任務(wù)。

2）影響

SFT 傾向于記憶訓(xùn)練數(shù)據(jù)，在基于規(guī)則的文本和視覺環(huán)境中都難以泛化到分布外的數(shù)據(jù)。
SFT 對于有效的 RL 訓(xùn)練仍然非常重要：SFT 可以穩(wěn)定模型的輸出格式，使得后續(xù)的 RL 能夠?qū)崿F(xiàn)性能的提升。

2. RL

1）作用

用于使模型與人類偏好對齊，或訓(xùn)練基礎(chǔ)模型來解決特定任務(wù)。

2）影響

RL在基于規(guī)則的文本和視覺環(huán)境中均能展現(xiàn)出泛化能力。
RL在復(fù)雜的、多模態(tài)任務(wù)中泛化能力強(qiáng)，且可以提升模型潛在的視覺識(shí)別能力，有助于增強(qiáng)視覺領(lǐng)域泛化能力。

總結(jié)就是RL 泛化，SFT 記憶。

二、當(dāng)模型包含視覺組件時(shí)，RL/SFT 如何影響其對不同視覺變體的泛化能力？

這塊其實(shí)主要看多模態(tài)大模型中，視覺變化對分布外（OOD）泛化的影響。

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

從上圖看，強(qiáng)化學(xué)習(xí)（RL）在規(guī)則變化中展現(xiàn)出泛化能力，而監(jiān)督微調(diào)（SFT）則呈現(xiàn)相反的趨勢。

3. RL/SFT 如何影響視覺語言模型（VLM）中的視覺識(shí)別能力？

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

RL提高了視覺識(shí)別準(zhǔn)確率，這也是RL提高了泛化能力的表現(xiàn)。

而SFT降低了視覺識(shí)別準(zhǔn)確率和整體性能。

4. SFT 在 RL 訓(xùn)練中扮演什么角色？

實(shí)驗(yàn)流程是最好在 SFT 之后實(shí)例化 RL，特別是當(dāng)基座模型都還沒有學(xué)會(huì)模板指令的時(shí)候。

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

上圖是一個(gè)示例，如果沒有 SFT，基礎(chǔ)模型會(huì)表現(xiàn)出較差的指令遵循能力，傾向于生成冗長、離題且非結(jié)構(gòu)化的響應(yīng)。

這個(gè)問題使得檢索任務(wù)相關(guān)的信息和用于 RL 訓(xùn)練的獎(jiǎng)勵(lì)變得不可能。

當(dāng)主干模型不遵循指令時(shí)，SFT（監(jiān)督微調(diào)）對于 RL（強(qiáng)化學(xué)習(xí)）訓(xùn)練是必要的。

5. 驗(yàn)證迭代次數(shù)如何影響泛化能力

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

驗(yàn)證是多步驟訓(xùn)練和評(píng)估流程中的一個(gè)關(guān)鍵組成部分，上圖表明隨著驗(yàn)證步驟的增加，強(qiáng)化學(xué)習(xí)的泛化能力表現(xiàn)更佳。

上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起來這篇論文的研究結(jié)果跟DeepSeek以及o系列推理模型的訓(xùn)練報(bào)告都非常契合，特別是DeepSeek-R1的“SFT->RL->增強(qiáng)SFT->增強(qiáng)RL”這種左腳踩右腳直接起飛的操作。

看來循環(huán)利用SFT和RL，并結(jié)合一些reward模型設(shè)計(jì)、數(shù)據(jù)采用策略可以提升大模型水平，正式開始模型訓(xùn)練前需要儲(chǔ)備的各種經(jīng)驗(yàn)和trick也越來越多了，這塊后續(xù)有機(jī)會(huì)分享一下~

?

文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/lwdx98rNrAZ48jHPCM8QtQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

CVPR 2024 | 分割一切模型SAM泛化能力差？域適應(yīng)策略給解決了

輕薄滴假象 ? 2985瀏覽 ? 0回復(fù)
港大開源圖基礎(chǔ)大模型OpenGraph: 強(qiáng)泛化能力，前向傳播預(yù)測全新數(shù)據(jù)

Crystalcxt ? 2536瀏覽 ? 0回復(fù)
如何正確使用Stable Diffusion？文本到圖像擴(kuò)散模型中記憶化實(shí)用分析（浙大）

angel ? 3218瀏覽 ? 0回復(fù)
訓(xùn)練大模型自動(dòng)在RAG和記憶間選擇

51CTO內(nèi)容精選 ? 2817瀏覽 ? 0回復(fù)
大模型解決實(shí)際問題的能力，大模型的產(chǎn)品化過程

AI探索時(shí)代 ? 2522瀏覽 ? 0回復(fù)
大模型面經(jīng)——以醫(yī)療領(lǐng)域?yàn)槔鞷AG基礎(chǔ)與實(shí)際應(yīng)用中的痛點(diǎn)

shizhi02 ? 2628瀏覽 ? 0回復(fù)
大模型面經(jīng)——LoRA最全總結(jié)

shizhi02 ? 2446瀏覽 ? 0回復(fù)
大模型面經(jīng)——Langchain總結(jié)

shizhi02 ? 2010瀏覽 ? 0回復(fù)
大模型面經(jīng)——MoE混合專家模型總結(jié)

shizhi02 ? 2442瀏覽 ? 0回復(fù)
大模型面經(jīng)—RAG工程實(shí)踐經(jīng)驗(yàn)總結(jié)

shizhi02 ? 2250瀏覽 ? 0回復(fù)
大模型面經(jīng)—分布式訓(xùn)練指南

shizhi02 ? 1936瀏覽 ? 0回復(fù)
大模型SFT暗藏大陷阱？梯度累計(jì)bug造成大范圍影響

kede96 ? 2235瀏覽 ? 0回復(fù)
大模型面經(jīng)—如何評(píng)估顯卡利用率及顯卡運(yùn)用優(yōu)化方法

shizhi02 ? 2478瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)提出精確學(xué)習(xí)新方法，提升AI泛化能力

AI論文解讀 ? 2370瀏覽 ? 0回復(fù)
大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

shizhi02 ? 2219瀏覽 ? 0回復(fù)
辯論有助于從弱到強(qiáng)的泛化

AIRoobt ? 1662瀏覽 ? 0回復(fù)
Transformer架構(gòu)的情境學(xué)習(xí)泛化能力

頓數(shù)AI ? 1050瀏覽 ? 0回復(fù)
大模型的能力和大模型應(yīng)用

AI探索時(shí)代 ? 985瀏覽 ? 0回復(fù)
大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？

shizhi02 ? 1111瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型面經(jīng)：RAG與Long context“相愛相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布
ZeroHSI-一種零樣本的四維人類-場景交互合成方法 2025-03-24 13:12:04發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： OmniTokenizer-視覺tokenizer生成

下一篇：大模型面經(jīng)：目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么？

社區(qū)精華內(nèi)容

目錄

<p id="q8uhc"><li id="q8uhc"></li></p>

<u id="q8uhc"></u>