大模型面經(jīng):目前不同階段的scaling law之間的區(qū)別和聯(lián)系是什么? 原創(chuàng)
本篇主要總結(jié)目前三種scaling law:Pre-train、RL、Test Time相關(guān)的內(nèi)容。
現(xiàn)在關(guān)于scaling law是否“撞墻”的討論越來越多,Chinchilla Scaling Law推斷,"即使沒有新數(shù)據(jù),也并不意味著模型效果提不上去了,很簡單,只要增加基座模型尺寸,效果仍然會提高,只是從付出的算力和獲得的效果提升來說很不合算,性價比過低"。
這也是為什么大家由Pre-train Scaling Law轉(zhuǎn)到RL Scaling Law和Test Time Scaling Law的原因。
本篇就來以面經(jīng)的形式整理三種scaling law相關(guān)的內(nèi)容,快捷目錄如下。
一、請簡要解釋預(yù)訓(xùn)練(Pre-train)、強化學(xué)習(xí)(RL)和測試時(Test Time)三種 Scaling Law 的核心觀點,在對應(yīng)的階段起到的作用。
二、預(yù)訓(xùn)練和測試時的 Scaling Law 都與計算資源相關(guān),它們在資源分配的策略上有何本質(zhì)區(qū)別?
三、RL Scaling Law 中提到的“過優(yōu)化”現(xiàn)象是什么?如何緩解這一問題?
四、在資源有限的情況下,在訓(xùn)練模型的時候如何結(jié)合三種 Scaling Law 制定模型優(yōu)化優(yōu)先級?
五、Test Time Scaling Law 可能帶來哪些工程挑戰(zhàn)?怎么處理
一、請簡要解釋Pre-train、RL和Test Time三種 Scaling Law 的核心觀點,在對應(yīng)的階段起到的作用
1. Pre-train Scaling Law
核心觀點是模型性能(如損失函數(shù)值)隨計算量(FLOPs)、數(shù)據(jù)量和模型參數(shù)量的增加呈冪律(Power Law)提升,但邊際收益會逐漸遞減。
OpenAI 的 Scaling Law 指出,當(dāng)計算預(yù)算增加時,應(yīng)平衡模型參數(shù)量和數(shù)據(jù)量的增長(如按比例擴展)。
主要目的是在預(yù)訓(xùn)練階段,高效分配算力以最大化模型能力。
2. RL Scaling Law核心觀點是在 RL 階段(如 RLHF),模型性能隨訓(xùn)練步數(shù)、獎勵模型的準(zhǔn)確性、策略優(yōu)化算法的穩(wěn)定性等維度擴展。
但實際上RL 階段這里存在“過優(yōu)化”現(xiàn)象:模型性能會隨訓(xùn)練步數(shù)先提升后下降,需謹(jǐn)慎控制訓(xùn)練步數(shù)。
主要目的是在對齊與微調(diào)階段,平衡模型性能與安全對齊。
3. Test Time Scaling Law在推理階段,通過增加測試時計算(如思維鏈、自洽性采樣、集成等方法)提升模型表現(xiàn),但邊際收益遞減。
比如采樣 10 次可能顯著提升效果,但增加到 100 次收益有限。
主要目的是在推理階段利用額外計算資源優(yōu)化最終輸出質(zhì)量。
二、預(yù)訓(xùn)練和測試時的 Scaling Law 都與計算資源相關(guān),它們在資源分配的策略上有何本質(zhì)區(qū)別?
1. Pre-train Scaling Law
資源分配是離線的,主要在模型參數(shù)量(N)、數(shù)據(jù)量(D)、訓(xùn)練計算量(C)之間按比例權(quán)衡(如 Chinchilla 定律建議 N∝D,即模型大小與數(shù)據(jù)量應(yīng)同步增長)。
目標(biāo)是找到三者最優(yōu)配比,避免某一維度成為瓶頸。
2. Test Time Scaling Law
資源分配是在線的,通過動態(tài)增加單次推理的計算開銷(如采樣次數(shù)、Prompt 設(shè)計復(fù)雜度)提升效果。例如,在低延遲場景下可能僅采樣 1 次,而在高精度場景下采樣 5-10 次。
3. 關(guān)鍵區(qū)別
預(yù)訓(xùn)練的資源分配影響模型的“先天能力”,需長期訓(xùn)練;測試時的資源分配則是在模型能力固定的前提下,通過靈活調(diào)整推理策略優(yōu)化結(jié)果。
三、RL Scaling Law 中提到的“過優(yōu)化”現(xiàn)象是什么?如何緩解這一問題?
1. RL的過優(yōu)化現(xiàn)象
在 RLHF 訓(xùn)練中,當(dāng)策略模型過度優(yōu)化獎勵模型(RM)時,可能導(dǎo)致模型輸出偏離人類真實偏好(如過度迎合 RM 的缺陷),表現(xiàn)為訓(xùn)練后期驗證集性能下降。
2. 緩解方法
- Early Stopping:通過驗證集監(jiān)控,在性能下降前終止訓(xùn)練。
- 使用 PPO 中的 KL 懲罰項限制策略模型與初始模型的偏離程度。
- reward model更新:提升 RM 的泛化性和魯棒性,現(xiàn)在一般會設(shè)置多目標(biāo)獎勵或?qū)褂?xùn)練。
四、在資源有限的情況下,在訓(xùn)練模型的時候如何結(jié)合三種 Scaling Law 制定模型優(yōu)化優(yōu)先級?
優(yōu)先級主要就根據(jù)目前的模型的效果,以及具體需求來調(diào)整。
如果基座模型能力不足(如邏輯推理弱),那就優(yōu)先擴展預(yù)訓(xùn)練規(guī)模(提升數(shù)據(jù)質(zhì)量或者參數(shù)量),用Pre-train scaling law。
如果是模型已具備基礎(chǔ)能力但未對齊,那么就用 RLHF 對齊人類偏好,用RL scaling law。
當(dāng)基座模型和對齊已完成,但需低成本提升特定任務(wù)效果時(如數(shù)學(xué)推理),可增加測試時計算量(比如COT)。
總結(jié)一下,假設(shè)預(yù)算有限且需快速部署客服模型:
- 基座模型回答不準(zhǔn) → 優(yōu)先優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量。
- 回答準(zhǔn)確但不符合企業(yè)規(guī)范 → 進(jìn)行 RLHF 微調(diào)。
- 需要進(jìn)一步提升復(fù)雜問題解決率 → 在推理時使用思維鏈(CoT)提示。
五、Test Time Scaling Law 可能帶來哪些工程挑戰(zhàn)?怎么處理
Test Time Scaling Law存在邊際收益遞減特性,模型固有能力會限制測試時優(yōu)化的上限(例如基座模型無法解決數(shù)學(xué)問題,再多采樣也沒用)。
工程上的挑戰(zhàn)主要是成本和延遲,增加采樣次數(shù)也會線性增加計算成本和響應(yīng)時間。
解決方案
- 根據(jù)任務(wù)難度自適應(yīng)選擇采樣次數(shù)(如簡單問題僅采樣 1 次,復(fù)雜問題采樣 5 次)。
- 使用蒸餾技術(shù)將大模型推理能力遷移到小模型,降低單次推理成本。
- 結(jié)合測試時優(yōu)化與輕量級微調(diào)(如 Adapter),突破基座模型的能力限制。
文轉(zhuǎn)載自公眾號瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷
原文鏈接:??https://mp.weixin.qq.com/s/PWSRJeRl2pnURuxz0h7trg???
