為啥強化學(xué)習(xí)開始成為了大語言模型(LLM)的新寵?
一、強化學(xué)習(xí)基礎(chǔ)概述強化學(xué)習(xí)是機器學(xué)習(xí)的一個分支,核心在于智能體(agent)與環(huán)境(environment)的交互。智能體執(zhí)行動作(action),環(huán)境隨之反饋獎勵(reward)和新的狀態(tài)(state)。智能體的目標便是通過不斷試錯,學(xué)習(xí)到能最大化長期累積獎勵的策略(policy)。大語言模型的預(yù)訓(xùn)練依賴海量無監(jiān)督文本數(shù)據(jù),構(gòu)建起龐大的參數(shù)空間來捕捉語言規(guī)律。然而,這一過程存在諸多短板:缺乏任務(wù)針對性:預(yù)訓(xùn)練后的模型像是個“知識...