為啥強(qiáng)化學(xué)習(xí)開始成為了大語言模型(LLM)的新寵?
一、強(qiáng)化學(xué)習(xí)基礎(chǔ)概述
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,核心在于智能體(agent)與環(huán)境(environment)的交互。智能體執(zhí)行動(dòng)作(action),環(huán)境隨之反饋獎(jiǎng)勵(lì)(reward)和新的狀態(tài)(state)。智能體的目標(biāo)便是通過不斷試錯(cuò),學(xué)習(xí)到能最大化長(zhǎng)期累積獎(jiǎng)勵(lì)的策略(policy) 。
大語言模型的預(yù)訓(xùn)練依賴海量無監(jiān)督文本數(shù)據(jù),構(gòu)建起龐大的參數(shù)空間來捕捉語言規(guī)律。然而,這一過程存在諸多短板:
- 缺乏任務(wù)針對(duì)性:預(yù)訓(xùn)練后的模型像是個(gè)“知識(shí)雜燴”,面對(duì)具體任務(wù),如撰寫專業(yè)法律文書、創(chuàng)意故事寫作時(shí),難以迅速精準(zhǔn)輸出,容易給出寬泛、缺乏重點(diǎn)的回答。
- 與人類偏好偏差:預(yù)訓(xùn)練沒考量人類主觀的審美、價(jià)值觀與交流習(xí)慣,生成內(nèi)容可能冰冷機(jī)械,不符合日常溝通期待,甚至偶爾輸出不當(dāng)、冒犯性言論。
- 數(shù)據(jù)分布適應(yīng)性弱:現(xiàn)實(shí)世界數(shù)據(jù)分布瞬息萬變,新流行語、新事件帶來全新語義分布,單純依靠預(yù)訓(xùn)練時(shí)的固定數(shù)據(jù)難以靈活應(yīng)變。
強(qiáng)化學(xué)習(xí)此時(shí)閃亮登場(chǎng),它能基于即時(shí)反饋,動(dòng)態(tài)調(diào)整模型行為,宛如給懵懂的“語言天才”配備一位實(shí)時(shí)指導(dǎo)的導(dǎo)師,精準(zhǔn)雕琢模型輸出。
二、強(qiáng)化學(xué)習(xí)受寵于LLM的原因
(一)彌補(bǔ)預(yù)訓(xùn)練局限
大語言模型的預(yù)訓(xùn)練依賴海量文本數(shù)據(jù),它貪婪地?cái)z取知識(shí),構(gòu)建起龐大的語言表征體系。然而,預(yù)訓(xùn)練無法充分考量真實(shí)場(chǎng)景下用戶多樣化、動(dòng)態(tài)化的需求。就好比學(xué)生在圖書館通讀各類書籍打基礎(chǔ),但缺乏應(yīng)對(duì)實(shí)際復(fù)雜考試場(chǎng)景的針對(duì)性練習(xí)。強(qiáng)化學(xué)習(xí)介入后,能夠依據(jù)即時(shí)反饋校準(zhǔn)模型輸出,促使其貼合人類期望的回應(yīng)模式,把寬泛的知識(shí)儲(chǔ)備精準(zhǔn)應(yīng)用于具體任務(wù)。
(二)提升模型適應(yīng)性
現(xiàn)實(shí)世界的數(shù)據(jù)分布處于持續(xù)變動(dòng)中,新話題、新表述、新語境層出不窮。傳統(tǒng)的監(jiān)督學(xué)習(xí)依賴固定數(shù)據(jù)集微調(diào),面對(duì)分布外的數(shù)據(jù)時(shí)效果大打折扣。強(qiáng)化學(xué)習(xí)構(gòu)建起模型與環(huán)境交互的閉環(huán),通過不斷試錯(cuò)與獎(jiǎng)勵(lì)反饋,讓LLM可以迅速適應(yīng)全新的數(shù)據(jù)分布。例如,當(dāng)網(wǎng)絡(luò)流行語更迭時(shí),經(jīng)強(qiáng)化學(xué)習(xí)優(yōu)化的LLM能更快捕捉語義變化,給出契合當(dāng)下語境的回答。
(三)對(duì)齊人類偏好
人工智能產(chǎn)品最終服務(wù)于人類用戶,模型輸出需契合人類的價(jià)值觀、審美與交流習(xí)慣。強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)信號(hào)能夠融入人類反饋,構(gòu)建起人類偏好模型,引導(dǎo)LLM生成的文本更人性化、更有同理心。未經(jīng)優(yōu)化的生成內(nèi)容可能冗長(zhǎng)、晦澀,而基于人類反饋的強(qiáng)化學(xué)習(xí)能讓回復(fù)變得親切自然,像貼心老友給出靠譜建議。
(四)優(yōu)化效率與成本
持續(xù)擴(kuò)大模型規(guī)模來提升性能,面臨算力瓶頸與高昂成本。強(qiáng)化學(xué)習(xí)聚焦于策略優(yōu)化而非單純的數(shù)據(jù)堆砌,利用少量高質(zhì)量反饋數(shù)據(jù),就能對(duì)模型行為做出顯著改進(jìn)。相比海量數(shù)據(jù)的二次預(yù)訓(xùn)練,強(qiáng)化學(xué)習(xí)像是四兩撥千斤的巧勁,用精打細(xì)算的方式讓LLM“更上一層樓”。
三、近端策略優(yōu)化(PPO)在LLM中的應(yīng)用
(一)PPO算法原理
近端策略優(yōu)化屬于策略梯度算法家族,旨在更高效、穩(wěn)定地更新策略網(wǎng)絡(luò)。它限制新策略與舊策略的偏離程度,防止策略更新步子邁得太大,掉進(jìn)局部最優(yōu)陷阱。通過優(yōu)化目標(biāo)函數(shù),利用重要性采樣,權(quán)衡新舊策略下動(dòng)作的概率與獎(jiǎng)勵(lì)反饋,實(shí)現(xiàn)策略的漸進(jìn)式優(yōu)化。
(二)在LLM里的實(shí)踐
OpenAI將PPO廣泛應(yīng)用于GPT系列。模型生成文本片段時(shí),PPO會(huì)依據(jù)獎(jiǎng)勵(lì)函數(shù)評(píng)估。獎(jiǎng)勵(lì)考量多維度因素:
- 連貫性:文本讀起來是否通順流暢,有無邏輯跳躍,例如在講述歷史事件脈絡(luò)時(shí),連貫的敘述才能讓讀者跟上節(jié)奏。
- 準(zhǔn)確性:針對(duì)科普、資訊類內(nèi)容,輸出的事實(shí)、數(shù)據(jù)必須精準(zhǔn)無誤,不然會(huì)誤導(dǎo)受眾。
- 安全性:禁止生成包含歧視、暴力、虛假信息等不良內(nèi)容,一旦觸及紅線,給予嚴(yán)厲負(fù)向獎(jiǎng)勵(lì)。
借助PPO,GPT不斷微調(diào)策略網(wǎng)絡(luò),讓生成質(zhì)量穩(wěn)步攀升,輸出從混亂無序走向條理清晰、合規(guī)有用。
四、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)
(一)RLHF流程拆解
- 數(shù)據(jù)收集:首先要匯聚海量人類反饋數(shù)據(jù)。比如向志愿者展示模型對(duì)同一問題的不同回答,讓他們標(biāo)記出更喜歡的回復(fù);或是收集專業(yè)編輯對(duì)模型生成文章的修改意見,標(biāo)記優(yōu)劣差異。
- 獎(jiǎng)勵(lì)模型構(gòu)建:把收集的人類偏好數(shù)據(jù)“翻譯”成量化的獎(jiǎng)勵(lì)信號(hào),訓(xùn)練出一個(gè)小型的獎(jiǎng)勵(lì)模型,用于預(yù)測(cè)給定文本能獲得的人類偏好分?jǐn)?shù)。
- 強(qiáng)化學(xué)習(xí)循環(huán):主模型生成文本,獎(jiǎng)勵(lì)模型打分,依據(jù)分?jǐn)?shù)用強(qiáng)化學(xué)習(xí)算法更新主模型,促使它下次生成更契合人類喜好的內(nèi)容。
(二)RLHF的變革性影響
以ChatGPT為例,RLHF是它風(fēng)靡全球的關(guān)鍵“魔法”。在日常閑聊場(chǎng)景,未經(jīng)RLHF的模型可能回復(fù)生硬簡(jiǎn)短;經(jīng)RLHF打磨后,ChatGPT能感知用戶情緒,俏皮打趣、暖心安慰,瞬間拉近與用戶距離。在答疑領(lǐng)域,回答也從干巴巴的條文羅列,變成通俗易懂、舉例生動(dòng)的貼心講解,深度匹配用戶期望。
五、OpenAI O1開啟的強(qiáng)化學(xué)習(xí)持續(xù)優(yōu)化范式
(一)動(dòng)態(tài)“后訓(xùn)練”理念
OpenAI O1打破傳統(tǒng)訓(xùn)練的階段性局限,倡導(dǎo)全生命周期的持續(xù)后訓(xùn)練。模型上線不是終點(diǎn),而是新征程開端。每日海量用戶交互反饋,都化作強(qiáng)化學(xué)習(xí)的燃料,當(dāng)晚就能微調(diào)模型參數(shù),優(yōu)化第二天輸出。遇上突發(fā)新聞熱點(diǎn)、新網(wǎng)絡(luò)用語誕生,快速響應(yīng)更新知識(shí)與表達(dá)風(fēng)格。
(二)復(fù)合反饋融合
不再單純依賴用戶點(diǎn)贊、差評(píng),O1整合文本語法檢查、語義完整性評(píng)估、倫理合規(guī)審查、任務(wù)完成效能考量等多源反饋。一篇財(cái)經(jīng)評(píng)論,既要語法正確、語義連貫,不能違規(guī)薦股,還得精準(zhǔn)預(yù)測(cè)市場(chǎng)走向,綜合反饋塑造更優(yōu)質(zhì)模型。
(三)拓展能力邊界
傳統(tǒng)框架下,LLM被初始設(shè)定束縛,O1利用強(qiáng)化學(xué)習(xí)試探未知策略空間。鼓勵(lì)模型挖掘冷門知識(shí)、新興學(xué)術(shù)理論,催生新穎創(chuàng)意內(nèi)容,不斷拓展智能邊界,給用戶帶來新奇體驗(yàn)。
六、強(qiáng)化學(xué)習(xí)應(yīng)用于LLM的挑戰(zhàn)與應(yīng)對(duì)
(一)獎(jiǎng)勵(lì)設(shè)計(jì)復(fù)雜性
設(shè)計(jì)普適公平的獎(jiǎng)勵(lì)函數(shù)困難重重。過于側(cè)重準(zhǔn)確性獎(jiǎng)勵(lì),會(huì)扼殺創(chuàng)意;過度鼓勵(lì)新奇,又易產(chǎn)出不靠譜內(nèi)容。需結(jié)合對(duì)抗訓(xùn)練、分層獎(jiǎng)勵(lì)架構(gòu),不同任務(wù)定制差異化獎(jiǎng)勵(lì)細(xì)則,平衡激勵(lì)方向。
(二)數(shù)據(jù)偏差與噪聲
人類反饋數(shù)據(jù)夾雜主觀偏見、文化局限,采集渠道局限也會(huì)引入噪聲。要擴(kuò)大數(shù)據(jù)收集范圍,跨地域、跨文化采集,用數(shù)據(jù)清洗、異常值剔除、多源數(shù)據(jù)交叉驗(yàn)證等手段凈化數(shù)據(jù)。
(三)算力與時(shí)長(zhǎng)難題
強(qiáng)化學(xué)習(xí)頻繁更新模型,算力消耗巨大,訓(xùn)練耗時(shí)漫長(zhǎng)。借助云算力租賃、自研高效計(jì)算芯片、算法并行化改造,削減計(jì)算成本,提速訓(xùn)練進(jìn)程。
七、未來展望
強(qiáng)化學(xué)習(xí)與LLM的融合正處于蓬勃發(fā)展的蜜月期。隨著算法創(chuàng)新持續(xù)迭代,獎(jiǎng)勵(lì)機(jī)制愈發(fā)精妙,反饋數(shù)據(jù)越發(fā)純凈海量,算力基建蓬勃發(fā)展,我們有望見證LLM蛻變成為真正的“智能伴侶”。
從無縫融入創(chuàng)意產(chǎn)業(yè),激發(fā)人類無限靈感,到深度嵌入專業(yè)領(lǐng)域,成為可靠的決策輔助,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的LLM將跨越當(dāng)下局限,勾勒出一個(gè)人機(jī)深度協(xié)同、知識(shí)共創(chuàng)共享的嶄新未來。
本文轉(zhuǎn)載自 ??智駐未來??,作者: 小智
