在對(duì)齊 AI 時(shí),為什么在線方法總是優(yōu)于離線方法? 精華
在 AI 對(duì)齊問題上,在線方法似乎總是優(yōu)于離線方法,但為什么會(huì)這樣呢?近日,Google DeepMind 一篇論文試圖通過基于假設(shè)驗(yàn)證的實(shí)證研究給出解答。
- 論文標(biāo)題:Understanding the performance gap between online and offline alignment algorithms
- 論文地址:???https://arxiv.org/abs/2405.08448???
根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)隨著大型語言模型(LLM)發(fā)展而日漸成為一種用于 AI 對(duì)齊的常用框架。不過近段時(shí)間,直接偏好優(yōu)化(DPO)等離線方法異軍突起 —— 無需主動(dòng)式的在線交互,使用離線數(shù)據(jù)集就能直接對(duì)齊 LLM。這類方法的效率很高,也已經(jīng)得到實(shí)證研究的證明。但這也引出了一個(gè)關(guān)鍵問題:
AI 對(duì)齊是否必需在線強(qiáng)化學(xué)習(xí)?
對(duì)于這個(gè)問題,人們希望既知道其理論上的答案,也希望明晰實(shí)驗(yàn)給出的解答。
從實(shí)證角度看,相比于大家常用的在線 RLHF(由偏好建模和從模型采樣組成),離線算法實(shí)現(xiàn)起來要簡單得多,成本也低得多。因此,收集有關(guān)離線算法的充分性的證據(jù)可讓 AI 對(duì)齊變得更加簡單。另一方面,如果能明晰常用在線 RLHF 的優(yōu)勢(shì),也能讓我們理解在線交互的基本作用,洞見離線對(duì)齊方法的某些關(guān)鍵挑戰(zhàn)。
在線算法與離線算法的對(duì)比
要公平地比較在線和離線算法并非易事,因?yàn)樗鼈兇嬖谠S多實(shí)現(xiàn)和算法方面的差異。舉個(gè)例子,在線算法所需的計(jì)算量往往大于離線算法,因?yàn)樗枰蓸雍陀?xùn)練另一個(gè)模型。因此,為了比較公平,需要在衡量性能時(shí)對(duì)不同算法所耗費(fèi)的預(yù)算進(jìn)行一定的校準(zhǔn)。
在 DeepMind 的這項(xiàng)研究中,研究團(tuán)隊(duì)在比較時(shí)并未將計(jì)算量作為一個(gè)優(yōu)先考慮因素,而是采用了 Gao et al. (2023) 的論文《Scaling laws for reward model overoptimization》中的設(shè)置:使用 RLHF 策略和參考 SFT 策略之間的 KL 散度作為預(yù)算的衡量指標(biāo)。
在不同的算法和超參數(shù)設(shè)置中,KL 散度是以一種統(tǒng)一的方式衡量 RLHF 策略與 SFT 策略的偏離程度,從而能以一種經(jīng)過校準(zhǔn)的方式對(duì)算法進(jìn)行比較。
基于古德哈特定律比較在線和離線算法的性能
首先,該團(tuán)隊(duì)比較了在線和離線算法的過度優(yōu)化(over-optimization)行為 —— 該行為可通過將古德哈特定律外推至 AI 對(duì)齊領(lǐng)域而預(yù)測(cè)得到。
簡單總結(jié)起來,古德哈特定律(Goodhart’s law)可以表述成:一項(xiàng)指標(biāo)一旦變成了目標(biāo),它將不再是個(gè)好指標(biāo)。
該團(tuán)隊(duì)采用了與 Gao et al. (2023) 類似的設(shè)置,基于一組開源數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),結(jié)果表明:在同等的優(yōu)化預(yù)算(相對(duì)于 SFT 策略的 KL 散度)下,在線算法的性能表現(xiàn)通常優(yōu)于離線算法。
圖 1 給出了在線和離線算法在四個(gè)不同的開源數(shù)據(jù)集上表現(xiàn)出的 KL 散度與策略性能之間的權(quán)衡。圖中的每個(gè)數(shù)據(jù)點(diǎn)代表了在訓(xùn)練過程中某個(gè)特定檢查點(diǎn)下,針對(duì)特定一組超參數(shù)的策略評(píng)估結(jié)果。
其中,對(duì)于在線算法,超參數(shù)并未被大量調(diào)整,而是始終使用一組固定的超參數(shù);對(duì)于離線算法,則是將不同超參數(shù)的結(jié)果池化后得出??梢杂^察到如下結(jié)果:
- 符合古德哈特定律的過度優(yōu)化。不管是在線還是離線算法,性能都會(huì)隨 KL 散度先升后降。后期下降的原因是過度優(yōu)化效應(yīng),這符合古德哈特定律的預(yù)測(cè)。
- 在線算法能比離線算法更高效地使用 KL 散度預(yù)算。相比于離線算法,在線算法似乎通常能實(shí)現(xiàn)更好的權(quán)衡。具體而言,在 KL 散度度量的預(yù)算一樣時(shí),在線算法得到的性能通常優(yōu)于離線算法。在不同的 KL 散度層級(jí)上,在線算法在所有任務(wù)上的峰值性能都高于離線算法。其中,在 OpenAI 摘要和 Anthropic 輔助任務(wù)上的峰值性能差異顯著,在另兩個(gè)任務(wù)上的峰值差異較小。
總之,在線算法完全勝過離線算法,這也奠定了后續(xù)研究的基礎(chǔ)。
對(duì)于在線和離線算法性能差異的假設(shè)
為了更好地理解在線和離線算法性能差異的根源,該團(tuán)隊(duì)通過假設(shè)驗(yàn)證的形式進(jìn)行了研究。
也就是說首先提出一些假設(shè),然后驗(yàn)證它是否正確。先來看看他們提出了怎樣的假設(shè)。
假設(shè) 1:數(shù)據(jù)覆蓋情況。在線算法更優(yōu)的原因是其覆蓋的數(shù)據(jù)比離線數(shù)據(jù)集更多樣化(即隨時(shí)間變化采樣自不同的學(xué)習(xí)器策略)。
假設(shè) 2:次優(yōu)的離線數(shù)據(jù)集。離線算法處于劣勢(shì),因?yàn)槠涑跏嫉钠脭?shù)據(jù)集是由一個(gè)次優(yōu)的策略生成的。如果使用有更高絕對(duì)質(zhì)量的響應(yīng)訓(xùn)練離線算法,則性能會(huì)更好。
假設(shè) 3:分類能力更好,則性能更好。離線算法通常是將策略作為分類器進(jìn)行訓(xùn)練。但是,作為分類器,它們可能并不如代理偏好模型那樣準(zhǔn)確(因?yàn)閷?duì)分類進(jìn)行參數(shù)化的有效方式不同)。如果準(zhǔn)確度提升,則其性能也會(huì)提升。
假設(shè) 4:非對(duì)比式損失函數(shù)。在這樣的性能差異中,有多大部分可歸因于對(duì)比式的損失函數(shù),而不是離線的樣本?
假設(shè) 5:擴(kuò)展策略就足夠了。要彌合在線和離線算法之間的差距,只需提升策略大小就足夠了。
實(shí)驗(yàn)和結(jié)果
實(shí)驗(yàn)設(shè)置
為了驗(yàn)證上述假設(shè),該團(tuán)隊(duì)進(jìn)行了大量對(duì)照實(shí)驗(yàn)。
所有實(shí)驗(yàn)都使用 T5X 模型,并搭配了 T5X 數(shù)據(jù)和計(jì)算框架。為了較好地覆蓋 RLHF 問題,他們研究了四種任務(wù):OpenAI 摘要、Anthropic 輔助、聊天競(jìng)技場(chǎng)、Anthropic 無害性。
圖 2 給出了這些對(duì)照實(shí)驗(yàn)的設(shè)置情況,其整體上基于 Gao et al., 2023。其中,綠框表示數(shù)據(jù)集,藍(lán)框表示學(xué)習(xí)到的偏好模型或策略。
圖 3 則給出了在線生成數(shù)據(jù)集的圖示。這里的在線算法主要由代理偏好模型和在線學(xué)習(xí)的策略之間的交互組成。
該團(tuán)隊(duì)的實(shí)驗(yàn)研究涉及多個(gè)維度,其得到的主要結(jié)果如下。
數(shù)據(jù)
該團(tuán)隊(duì)提出的一些假設(shè)涉及到離線數(shù)據(jù)集的性質(zhì)。其中包括假設(shè)離線數(shù)據(jù)集的覆蓋情況比在線生成的數(shù)據(jù)集差;假設(shè)離線算法對(duì)離線數(shù)據(jù)集更敏感,而離線數(shù)據(jù)集中響應(yīng)的絕對(duì)質(zhì)量要差一些。(圖 4 和圖 5 分別證否了這兩個(gè)假設(shè))。
盡管這些假設(shè)聽上去似乎是對(duì)的,但實(shí)驗(yàn)結(jié)果表明它們無法可信地解釋在線和離線算法的性能差距。
他們通過消融研究發(fā)現(xiàn),提升離線優(yōu)化的一種有效方法是生成分布上接近起始 RLHF 策略(這里就剛好是 SFT 策略)的數(shù)據(jù),這本質(zhì)上就模仿了在線算法的起始階段。
優(yōu)化性質(zhì)
該團(tuán)隊(duì)發(fā)現(xiàn)判別能力和生成能力之間存在一種有趣的相互作用:盡管離線策略的分類能力勝過在線策略,但離線策略生成的響應(yīng)卻更差(見圖 6、7、8)。
不管是類間分類還是類內(nèi)分類實(shí)驗(yàn),分類性能和生成性能之間的關(guān)聯(lián)似乎都不大。盡管離線和在線采樣都是針對(duì)一個(gè)判別目標(biāo)優(yōu)化的,但離線采樣是提升在一個(gè)靜態(tài)數(shù)據(jù)集上的分類準(zhǔn)確度,而在線采樣則是通過不斷改變采樣分布來提升生成質(zhì)量。實(shí)驗(yàn)表明,離線策略的生成性能提升不如在線策略的直接。
損失函數(shù)與擴(kuò)展
為了確保所得結(jié)果更普適,他們還研究了用于 RLHF 的對(duì)比式和非對(duì)比式損失函數(shù)。
在線與離線性能之間的差距似乎總體上持續(xù)存在,盡管這種差異的根本原因可能與算法有關(guān)。他們也研究了性能差距隨策略網(wǎng)絡(luò)規(guī)模擴(kuò)展的變化情況(見圖 10 和 11)。性能差距一直存在這一事實(shí)說明:只是擴(kuò)展模型規(guī)??赡軣o法解決采樣問題。
盡管實(shí)驗(yàn)結(jié)果暗示了在策略采樣對(duì)模型對(duì)齊的根本重要性,但這些結(jié)果也許有助于揭示離線對(duì)齊算法的實(shí)驗(yàn)內(nèi)部工作原理,并揭示性能差異的根源??偠灾?,這些發(fā)現(xiàn)為 RLHF 實(shí)踐者提供了有趣的見解和挑戰(zhàn),并為更有效的 AI 對(duì)齊實(shí)踐鋪平了道路。
根據(jù)現(xiàn)有的強(qiáng)化學(xué)習(xí)研究成果,在線比離線更好似乎是顯而易見的結(jié)論。在線和離線強(qiáng)化學(xué)習(xí)算法之間的性能差距也已經(jīng)被多項(xiàng)研究發(fā)現(xiàn),所以這項(xiàng)研究給出了什么不一樣的結(jié)論呢?
最重要的是,在線 RLHF 算法依賴于一個(gè)學(xué)習(xí)后的獎(jiǎng)勵(lì)模型,該獎(jiǎng)勵(lì)模型是使用與離線 RLHF 算法一樣的成對(duì)偏好數(shù)據(jù)集訓(xùn)練得到的。這與常規(guī)強(qiáng)化學(xué)習(xí)設(shè)置存在根本性差異 —— 常規(guī)強(qiáng)化學(xué)習(xí)假設(shè)能以在線方式獲取基本真值獎(jiǎng)勵(lì),在這種情況下,在線強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)明顯。假設(shè) RLHF 受到獎(jiǎng)勵(lì)信號(hào)的瓶頸限制,我們就不清楚在線與離線的差距是否還會(huì)這樣顯著。
從更技術(shù)性的角度來看,許多 RLHF 算法采用了上下文賭博機(jī)的設(shè)計(jì)形式,并針對(duì)參考策略應(yīng)用了正則化。這樣的算法細(xì)節(jié)讓 RLHF 偏離了常規(guī)的強(qiáng)化學(xué)習(xí)設(shè)置,這可能會(huì)影響離策略學(xué)習(xí)問題的嚴(yán)重程度。
本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心
