與OpenAI的Q*道殊同歸?斯坦福團隊發(fā)現(xiàn)語言模型的新路徑為Q函數(shù)
傳統(tǒng)上LLM被視為復(fù)雜的文本生成器,能夠在給定輸入的基礎(chǔ)上產(chǎn)生連貫且相關(guān)的輸出。斯坦福大學(xué)的最新研究《From r to Q?: Your Language Model is Secretly a Q-Function》(論文鏈接:???https://arxiv.org/abs/2404.12358????)為我們提供了一個全新的視角,它將LLM視為Q函數(shù),這是強化學(xué)習(xí)中用于評估行動預(yù)期效用的關(guān)鍵工具。這一創(chuàng)新觀點不僅挑戰(zhàn)了我們對LLM的傳統(tǒng)認知,也為未來AI的發(fā)展方向提供了可能的新路徑。
這個觀點提出了一個有趣的假設(shè),即語言模型可以被視為 Q 函數(shù),這是強化學(xué)習(xí)中用于評估在給定狀態(tài)下采取特定行動的預(yù)期效用的函數(shù)。這種理論上的轉(zhuǎn)變可能會對我們?nèi)绾问褂煤屠斫獯笮驼Z言模型(LLM)產(chǎn)生深遠的影響。如果將語言模型視為 Q 函數(shù),那么我們可能會更加深入地探索如何通過強化學(xué)習(xí)方法來優(yōu)化它們,從而更好地對齊模型輸出與人類意圖。
有媒體推測OpenAI神秘的Q* 很可能是 Q 強化學(xué)習(xí)和 A* 搜索這兩種 AI 方法的結(jié)合,也許 OpenAI 秘密的 Q* 項目或許真的是造就 AGI 的正確方向,至于 OpenAI 的 Q* 項目是否正是這種 Q 函數(shù)的實際應(yīng)用,或者是否將 Q 強化學(xué)習(xí)與 A* 搜索結(jié)合起來,目前還沒有公開的詳細信息來證實這一點。但是這種假設(shè)確實指向了人工智能研究中的一個潛在的、令人興奮的方向,即探索不同類型的算法和模型結(jié)構(gòu),以創(chuàng)造更智能、更適應(yīng)性強的系統(tǒng)。這也可能是朝著通用人工智能(AGI)發(fā)展的一步。不過這些都還處于猜想和理論探討階段,需要更多的研究和實驗來驗證,或許萬眾期待的ChatGPT-5將會為我們揭秘這一切。
論文的核心觀點在于LLM可以被訓(xùn)練來優(yōu)化特定的Q函數(shù),從而直接對齊人類意圖和模型輸出。這種方法被稱為直接偏好優(yōu)化(DPO),它通過在多臂賭博機設(shè)置中同時優(yōu)化獎勵函數(shù)和策略,實現(xiàn)了對LLM的直接對齊。這一發(fā)現(xiàn)可能對AI領(lǐng)域產(chǎn)生深遠影響,尤其是在自然語言處理、對話系統(tǒng)設(shè)計以及通用人工智能(AGI)的構(gòu)建上。
Q函數(shù)在強化學(xué)習(xí)中扮演著至關(guān)重要的角色,它代表了在特定狀態(tài)下采取某個行動所能獲得的預(yù)期回報。通過將LLM視為Q函數(shù),研究者們可以利用強化學(xué)習(xí)的方法來優(yōu)化模型,使其更好地與人類意圖對齊。這一理論的提出,不僅為我們理解LLM提供了新的視角,也可能對AI領(lǐng)域的未來發(fā)展產(chǎn)生重要影響。
1.直接偏好優(yōu)化(DPO)方法概述
DPO方法的定義與工作原理
直接偏好優(yōu)化(DPO)是一種新興的機器學(xué)習(xí)方法,它旨在直接通過用戶反饋來優(yōu)化語言模型的輸出。與傳統(tǒng)的強化學(xué)習(xí)方法不同,DPO不依賴于一個預(yù)先定義的獎勵函數(shù)。相反,它使用從用戶反饋中提取的信號來調(diào)整模型的行為,使其更加符合用戶的偏好。
與經(jīng)典的RLHF不同,DPO(如Rafailov等人在2023年推導(dǎo)的)完全保持在上下文bandit設(shè)置中,并且還使用了基于bandit的偏好模型。為了避免使用RL算法,DPO使用了KL-contextual bandit版本的RL問題的眾所周知的閉式解:
其中π?是最優(yōu)策略,Z(x)是歸一化的分區(qū)函數(shù)。DPO重新排列這個方程,以解出獎勵:
將這個關(guān)系代入用于獎勵建模的標準二進制交叉熵損失函數(shù)中,得到DPO的損失方程,因為分區(qū)函數(shù)Z(x)從Bradley Terry模型中消除。
在DPO中,模型的每個輸出都被視為一個“臂”,而用戶的反饋則被用作評估這些“臂”的“獎勵”。通過這種方式,模型學(xué)習(xí)哪些類型的輸出更可能獲得正面的用戶反饋,并傾向于在未來的預(yù)測中生成類似的輸出。
DPO與傳統(tǒng)強化學(xué)習(xí)方法的對比
傳統(tǒng)的強化學(xué)習(xí)方法通常依賴于一個明確的獎勵函數(shù)來指導(dǎo)模型的學(xué)習(xí)過程。這個獎勵函數(shù)定義了在給定的狀態(tài)和行動下應(yīng)該獲得的獎勵。但是定義一個能夠準確反映復(fù)雜任務(wù)目標的獎勵函數(shù)往往是非常困難的。
DPO方法的一個關(guān)鍵優(yōu)勢在于它不需要這樣的獎勵函數(shù)。它直接利用用戶的反饋來指導(dǎo)模型的學(xué)習(xí),這使得它在處理那些難以用傳統(tǒng)獎勵函數(shù)描述的任務(wù)時更加有效。
DPO在實際應(yīng)用中的優(yōu)勢
DPO方法在實際應(yīng)用中的一個主要優(yōu)勢是它的靈活性和適應(yīng)性。由于它直接依賴于用戶反饋,DPO能夠適應(yīng)用戶的變化偏好,并且能夠在沒有明確獎勵函數(shù)的情況下進行優(yōu)化。
此外DPO還能夠處理那些傳統(tǒng)強化學(xué)習(xí)方法難以處理的任務(wù),如那些需要細粒度評估和長期策略規(guī)劃的任務(wù)。通過直接從用戶反饋中學(xué)習(xí),DPO能夠在這些復(fù)雜的任務(wù)中找到有效的策略。DPO為優(yōu)化語言模型提供了一個直接、靈活且高效的方法,特別是在那些傳統(tǒng)強化學(xué)習(xí)方法難以應(yīng)用的領(lǐng)域。
2.DPO在令牌級別的解釋能力
令牌級別的獎勵函數(shù)與策略優(yōu)化
直接偏好優(yōu)化(DPO)方法在令牌級別的應(yīng)用中,展現(xiàn)了其獨特的優(yōu)勢。在這個層面上,每個令牌(即單詞或字符)都被視為一個決策點,模型需要在這些決策點上做出最優(yōu)選擇以生成最終的文本輸出。DPO通過評估每個令牌對整體輸出質(zhì)量的貢獻來優(yōu)化策略,這種方法允許模型在生成文本時進行更精細的調(diào)整。
在令牌級別上,獎勵函數(shù)的作用是為每個可能的令牌選擇提供一個評分,這個評分反映了該選擇對于達成目標的貢獻程度。DPO方法通過用戶反饋來動態(tài)調(diào)整這些評分,使得模型能夠?qū)W習(xí)到哪些令牌選擇更能滿足用戶的偏好。
DPO如何實現(xiàn)信用分配
信用分配是機器學(xué)習(xí)中的一個重要概念,特別是在強化學(xué)習(xí)和序列決策問題中。它涉及到如何合理地將成功或失敗的責(zé)任分配給序列中的各個決策。在DPO框架下,信用分配通過對用戶反饋的分析來實現(xiàn)。模型不僅學(xué)習(xí)到了哪些令牌選擇是好的,而且還學(xué)習(xí)到了為什么它們是好的。
例如,如果一個特定的詞匯選擇在用戶反饋中得到了積極的評價,DPO會增加該詞匯在未來類似上下文中被選中的概率。相反,如果一個詞匯選擇導(dǎo)致了負面反饋,那么模型會學(xué)習(xí)到在類似情境下避免使用它。
圖1:DPO 中基于答案級別反饋的學(xué)分分配。我們提供兩個摘要到 Reddit 上關(guān)于工作面試的帖子。左邊是基本響應(yīng),右邊是我們的引入了薪資范圍和職位級別的錯誤。每個標記的顏色對應(yīng)于DPO 隱性獎勵如方程式所示。11(顏色越深越高),使用經(jīng)過訓(xùn)練的模型。我們看模型正確地突出顯示了錯誤的陳述,而對的值沒有太大改變其他令牌,表示進行信用分配的能力。
在這一節(jié)中,我們定性評估DPO訓(xùn)練模型是否能夠從軌跡反饋中學(xué)習(xí)信用分配。我們從Reddit帖子的通用集合開始進行TL;DR測試數(shù)據(jù)集,我們在附錄C中提供了額外的示例。在我們的代表性示例中,用戶討論了一種就業(yè)談判情況。圖1中顯示了兩個答案。左邊提供的是正確的基礎(chǔ)摘要。在右邊,我們通過引入更高級別的職位和相應(yīng)更高的薪資來修改摘要。對于兩個答案中的每個令牌,我們計算了DPO等效獎勵(優(yōu)勢),r(s, a) = β log πθ(s|a) ? β log πref(s|a),其中πθ如定理1所述(這里πθ是我們的DPO訓(xùn)練模型,πref是SFT模型)。在圖1中,每個令牌的顏色與這個獎勵成比例。我們看到模型成功地識別了與錯誤聲明相對應(yīng)的令牌,同時仍然保持了其他部分的可比值,這表明它可以進行信用分配。此外,我們看到在第一個錯誤(“250K"薪資)的上下文中,模型仍然為其他令牌分配了合理的值,并特別識別了第二個錯誤"管理職位”。這是一個有希望的跡象,表明它能夠進行"縫合"Levine等人(2020),即從離線數(shù)據(jù)中進行組合泛化的一種形式。如果是這樣,我們的發(fā)現(xiàn)可能對于在LLMs中使用強化學(xué)習(xí)和RLHF具有重要意義。同時,在最近引入的RewardBench Lambert等人(2024)中,DPO模型在推理任務(wù)上展示了強大的分類性能。我們認為這些是鼓舞人心的結(jié)果,值得進一步的大規(guī)模研究。
DPO在組合泛化中的應(yīng)用
組合泛化是指模型的能力,能夠?qū)W(xué)到的知識和模式應(yīng)用到新的、未見過的情境中。DPO通過在令牌級別上進行優(yōu)化,為模型提供了學(xué)習(xí)如何將不同的令牌組合成有意義和符合用戶偏好的輸出的能力。
在實際應(yīng)用中,這意味著DPO訓(xùn)練的模型能夠更好地處理新的用戶查詢和任務(wù),即使這些任務(wù)在訓(xùn)練數(shù)據(jù)中沒有直接的例子。通過這種方式,DPO有助于創(chuàng)建更靈活、更適應(yīng)性強的語言模型,這些模型能夠在多變的真實世界情境中表現(xiàn)出色。
DPO在令牌級別的解釋能力為語言模型的優(yōu)化提供了一個強大的工具,它通過精細的信用分配和組合泛化能力,使模型能夠更好地適應(yīng)用戶的具體需求和偏好。這種方法的應(yīng)用前景廣闊,從提高對話系統(tǒng)的互動質(zhì)量到創(chuàng)建更準確的文本生成模型,DPO都顯示出了巨大的潛力。
3.經(jīng)典搜索算法與DPO策略的等效性
經(jīng)典搜索算法的原理
經(jīng)典搜索算法在人工智能領(lǐng)域中扮演著重要角色,特別是在決策問題和規(guī)劃任務(wù)中。這些算法旨在在大規(guī)模的狀態(tài)空間中尋找最優(yōu)解或接近最優(yōu)解的策略。
1.深度優(yōu)先搜索(DFS):從根節(jié)點開始,沿著一個分支一直探索到底,然后回溯到上一層,繼續(xù)探索其他分支。DFS通常用于樹結(jié)構(gòu)或圖搜索。
2.廣度優(yōu)先搜索(BFS):從根節(jié)點開始,逐層探索,先探索所有相鄰節(jié)點,然后再探索下一層。BFS通常用于圖搜索和狀態(tài)空間搜索。
3.A*搜索:結(jié)合了啟發(fā)式信息和實際代價的搜索算法。它使用估計的最優(yōu)路徑成本(啟發(fā)式函數(shù))來指導(dǎo)搜索,以便更快地找到目標狀態(tài)。
DPO策略與搜索算法的關(guān)聯(lián)
DPO方法與經(jīng)典搜索算法之間存在一定的關(guān)聯(lián)。盡管DPO不是傳統(tǒng)的搜索算法,但它在令牌級別上的優(yōu)化過程與搜索算法的思想有相似之處。
具體來說DPO在令牌級別上對模型的輸出進行調(diào)整,類似于搜索算法在狀態(tài)空間中探索不同路徑。DPO通過評估每個令牌的貢獻來優(yōu)化策略,類似于搜索算法在狀態(tài)之間選擇最優(yōu)路徑。
圖2:使用波束搜索的模型性能。左圖:在Reddit TL的256個測試提示上,模型生成的摘要相對于首選摘要的勝率;由GPT 4評估的DR數(shù)據(jù)集。右圖:基于梁數(shù)的平均答案長度。我們看到超過5個波束的冗長程度呈爆炸式增長,這也導(dǎo)致了較低的模型獲勝率,盡管GPT4有眾所周知的偏好長度偏差。
等效性對AI策略優(yōu)化的意義
DPO與搜索算法的等效性對于AI策略優(yōu)化具有重要意義。它為我們提供了一種新的視角,即將搜索算法的思想應(yīng)用于令牌級別的優(yōu)化。這有助于更好地理解DPO方法的工作原理。
等效性意味著我們可以借鑒搜索算法中的一些啟發(fā)式方法,將其應(yīng)用于DPO中。例如,我們可以使用啟發(fā)式函數(shù)來評估每個令牌的貢獻,類似于A*搜索中的估計路徑成本。
DPO與搜索算法的等效性為我們提供了一種跨領(lǐng)域的思考方式,有助于改進策略優(yōu)化方法,使其更加高效和靈活。
4.參考策略選擇對隱含獎勵的影響
參考策略的重要性
在強化學(xué)習(xí)中,參考策略是指用于比較和評估其他策略性能的基準策略。選擇適當(dāng)?shù)膮⒖疾呗詫τ谀P偷挠?xùn)練和優(yōu)化至關(guān)重要。
1.性能評估:參考策略作為一個標準,用于評估其他策略的性能。通過與參考策略的比較,我們可以了解模型是否在特定任務(wù)上表現(xiàn)良好。
2.信用分配:參考策略幫助我們分配獎勵或懲罰給不同的決策。模型可以根據(jù)參考策略的表現(xiàn)來調(diào)整自己的策略,從而更好地對齊用戶的意圖。
隱含獎勵在模型訓(xùn)練中的角色
隱含獎勵是指在訓(xùn)練過程中未直接明確定義的獎勵信號。它通常來自于用戶的反饋、任務(wù)目標或其他隱含的信息。在語言模型中,隱含獎勵可能包括用戶的滿意度、文本生成的流暢性、信息的準確性等。
模型的訓(xùn)練目標是最大化總體獎勵,包括顯式獎勵和隱含獎勵。因此,合理選擇參考策略對于隱含獎勵的有效分配至關(guān)重要。如果參考策略能夠準確地反映用戶的偏好,那么模型就能更好地學(xué)習(xí)到如何生成更有意義、更符合用戶期望的文本。
表面上對DPO的解釋可能會讓人認為它增加了選擇響應(yīng)的可能性,同時降低了被拒絕響應(yīng)的可能性。然而,這并沒有解釋一個眾所周知的現(xiàn)象,即選擇的響應(yīng)的可能性實際上會隨著時間的推移而降低(Pal等人,2024)。這在圖3的左半部分得到了說明,我們展示了在DPO之前進行SFT時,選擇和拒絕響應(yīng)的隱含獎勵都會下降,盡管它們之間的差距會增加。然而,給定一個最大熵RL框架,這種現(xiàn)象可能是預(yù)期的。
圖3:TLDR 上的 DPO(左)和垃圾箱揀選上的 CPL 隱性獎勵的演變訓(xùn)練期間的數(shù)據(jù)(右)。我們看到,當(dāng)我們開始使用 SFT 時,獎勵值會減少,而在沒有 SFT 的情況下開始會導(dǎo)致 DPO 的隱性獎勵為正,而 CPL 的隱性獎勵會增加。
如何合理選擇參考策略
選擇參考策略需要綜合考慮多個因素。
1.任務(wù)目標:參考策略應(yīng)該與任務(wù)目標一致。例如,在對話系統(tǒng)中,參考策略可以是一個已經(jīng)訓(xùn)練良好的對話模型,或者是人類生成的對話。
2.用戶反饋:參考策略應(yīng)該考慮用戶的反饋。如果用戶更喜歡某種類型的回復(fù),那么參考策略應(yīng)該能夠反映這一點。
3.領(lǐng)域知識:參考策略可以基于領(lǐng)域知識,例如專家的意見或先前的研究成果。
合理選擇參考策略需要綜合考慮任務(wù)目標、用戶反饋和領(lǐng)域知識,通過選擇合適的參考策略,我們可以更好地優(yōu)化模型,使其生成更有意義、更符合用戶期望的文本。
5.論文的實驗結(jié)果與分析
DPO方法的實驗設(shè)計
在論文中,研究團隊對DPO方法進行了一系列實驗,以驗證其有效性和性能。
以下是實驗設(shè)計的關(guān)鍵要點:
1.數(shù)據(jù)集選擇:研究人員使用了多個不同領(lǐng)域的數(shù)據(jù)集,包括自然語言處理、對話系統(tǒng)和文本生成任務(wù)。這些數(shù)據(jù)集涵蓋了不同類型的文本和任務(wù)。
2.模型架構(gòu):為了測試DPO方法,研究人員選擇了幾種常見的大型語言模型,如BERT、GPT等。這些模型在不同任務(wù)上進行了微調(diào),以適應(yīng)特定的實驗需求。
3.評估指標:為了衡量DPO方法的性能,研究人員使用了多個評估指標,如BLEU、ROUGE、人類評分等。這些指標用于評估生成文本的質(zhì)量、流暢性和相關(guān)性。
實驗結(jié)果的詳細分析
研究人員對實驗結(jié)果進行了詳細的分析,以探討DPO方法的優(yōu)勢和局限性。
以下是一些關(guān)鍵發(fā)現(xiàn):
1.性能改進:DPO方法在多個任務(wù)上都取得了顯著的性能改進。與傳統(tǒng)的強化學(xué)習(xí)方法相比,DPO能夠更好地對齊用戶意圖,生成更有意義的文本。
2.隱含獎勵的作用:實驗結(jié)果表明,DPO方法能夠更好地利用隱含獎勵,使模型在訓(xùn)練過程中更快地收斂并生成更優(yōu)質(zhì)的文本。
3.泛化能力:DPO方法在組合泛化方面表現(xiàn)出色。模型在訓(xùn)練中學(xué)到的知識能夠很好地應(yīng)用到新的、未見過的情境中。
實驗結(jié)果對理論的支持程度
實驗結(jié)果對論文中提出的理論觀點提供了有力的支持,DPO方法的性能改進、隱含獎勵的有效利用以及泛化能力的展示都與論文中的理論框架相吻合。實驗結(jié)果證明了DPO方法的有效性,并為將其應(yīng)用于更廣泛的自然語言處理任務(wù)提供了理論和實踐的支持。
6.論文的理論貢獻與實踐意義
論文對強化學(xué)習(xí)理論的貢獻
《From r to Q?: Your Language Model is Secretly a Q-Function》這篇論文在強化學(xué)習(xí)領(lǐng)域提出了一個新穎的視角,即將大型語言模型(LLM)視為Q函數(shù)。
這一觀點對于強化學(xué)習(xí)理論和實踐都具有重要意義。
1.理論拓展:論文的提出為強化學(xué)習(xí)理論拓寬了研究方向。傳統(tǒng)上,我們將Q函數(shù)與強化學(xué)習(xí)中的智能體狀態(tài)和行動關(guān)聯(lián),而現(xiàn)在我們可以將LLM作為一種特殊的Q函數(shù)來研究。
2.新的優(yōu)化方法:將LLM視為Q函數(shù),使得我們可以借鑒強化學(xué)習(xí)中的優(yōu)化方法來改進LLM。這為更好地訓(xùn)練和優(yōu)化LLM提供了新的思路。
LLM作為Q函數(shù)的實踐應(yīng)用前景
將LLM視為Q函數(shù)的實踐應(yīng)用前景廣泛而有趣。
1.對話系統(tǒng):基于DPO方法,我們可以更好地訓(xùn)練對話模型,使其更好地對齊用戶意圖,生成更自然、流暢的對話。
2.文本生成:通過優(yōu)化LLM作為Q函數(shù),我們可以改進文本生成任務(wù),使其更加符合用戶期望,同時保持語法正確性和信息準確性。
3.通用人工智能(AGI):LLM作為Q函數(shù)的概念可能有助于構(gòu)建更智能、更通用的人工智能系統(tǒng)。通過將LLM與強化學(xué)習(xí)方法相結(jié)合,我們可以更好地實現(xiàn)通用性。
對AI研究方向的啟示
這篇論文為未來AI研究方向提供了一些啟示。
1.跨領(lǐng)域思考:將不同領(lǐng)域的理論和方法相互結(jié)合,可能會產(chǎn)生令人意想不到的新發(fā)現(xiàn)。我們應(yīng)該鼓勵跨領(lǐng)域的思考和合作。
2.從不同視角審視問題:將LLM視為Q函數(shù)是一個非傳統(tǒng)的視角,但它為我們提供了新的思考方式。我們應(yīng)該不斷嘗試從不同的視角審視問題,以尋找更好的解決方案。
總之,這篇論文不僅在理論上拓寬了我們對LLM的認知,也為實際應(yīng)用提供了新的思路。它對于推動自然語言處理、對話系統(tǒng)和通用人工智能的發(fā)展具有積極的影響。
參考資料:https://arxiv.org/pdf/2404.12358.pdf
