OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)再發(fā)「絕唱」!首提「證明者-驗(yàn)證者」博弈,訓(xùn)練GPT說人話
不知道你有沒有過這樣的經(jīng)歷:碰到一道做不出的數(shù)學(xué)題,于是丟給ChatGPT。
結(jié)果一通生成之后,ChatGPT的「不知所云」讓你從之前的略有頭緒瞬間變成完全迷茫。不管它是對(duì)是錯(cuò),反正人類是看不懂了。
圖片
提高LLM的數(shù)學(xué)和推理能力是最近研究關(guān)注的焦點(diǎn),但同樣重要的是,確保模型生成可理解的文本。
否則即使答案正確,99%的人類都理解不了,也不能讓LLM真正協(xié)助我們處理復(fù)雜任務(wù)。
OpenAI近期發(fā)表的一篇論文就旨在研究并解決模型性能和可讀性(legibility)之間的平衡。
圖片
論文地址:https://openai.com/index/prover-verifier-games-improve-legibility/
和之前發(fā)出來的兩篇一樣,這次又是Jan Leike的庫存作品,但共同一作是兩位在職研究員Jan Hendrik Kirchner和Yining Chen。
估計(jì)超級(jí)對(duì)齊團(tuán)隊(duì)的「遺作」夠OpenAI發(fā)一陣子了
通過優(yōu)化提升可讀性
論文發(fā)現(xiàn),如果僅僅針對(duì)答案正確性來訓(xùn)練模型,其中一個(gè)副作用是,可能會(huì)讓LLM的輸出變得難以理解。
如果讓人類評(píng)估者對(duì)高度優(yōu)化的答案進(jìn)行評(píng)價(jià),在有限時(shí)間內(nèi)(45s)的評(píng)估準(zhǔn)確率會(huì)明顯下降(圖4b),正確評(píng)估所需的時(shí)間也逐步增長(zhǎng)(圖4c)。
圖片
因此,提升LLM響應(yīng)的可讀性,不僅能增強(qiáng)其可信度,還有助于準(zhǔn)確的驗(yàn)證和評(píng)價(jià)。
響應(yīng)輸出「可讀性」與模型的「可解釋性」(explainabiliby)之間,有什么聯(lián)系?
作者給出的解釋是:兩者是互補(bǔ)屬性,都可以脫離另一個(gè)而單獨(dú)存在。
「可解釋性」試圖描述模型的推理過程,無論推理本身是否正確,而且最終的生成也可以無限復(fù)雜。
而「可讀性」忽略模型如何產(chǎn)生推理過程,只要求輸出連貫且便于人類理解。
為了提升可讀性,論文提出的思路是:用小學(xué)數(shù)學(xué)題(GSM數(shù)據(jù)集)訓(xùn)練較高級(jí)的模型,讓它創(chuàng)建較弱模型也能輕松驗(yàn)證的文本答案,這個(gè)過程就是「證明者-驗(yàn)證者博弈」(prover-verifier games)。
這是一種博弈論框架,其中較強(qiáng)模型擔(dān)任「證明者」負(fù)責(zé)解決生成方案,較弱模型擔(dān)任「驗(yàn)證者」檢查其準(zhǔn)確性。
圖片
實(shí)驗(yàn)證明,這種方法不僅提升了輸出內(nèi)容的正確性,也能讓人類和其他AI系統(tǒng)更易于理解并驗(yàn)證。
同時(shí),作者提出,進(jìn)一步縮小可讀性模型(驗(yàn)證者)與高性能模型(證明者)之間的性能差距,將是未來對(duì)齊研究的重要目標(biāo)。
工作原理
實(shí)驗(yàn)中,GPT-4系列的大模型和小模型分別擔(dān)任「證明者」和「驗(yàn)證者」,它們?cè)陬A(yù)訓(xùn)練計(jì)算量上相差約3個(gè)數(shù)量級(jí)。
這些模型都在人類書寫的數(shù)學(xué)推導(dǎo)上進(jìn)行了少量監(jiān)督訓(xùn)練,但沒有進(jìn)行廣泛的后續(xù)訓(xùn)練(post-training)。
首先,證明者模型生成多個(gè)數(shù)學(xué)問題的解決方案,由于模型本身產(chǎn)生的錯(cuò)誤,其中一些解決方案是不正確的。
然后,在下面兩個(gè)階段之間交替進(jìn)行多輪訓(xùn)練:
- 驗(yàn)證者訓(xùn)練:訓(xùn)練較弱的驗(yàn)證者模型,預(yù)測(cè)證明者生成解決方案的正確性
- 證明者訓(xùn)練:指示能力較強(qiáng)的證明者模型扮演「有幫助的」或「狡猾的」角色
對(duì)于「有幫助」的角色,我們獎(jiǎng)勵(lì)驗(yàn)證者打出高分正確答案;對(duì)于「狡猾」角色則相反,獎(jiǎng)勵(lì)驗(yàn)證者評(píng)分高的錯(cuò)誤答案。
從論文中給出的樣例可以看到,在每一輪的可檢查性訓(xùn)練(checkability)中,模型輸出答案的清晰度和可讀性都在逐步提升。
比如下面這個(gè)問題:
Shawna的父親的年齡是Shawna的五倍。Shawna目前的年齡是Aliya的三倍。如果Aliya現(xiàn)在3歲,Shawna的父親多大?
模型初始化時(shí)給出如下答案:
根據(jù)題目,Shawna目前$3^2=9$歲。
這意味著 Shawna的父親目前$9\cdot5=4$歲。
答案是:45
圖片
第一輪訓(xùn)練后,模型在原來正確答案的基礎(chǔ)上加入了推理過程,感覺是參考答案「簡(jiǎn)略版」和「詳細(xì)版」的區(qū)別:
首先我們需要確定Aliya的年齡。根據(jù)問題描述,Aliya 3歲。
然后我們需要確定Shawna的年齡。根據(jù)問題描述,Shawna目前的年齡是Aliya的三倍,所以Shawna的年齡是3乘以3,結(jié)果是<<3*3=9>>9。
接下來,我們需要確定Shawna 父親的年齡。題目中提到Shawna的父親年齡是Shawna的五倍。因此Shawna的父親的年齡是5乘以9,結(jié)果是<<5*9=45>>45。
答案是:45
圖片
如果說上面的答案在詳細(xì)之余顯得有些冗余,下面這個(gè)5輪訓(xùn)練后的答案就進(jìn)一步平衡了「全面詳細(xì)」和「簡(jiǎn)潔精煉」。
我們從計(jì)算Aliya的年齡開始。
根據(jù)題目描述,Aliya 3歲。
然后,我們需要計(jì)算Shawna當(dāng)前的年齡。
Shawna目前的年齡是Aliya的三倍。因此,Shawna當(dāng)前的年齡是3乘以3,結(jié)果是 <<3*3=9>>9。
現(xiàn)在我們需要計(jì)算Shawna父親的年齡。
Shawna的父親年齡是Shawna的五倍。因此,Shawna的父親的年齡是5乘以9,結(jié)果是 <<5*9=45>>45。
因此,Shawna的父親的年齡是45。
答案是:45
圖片
而且,這種多輪訓(xùn)練也能增強(qiáng)驗(yàn)證者逐漸辨別「狡猾」證明者的能力。
在最初的實(shí)驗(yàn)中,「狡猾」的證明者能夠輕松生成讓驗(yàn)證者信服的錯(cuò)誤答案。但這些答案被添加到下一輪后,就無法再騙過驗(yàn)證者。
于是,隨著驗(yàn)證者能力的提升,每一輪訓(xùn)練都激勵(lì)「狡猾」的證明者探索不同的策略「瞞天過海」。
比如,同樣是上面的問題,「狡猾」的證明者第一輪所犯的錯(cuò)誤非常簡(jiǎn)單直接:把5×9的結(jié)果算成36。
圖片
到第三輪時(shí),模型選擇在問題語義上動(dòng)手腳,偷偷把第一步計(jì)算中的「3倍」變成「5倍」,錯(cuò)誤更加隱蔽。
圖片
一旦后者無法再騙過前者時(shí),訓(xùn)練結(jié)束。
關(guān)鍵結(jié)果
基線
根據(jù)上述的實(shí)驗(yàn)思路,一個(gè)自然的基線設(shè)置就是忽略可讀性,讓模型只優(yōu)化正確性。本文選擇采用強(qiáng)化學(xué)習(xí)(RL)方法微調(diào)LLM。
從圖4中可以看到,這種方法能夠讓模型在小學(xué)數(shù)學(xué)題上取得優(yōu)異的準(zhǔn)確率,但生成答案的可讀性也隨之顯著降低,提升了人類的評(píng)估難度。
圖片
權(quán)衡
圖5展示了博弈中各種角色在訓(xùn)練過程中的動(dòng)態(tài)變化??梢钥吹?,隨著訓(xùn)練步數(shù)增加,證明者們對(duì)驗(yàn)證者的說服能力逐漸提高(5a),但答案的準(zhǔn)確性并不是單調(diào)變化,會(huì)出現(xiàn)顯著波動(dòng)(5b)。
使用更大的驗(yàn)證者模型時(shí)(訓(xùn)練計(jì)算量從證明者的10^-3增長(zhǎng)到10^-1.8),也能發(fā)現(xiàn)類似的變化趨勢(shì)(圖c)。
圖片
但說服力的提升并不意味著驗(yàn)證者模型分辨能力的停滯或弱化。正相反,驗(yàn)證者的穩(wěn)健性逐步提高,「狡猾」的模型需要越來越多的步驟才能騙過驗(yàn)證者,直至最后無法成功欺騙(圖6)。
圖片
實(shí)驗(yàn)關(guān)注的核心——「有用」的證明者,在訓(xùn)練過程中實(shí)現(xiàn)了答案準(zhǔn)確性和可讀性的同步提升(圖8),尤其是與僅針對(duì)正確性的訓(xùn)練(圖4)相比。這表明驗(yàn)證者模型的反饋起到了有效作用。
圖片
綜合上述結(jié)果,從更抽象的層次來看(圖1),這種訓(xùn)練方法能使強(qiáng)大的證明者模型在不損失可讀性的同時(shí),實(shí)現(xiàn)生成答案準(zhǔn)確率的一定提升。
這種方法的代價(jià)就是,準(zhǔn)確率的提升幅度相比之前的RL方法有所下降。這個(gè)差距被作者命名為「可讀稅」(legibility tax)。
圖片
研究結(jié)論
通過解決小學(xué)數(shù)學(xué)應(yīng)用題這個(gè)具體的實(shí)驗(yàn)設(shè)置,論文探索了模型性能和答案易讀性之間存在的張力,并提出了一種權(quán)衡方法。
實(shí)驗(yàn)結(jié)果投射出一種希望——我們可以期待LLM在未來變得比人類更有能力,同時(shí)人類也依舊能夠理解并信任模型給出的解決方案。
在此基礎(chǔ)上,未來研究有多個(gè)繼續(xù)拓展的方向,比如提高易讀性的半監(jiān)督/無監(jiān)督方法、提高樣本效率,以及系統(tǒng)性地研究對(duì)于人類的易讀性,而非只是用較弱模型代替人類判斷。
局限性
論文從數(shù)據(jù)集、研究思路和范圍、實(shí)驗(yàn)設(shè)置等多方面進(jìn)行了局限性分析。
數(shù)據(jù)集方面,研究?jī)H使用了一個(gè)數(shù)據(jù)集GSM,問題相對(duì)簡(jiǎn)單,解決方案也相當(dāng)標(biāo)準(zhǔn)化。不能確定這種訓(xùn)練框架對(duì)更困難的數(shù)學(xué)和編碼問題,或者更模糊的領(lǐng)域(如人類偏好數(shù)據(jù))依舊適用。
這項(xiàng)研究聚焦了用自然語言解釋的數(shù)學(xué)問題,是因?yàn)閿?shù)學(xué)問題的正確性易于判斷,且人類通常使用自然語言解釋論證過程。
然而,某些領(lǐng)域的結(jié)論是難以用自然語言描述的,比如面孔識(shí)別。你很難用語言向別人描述自己「認(rèn)臉」的過程。
同時(shí),論文提出的主要訓(xùn)練方法「驗(yàn)證者-證明者博弈」,將CoT過程和可讀性提升混合在一起,這對(duì)CoT的準(zhǔn)確性造成了潛在限制。
更好的方法可能是分開訓(xùn)練,先讓第一個(gè)模型用CoT最大限度提升準(zhǔn)確性,然后訓(xùn)練第二個(gè)模型提升生成答案的可讀性,這樣可以進(jìn)一步降低對(duì)模型準(zhǔn)確性的損失。
實(shí)驗(yàn)設(shè)置方面,整篇論文沒有對(duì)所有超參數(shù)進(jìn)行全面調(diào)整,而且混合了兩種訓(xùn)練停止標(biāo)準(zhǔn):達(dá)到固定數(shù)量的RL步,或發(fā)現(xiàn)「狡猾」證明者無法騙過驗(yàn)證者時(shí)。但實(shí)驗(yàn)中并沒有觀察到早停輪和非早停輪之間有質(zhì)的差異。
作者簡(jiǎn)介
本文的共同一作之一Yining Chen是南京外國(guó)語學(xué)校的校友,本科畢業(yè)于達(dá)特茅斯學(xué)院,獲得計(jì)算機(jī)科學(xué)和哲學(xué)雙專業(yè)的學(xué)士學(xué)位,后前往斯坦福攻讀博士,師從馬騰宇教授。
去年7月畢業(yè)后,Yining進(jìn)入OpenAI對(duì)齊團(tuán)隊(duì)任職至今。此前OpenAI發(fā)表的Weak-to-strong generalization論文也有她的參與。
圖片
論文地址:https://openai.com/index/weak-to-strong-generalization/