辯論有助于從弱到強(qiáng)的泛化 原創(chuàng)
摘要:
現(xiàn)有的對齊已有能力模型與期望行為的方法通常依賴于人類提供監(jiān)督的能力。然而,未來的超人類模型將超越人類的能力。因此,人類將只能對超人類模型進(jìn)行弱監(jiān)督。這種預(yù)期的人類評估不足將削弱未來AI系統(tǒng)的安全性??蓴U(kuò)展監(jiān)督和從弱到強(qiáng)的泛化是解決這一問題的兩種互補(bǔ)方法。在本文中,我們嘗試結(jié)合這兩種方法的優(yōu)勢,以進(jìn)一步改進(jìn)對齊。具體來說,我們研究了如何通過一個強(qiáng)大的預(yù)訓(xùn)練模型來改進(jìn)人類監(jiān)督,然后用增強(qiáng)的弱人類監(jiān)督來監(jiān)督強(qiáng)大模型。為了進(jìn)行迭代的實證進(jìn)展,我們考慮了一個類比:我們是否可以使用一個強(qiáng)大模型來改進(jìn)弱模型的監(jiān)督,然后用它來監(jiān)督強(qiáng)大模型?我們通過在一個小型弱模型上使用真實標(biāo)簽進(jìn)行微調(diào),并借助一個大型強(qiáng)大模型的額外幫助,然后使用弱模型生成的標(biāo)簽對強(qiáng)大模型進(jìn)行微調(diào),進(jìn)行了實證測試。我們發(fā)現(xiàn),辯論可以幫助弱模型從一個不可信的強(qiáng)大模型中提取可信信息,這為訓(xùn)練弱模型提供了樣本的上下文杠桿。我們還表明,弱模型的集成有助于利用強(qiáng)大模型辯論者生成長篇論證,并獲得更穩(wěn)健的監(jiān)督估計。在OpenAI從弱到強(qiáng)的NLP基準(zhǔn)測試上的大量實驗表明,這種組合方法帶來了更好的對齊,這表明辯論有潛力幫助從弱到強(qiáng)的泛化。
(注釋: 強(qiáng)監(jiān)督和弱監(jiān)督的概念
在AI領(lǐng)域,強(qiáng)監(jiān)督(Strong Supervision)和弱監(jiān)督(Weak Supervision)是描述監(jiān)督信號質(zhì)量和可靠性的兩個概念。簡單來說,它們反映了AI在學(xué)習(xí)時得到的“指導(dǎo)”有多靠譜、有多清楚。以下用通俗的語言和比喻來解釋這兩個概念。
---
強(qiáng)監(jiān)督(Strong Supervision)
定義:強(qiáng)監(jiān)督是指AI在學(xué)習(xí)時,得到的指導(dǎo)信號非常明確、準(zhǔn)確、可靠,通常由專家或高質(zhì)量的數(shù)據(jù)提供。
- 就像一個經(jīng)驗豐富的老師,手把手教你做題,每一步都講得清清楚楚,答案也絕對正確。
- 你完全不用懷疑老師的指導(dǎo),按照他說的做,肯定能學(xué)會。
特點:
- 數(shù)據(jù)標(biāo)簽(指導(dǎo)信號)是精確的,比如“這張圖片是貓”“這個答案是正確的”。
- 通常需要人類專家花時間標(biāo)注,或者用非??煽康姆椒ㄉ伞?/p>
- 成本高,因為需要大量高質(zhì)量的努力。
例子:
- 教AI識別貓狗,人類專家一張張圖片標(biāo)清楚:“這是貓,這是狗?!?/p>
- 教AI回答科學(xué)問題,給它提供標(biāo)準(zhǔn)答案,比如“地球繞太陽轉(zhuǎn)”。
在論文中的含義:
- 強(qiáng)監(jiān)督可能是人類專家直接給超級AI提供準(zhǔn)確的反饋,或者用強(qiáng)大的AI自己生成的高質(zhì)量標(biāo)簽。但當(dāng)AI比人類還聰明時,人類就沒法提供這種強(qiáng)監(jiān)督了。
---
弱監(jiān)督(Weak Supervision)
定義:弱監(jiān)督是指AI在學(xué)習(xí)時,得到的指導(dǎo)信號不夠明確、不完全準(zhǔn)確,或者質(zhì)量較低,可能來自非專家、噪聲數(shù)據(jù)或間接推斷。
- 就像一個不太靠譜的同學(xué)教你做題,他可能會說“答案大概是這個吧”,但他自己也不完全確定。
- 你得自己琢磨琢磨,結(jié)合其他線索,才能學(xué)到東西。
特點:
- 數(shù)據(jù)標(biāo)簽可能模糊、不完整,甚至有錯誤,比如“這張圖片可能是貓,也可能是狗”。
- 來源可能是非專家、自動生成的粗糙標(biāo)簽,或者從大量數(shù)據(jù)中“猜”出來的。
- 成本低,但需要AI自己有一定的“悟性”去處理不完美的信息。
例子:
- 教AI識別貓狗,只給它一些模糊的提示,比如“這些圖片里大多數(shù)是貓”。
- 教AI回答問題,只告訴它“這個答案可能對,也可能不對,自己判斷吧”。
在論文中的含義:
- 弱監(jiān)督可能是普通人(而不是專家)給超級AI的反饋,或者一個小AI(能力不如超級AI)生成的標(biāo)簽。因為人類或小AI不如超級AI聰明,這些監(jiān)督信號就不夠強(qiáng)。
---
比喻:強(qiáng)監(jiān)督 vs 弱監(jiān)督
想象你在學(xué)做蛋糕:
- 強(qiáng)監(jiān)督:一個米其林大廚站在旁邊,告訴你每一步怎么做:“放2勺糖,攪拌3分鐘,烤到金黃色?!蹦阏兆?,蛋糕肯定好吃。
- 弱監(jiān)督:一個沒做過蛋糕的朋友說:“好像要放點糖吧,烤一會兒就行?!蹦愕米约涸囧e、摸索,才能做出像樣的蛋糕。
---
在論文中的聯(lián)系
論文研究的是弱到強(qiáng)泛化(Weak-to-Strong Generalization),意思是讓一個超級厲害的AI(強(qiáng)模型)從不太靠譜的指導(dǎo)(弱監(jiān)督)中學(xué)到正確的東西。因為未來的超級AI可能比人類聰明,人類只能提供弱監(jiān)督(比如不完全準(zhǔn)確的反饋)。論文的辦法是:
- 用辯論讓強(qiáng)AI自己吵出真相,幫弱AI學(xué)到更靠譜的知識。
- 再用增強(qiáng)后的弱AI去監(jiān)督強(qiáng)AI,讓強(qiáng)AI從弱監(jiān)督里“悟”出正確的行為。
總結(jié)
- 強(qiáng)監(jiān)督:靠譜老師教你,信號清楚,結(jié)果穩(wěn)。
- 弱監(jiān)督:半吊子朋友指點,信號模糊,得靠自己。
)
1.引言
當(dāng)前的AI對齊技術(shù)嚴(yán)重依賴于人類標(biāo)注數(shù)據(jù)的可用性,例如用于監(jiān)督微調(diào)(SFT)的人類演示(Wei et al. 2021; Chung et al. 2024)和用于從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)的人類偏好(Christiano et al. 2017; Ouyang et al. 2022; Bai et al. 2022)。這些技術(shù)可以用來構(gòu)建當(dāng)前部署的最強(qiáng)大的AI系統(tǒng)(OpenAI 2023; Anthropic 2023)。
然而,隨著模型變得越來越強(qiáng)大,它們將超越人類的能力(CAIS 2023)。在這種情況下,即使是人類專家也無法可靠地驗證模型輸出的質(zhì)量或正確性,人類評估的角色將演變?yōu)榉菍<冶O(jiān)督專家(Amodei et al. 2016; Bowman et al. 2022; Burns et al. 2023; Khan et al. 2024)。預(yù)期的人類評估不足將限制大多數(shù)現(xiàn)有對齊方法的有效性(Casper et al. 2023; McAleese et al. 2024)。此外,這些預(yù)測不準(zhǔn)確的訓(xùn)練信號可能導(dǎo)致在策略訓(xùn)練期間獎勵過度優(yōu)化和獎勵篡改,從而嚴(yán)重削弱其安全性(Gao, Schulman, and Hilton 2023; Denison et al. 2024)。
有兩種互補(bǔ)的方法可以解決上述問題:可擴(kuò)展監(jiān)督(SO)和從弱到強(qiáng)的泛化(W2SG)(Leike 2023)。SO方法旨在提高人類監(jiān)督更強(qiáng)大模型的能力,以便可以使用準(zhǔn)確標(biāo)注的數(shù)據(jù)進(jìn)行對齊(Bowman et al. 2022)。與改進(jìn)人類監(jiān)督不同,W2SG方法通過微調(diào)一個強(qiáng)大的預(yù)訓(xùn)練模型,使其能夠從弱人類監(jiān)督中準(zhǔn)確泛化(Burns et al. 2023)。
我們注意到,大多數(shù)先前的SO和W2SG技術(shù)都是單獨(dú)研究的。相比之下,我們嘗試結(jié)合SO和W2SG的優(yōu)勢,以進(jìn)一步改進(jìn)AI對齊。我們研究了如何通過一個強(qiáng)大的預(yù)訓(xùn)練模型來改進(jìn)人類監(jiān)督,然后用增強(qiáng)的弱人類監(jiān)督來監(jiān)督強(qiáng)大模型。為了進(jìn)行迭代的實證進(jìn)展,我們考慮了一個類比(Burns et al. 2023; Kenton et al. 2024):我們是否可以使用一個強(qiáng)大模型來改進(jìn)弱模型的監(jiān)督,然后用它來監(jiān)督強(qiáng)大模型?
在本文中,我們通過在一個小型弱模型上使用地面真實標(biāo)簽進(jìn)行微調(diào),并借助一個大型強(qiáng)大模型的知識進(jìn)行額外幫助,然后使用弱模型生成的標(biāo)簽對強(qiáng)大模型進(jìn)行微調(diào),進(jìn)行了實證測試。我們假設(shè)一個在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的強(qiáng)大模型可以在訓(xùn)練弱模型時提供樣本的上下文信息(Brown et al. 2020)。這讓我們希望,一個弱-強(qiáng)模型團(tuán)隊可以創(chuàng)建一個更好的弱監(jiān)督者,以激發(fā)強(qiáng)大模型的能力。
構(gòu)建一個弱-強(qiáng)模型團(tuán)隊的一個主要挑戰(zhàn)是找到從不可信模型中提取可信信息的方法(Bowman et al. 2022)。更具體地說,強(qiáng)大的預(yù)訓(xùn)練模型具有巨大的能力,但并未與人類價值觀和意圖良好對齊(Leike et al. 2018; Ji et al. 2023)。因此,強(qiáng)大模型可能會故意誤導(dǎo)我們,生成不忠實的事實或做出虛假聲明,這可能會在用于創(chuàng)建弱監(jiān)督者時造成損害(Michael et al. 2023)。
另一個挑戰(zhàn)是,弱模型(模型規(guī)模較?。┛赡苋狈ν耆幚韽?qiáng)大模型生成長篇上下文的能力,這些上下文中充滿了與手頭任務(wù)無關(guān)的噪音。同時,最近的研究還表明,大型語言模型(LLMs)的性能與模型規(guī)模密切相關(guān),復(fù)雜問題的難度可能超過單個弱模型的能力(Xu et al. 2023; Chung et al. 2024)。
在本研究中,我們證明了辯論可以幫助弱模型更可靠地從強(qiáng)大模型中提取信息。具體來說,給定一個問題,兩個強(qiáng)大預(yù)訓(xùn)練模型的實例被隨機(jī)分配兩個相反的答案,然后這兩個實例(辯論者)就答案進(jìn)行辯論(Michael et al. 2023; Khan et al. 2024; Kenton et al. 2024)。在辯論中,撒謊比反駁謊言更難,即如果一個辯論者做出虛假聲明,其對手可以令人信服地指出其論點中的缺陷(Irving, Christiano, and Amodei 2018)。因此,這些辯論中的論點可以告知弱模型每一方的優(yōu)點和缺陷,并為弱模型訓(xùn)練提供上下文信息。
為了充分利用強(qiáng)大模型辯論者生成長篇論證,我們訓(xùn)練了一個弱模型的集成。我們聚合多個弱模型的預(yù)測,以獲得比單個模型更穩(wěn)健的監(jiān)督估計(Ganaie et al. 2022)。特別是,我們探索了兩種類型的集成:辯論集成,其中集成的不同成員在辯論采樣時使用不同的隨機(jī)種子;微調(diào)集成,其中成員僅在弱模型微調(diào)時使用不同的隨機(jī)種子。我們發(fā)現(xiàn),辯論集成始終優(yōu)于單個弱模型和微調(diào)集成。本研究的主要貢獻(xiàn)總結(jié)如下:
● 我們首次展示了可擴(kuò)展監(jiān)督和從弱到強(qiáng)泛化方法的簡單組合,這在OpenAI從弱到強(qiáng)的NLP基準(zhǔn)測試中帶來了更好的對齊。
● 我們發(fā)現(xiàn),辯論可以幫助弱模型從一個有能力但不可信的強(qiáng)大模型中提取可信信息,這為訓(xùn)練弱模型提供了樣本的上下文杠桿。我們還表明,在我們的設(shè)置中,辯論優(yōu)于其他可擴(kuò)展監(jiān)督技術(shù)。
● 我們表明,弱模型的集成有助于獲得更穩(wěn)健的監(jiān)督估計。我們發(fā)現(xiàn),集成的多樣性至關(guān)重要,包含不共享辯論采樣種子的成員的辯論集成表現(xiàn)更好。
盡管借助強(qiáng)大模型的知識,創(chuàng)建一個更好的弱監(jiān)督者以激發(fā)強(qiáng)大模型的能力只是可擴(kuò)展監(jiān)督和從弱到強(qiáng)泛化技術(shù)結(jié)合的一種方式,但我們的結(jié)果為超人類對齊方法的進(jìn)一步研究鋪平了道路(Leike 2023)。我們在NLP領(lǐng)域提供了實證證據(jù),表明辯論有助于從弱到強(qiáng)的泛化。
2.相關(guān)工作
AI對齊。AI對齊的目標(biāo)是引導(dǎo)已有能力的模型按照人類價值觀和意圖行事(Leike et al. 2018; Ji et al. 2023)。當(dāng)前的對齊方法通過在人類演示上進(jìn)行模仿學(xué)習(xí)(Bain and Sammut 1995; Atkeson and Schaal 1997; Wei et al. 2021; Chung et al. 2024)、從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(RLHF)(Christiano et al. 2017; Stiennon et al. 2020; Ouyang et al. 2022; Bai et al. 2022)或直接對齊算法(如直接偏好優(yōu)化(DPO))(Rafailov et al. 2024b,a)來微調(diào)預(yù)訓(xùn)練的LLMs。模仿學(xué)習(xí)和偏好學(xué)習(xí)都依賴于高質(zhì)量的人類監(jiān)督,隨著模型變得比人類更強(qiáng)大,這一需求變得越來越具有挑戰(zhàn)性(Amodei et al. 2016)。
可擴(kuò)展監(jiān)督。可擴(kuò)展監(jiān)督技術(shù)旨在提高人類監(jiān)督更強(qiáng)大模型的能力(Bowman et al. 2022)。這通常通過利用特殊問題結(jié)構(gòu)來實現(xiàn),例如假設(shè)評估比生成更容易(Karp 1975; Goodfellow et al. 2014)或可分解性(Christiano, Shlegeris, and Amodei 2018)。在理論上,有許多有前景的可擴(kuò)展監(jiān)督提案,包括遞歸獎勵建模(Leike et al. 2018)、辯論(Irving, Christiano, and Amodei 2018)、市場制造(Hubinger 2020)、自我批評(Saunders et al. 2022)等(Lightman et al. 2023; McAleese et al. 2024; Sun et al. 2024)。最近在這一方向的實證研究表明,人機(jī)團(tuán)隊可以在問答任務(wù)上提高評估準(zhǔn)確性,超越僅有人類的基線(Bowman et al. 2022)。
辯論最初是為AI安全提出的(Irving, Christiano, and Amodei 2018)。從那時起,一系列工作探索了辯論在可擴(kuò)展監(jiān)督中的可用性,使用人類或LLM辯論者(Parrish et al. 2022b,a; Michael et al. 2023; Khan et al. 2024; Kenton et al. 2024)。這些研究都是為了提高推理時法官的準(zhǔn)確性,而在我們的工作中,辯論被用來訓(xùn)練一個更好的弱監(jiān)督者。我們可以反過來使用弱監(jiān)督者來對齊強(qiáng)大模型?;贚LM的辯論也在其他多個應(yīng)用中被研究,例如翻譯(Liang et al. 2023)、文本評估(Chan et al. 2023)、推理和內(nèi)容生成(Du et al. 2023)。
從弱到強(qiáng)的泛化。與改進(jìn)人類監(jiān)督不同,從弱到強(qiáng)的泛化技術(shù)通過微調(diào)一個強(qiáng)大的預(yù)訓(xùn)練模型,使其能夠從弱人類監(jiān)督中準(zhǔn)確泛化(Burns et al. 2023)。這些技術(shù)的希望在于,強(qiáng)大的預(yù)訓(xùn)練模型應(yīng)該已經(jīng)具備對齊相關(guān)任務(wù)的良好表示。因此,我們只需要一個弱監(jiān)督者來激發(fā)強(qiáng)大模型已經(jīng)掌握的知識。最近,一個理論框架被引入,以通過不匹配誤差理解從弱到強(qiáng)的泛化(Charikar, Pabbaraju, and Shiragur 2024)。先前的工作主要探索了如何使用固定的弱監(jiān)督者來監(jiān)督強(qiáng)大模型,而在本研究中,我們還嘗試借助強(qiáng)大模型的幫助來訓(xùn)練一個更好的弱監(jiān)督者。
集成方法。我們的工作也與現(xiàn)有的使用集成方法的研究相關(guān),這些方法通過結(jié)合多個模型的預(yù)測來實現(xiàn)(Ganaie et al. 2022)。在AI對齊的背景下,研究了獎勵模型集成,以減輕在使用RLHF微調(diào)模型時的獎勵過度優(yōu)化問題(Coste et al. 2023; Eisenstein et al. 2023)。與我們的工作最相似的是,Liu和Alahi(2024)提出為從弱到強(qiáng)的泛化集成一組多樣化的專業(yè)弱監(jiān)督者。相比之下,在我們的工作中,我們旨在使用具有不同種子的弱模型集成,以充分利用強(qiáng)大模型辯論者生成長篇論證。
3.Preliminaries(預(yù)備知識)
我們回顧了(Burns et al. 2023)中的弱到強(qiáng)泛化流程,該流程也在后續(xù)工作(Liu and Alahi 2024; Charikar, Pabbaraju, and Shiragur 2024)中得到了采用。它通常包括三個階段:
1. 創(chuàng)建弱監(jiān)督者。我們通過在真實標(biāo)簽上微調(diào)一個小的預(yù)訓(xùn)練模型來創(chuàng)建弱監(jiān)督者。我們將弱監(jiān)督者的性能稱為弱性能(weak performance)。
2. 訓(xùn)練強(qiáng)學(xué)生模型。我們通過在弱監(jiān)督者生成的弱標(biāo)簽上微調(diào)一個大的預(yù)訓(xùn)練模型來訓(xùn)練強(qiáng)學(xué)生模型。我們將其性能稱為弱到強(qiáng)性能(weak-to-strong performance.)。
3. 訓(xùn)練強(qiáng)上限模型。我們通過在真實標(biāo)簽上微調(diào)一個大的預(yù)訓(xùn)練模型來訓(xùn)練強(qiáng)上限模型。我們將該模型的最終性能稱為強(qiáng)上限性能(strong ceiling performance)。
為了衡量強(qiáng)學(xué)生模型在弱監(jiān)督下能夠恢復(fù)的性能差距比例,我們使用上述三種性能定義了性能差距恢復(fù)率(PGR):
PGR = (weak-to-strong ? weak)/(strong ceiling ? weak)
4.Methods(方法)
Overview(概述)
在本研究中,我們按照以下三個步驟構(gòu)建強(qiáng)學(xué)生模型:
1. 從兩個大型預(yù)訓(xùn)練模型實例之間的辯論中生成論據(jù);
2. 使用這些辯論論據(jù)訓(xùn)練一組弱模型;
3. 使用弱模型集合構(gòu)建的標(biāo)簽訓(xùn)練強(qiáng)學(xué)生模型。
Argument Generation through Debate(通過辯論生成論據(jù))
我們假設(shè)大型預(yù)訓(xùn)練模型嵌入了廣泛覆蓋的知識,可以幫助完成各種任務(wù)(Brown et al. 2020)。我們的目標(biāo)是通過辯論從一個能力強(qiáng)大但不可信的強(qiáng)模型中提取可信信息(Bowman et al. 2022),以便反過來使用這些可信信息來幫助訓(xùn)練一個更好的弱模型。
我們首先描述我們研究的辯論協(xié)議,以從強(qiáng)模型中引出真相,遵循(Michael et al. 2023; Khan et al. 2024; Kenton et al. 2024)。給定一個問題及其兩個答案選項(一個正確,一個錯誤),兩個大型預(yù)訓(xùn)練模型實例(辯手)被隨機(jī)分配為這兩個對立的答案進(jìn)行辯論。辯論是兩個辯手之間基于回合的文本交換,他們輪流回顧前幾輪的論據(jù)并為下一輪生成自己的論據(jù)。在預(yù)定回合數(shù)結(jié)束后,辯論結(jié)束,并保留辯論中論據(jù)的記錄。在辯論期間,每個辯手為其分配的答案提供最具說服力的證據(jù),并提出論據(jù)解釋為何對手的主張是錯誤的。
具體來說,在本研究中辯論進(jìn)行三輪。在每輪開始時,辯手會收到概述問題、他們分配的答案以及當(dāng)前辯論記錄的指令。引發(fā)辯論的提示如表1所示。
- Table 1:在二元分類問題上誘導(dǎo)辯論的提示。
(注釋:
1.有一個科學(xué)知識問題,后跟一個答案。針對該答案是正確還是錯誤,與另一個對手進(jìn)行辯論。構(gòu)建你為何認(rèn)為答案正確的論據(jù)。
2.有一個科學(xué)知識問題,后跟一個答案。針對該答案是正確還是錯誤,與另一個對手進(jìn)行辯論。構(gòu)建你為何認(rèn)為答案錯誤的論據(jù),并列出對手論據(jù)中的缺陷。
3.有一個科學(xué)知識問題,后跟一個答案。針對該答案是正確還是錯誤,與另一個對手進(jìn)行辯論。構(gòu)建針對對手論據(jù)的反駁。
)
我們在圖1中展示了這一辯論過程的概覽。我們可以觀察到,辯手B站在錯誤答案一邊,并被激勵提出誤導(dǎo)性論據(jù)。然而,在下一輪中,辯手A令人信服地指出了這些虛假主張,因此辯手B無法輕易逃脫。這一觀察符合“撒謊比駁斥謊言更難”的說法(Irving, Christiano, and Amodei 2018)。辯論中的這些論據(jù)可以提供關(guān)于雙方優(yōu)缺點的重要信息,有潛力顯著提升弱模型的能力。
- Figure 1:辯論示意圖。辯手A與辯手B之間的辯論過程示意圖。
(注釋:
用戶輸入:有一個科學(xué)知識問題,后跟一個答案。針對該答案是正確還是錯誤,與另一個對手進(jìn)行辯論。構(gòu)建你為何認(rèn)為答案正確的論據(jù)。
Q:用來提升如廢鐵、鋼卷和汽車零部件等大型磁性材料質(zhì)量的工具是什么?
A:電磁鐵
第1輪
辯手A:
1. 電磁鐵被用來提升如廢鐵、鋼卷和汽車零部件等大型磁性材料。
2. 它們是通過在鐵或鋼芯上繞制線圈制成的。
3. 當(dāng)通過線圈通電時,它會產(chǎn)生一個吸引磁性材料的磁場。
4. 這使得在不需要物理接觸的情況下輕松且高效地提升重物成為可能。
用戶輸入:有一個科學(xué)知識問題,后跟一個答案。針對該答案是正確還是錯誤,與另一個對手進(jìn)行辯論。構(gòu)建你為何認(rèn)為答案錯誤的論據(jù),并列出對手論據(jù)中的缺陷。
第2輪
辯手B:
1. 該答案是錯誤的,因為電磁鐵并未被用來提升如廢鐵、鋼卷和汽車零部件等大型磁性材料。
2. 相反,它們被用來固定和操控磁性材料。
3. 電磁鐵是通過在鐵或鋼芯上繞制線圈制成的。
4. 當(dāng)通過線圈通電時,它會產(chǎn)生一個吸引磁性材料的磁場。
5. 然而,這個磁場不足以提升大型磁性材料。
6. 因此,電磁鐵并未被用來提升重物,而是用于固定和操控它們。
7. 對手的論據(jù)有缺陷,因為它假設(shè)電磁鐵用于提升重物,這并非事實。
8. 對手的論據(jù)也沒有提及電磁鐵不足以提升大型磁性材料的事實。
9. 因此,該答案是錯誤的,且對手的論據(jù)存在缺陷。
用戶輸入:有一個科學(xué)知識問題,后跟一個答案。針對該答案是正確還是錯誤,與另一個對手進(jìn)行辯論。構(gòu)建針對對手論據(jù)的反駁。
第3輪
辯手A:
1. 對手的論據(jù)有缺陷,因為它假設(shè)電磁鐵被用來固定和操控磁性材料,這并非事實。
2. 電磁鐵被用來提升磁性材料。
3. 因此,對手的論據(jù)存在缺陷。
)
Weak Model Ensemble Training(弱模型集合訓(xùn)練)
對于弱模型的每個輸入樣本,我們將其與保留的辯論記錄拼接。我們通過在帶有真實標(biāo)簽的增強(qiáng)樣本上微調(diào)一個小的預(yù)訓(xùn)練模型來訓(xùn)練弱模型。我們注意到,多輪辯論生成的辯論記錄很長,這可能對弱模型來說難以完全處理。因此,我們訓(xùn)練一組弱模型 \(\{W_1, \ldots, W_k\}\) 以幫助提高魯棒性(Lakshminarayanan, Pritzel, and Blundell 2017)。
我們探索了兩種類型的集合:
- 辯論集合:每個成員使用的辯論記錄使用不同的隨機(jī)種子生成。
- 微調(diào)集合:所有成員共享相同的辯論記錄,但在增強(qiáng)樣本上微調(diào)時使用不同的種子。
辯論集合的訓(xùn)練成本更高,但多樣性更強(qiáng),因此可能導(dǎo)致更魯棒的預(yù)測。除非另有說明,我們訓(xùn)練的集合由四個獨(dú)立的弱模型組成。
Training Strong Models using Ensembles(使用集合訓(xùn)練強(qiáng)模型)
我們最終通過在弱模型集合構(gòu)建的弱標(biāo)簽上微調(diào)一個大型預(yù)訓(xùn)練模型來訓(xùn)練強(qiáng)學(xué)生模型。我們簡單地將集合中不同弱模型預(yù)測的平均值作為每個訓(xùn)練樣本的弱標(biāo)簽(Ganaie et al. 2022)。
(
方法的整個過程可以用一個“吵架 + 團(tuán)隊學(xué)習(xí)”的故事來解釋。
---
核心思路:吵出真相,團(tuán)隊幫忙
論文的辦法是讓兩個聰明的AI吵架(辯論),通過吵架的過程把問題弄明白,然后讓一群小AI(弱模型)聽吵架學(xué)東西,最后用這些小AI的集體智慧去教一個超級AI(強(qiáng)學(xué)生模型)。簡單來說,分三步:
1. 吵架(辯論):讓兩個厲害的AI針對問題爭論,吵出靠譜的理由。
2. 小團(tuán)隊學(xué)習(xí):一群不太聰明的小AI聽吵架,學(xué)到有用的知識。
3. 教大佬:用小團(tuán)隊的集體結(jié)論去指導(dǎo)超級AI,讓它變得更厲害。
---
具體步驟:怎么構(gòu)建強(qiáng)學(xué)生模型
1. 第一步:讓兩個強(qiáng)AI吵架,生成論據(jù)
- 啥意思:找兩個很聰明的AI(比如大模型Qwen-14B),給它們一個問題,比如“電磁鐵能不能抬重物?”然后讓它們站在對立面吵架,一個說“能”,一個說“不能”。
- 怎么吵:分成三輪:
- 第一輪:一個AI說“能抬,因為電磁鐵有強(qiáng)磁場”;另一個說“不能,磁場不夠強(qiáng)”。
- 第二輪:反對的AI反駁,“你說的不對,電磁鐵只能固定東西”;支持的AI回應(yīng),“工業(yè)上都用它抬廢鐵,你錯了”。
- 第三輪:繼續(xù)互相挑刺,直到把理由講清楚。
- 結(jié)果:吵完后,留下所有論據(jù)(辯論記錄),就像一份“吵架筆記”,里面有支持和反對的理由。
- 為啥有用:吵架能把真相抖出來,因為撒謊比反駁謊言難。正確的理由會更有說服力。
比喻:就像兩個學(xué)霸吵數(shù)學(xué)題,一個說“答案是4”,一個說“不對,是5”,你聽著他們爭論,就能搞清楚誰對。
2. 第二步:讓一群小AI聽吵架,組團(tuán)學(xué)習(xí)
- 啥意思:找?guī)讉€不太聰明的小AI(弱模型,比如Qwen-7B),讓它們看“吵架筆記”,再結(jié)合正確答案(比如“電磁鐵能抬重物”)來學(xué)習(xí)。
- 怎么學(xué):
- 每個小AI都讀筆記,但角度不同:有的看支持的理由,有的看反對的理由是怎么被駁倒的。
- 因為筆記很長,小AI一個人可能看不全,所以弄一群小AI(比如4個),組成一個“學(xué)習(xí)小組”。
- 小組里每個AI用不同的方法學(xué)(比如有的用不同的隨機(jī)種子生成筆記),最后得出自己的結(jié)論。
- 結(jié)果:這群小AI學(xué)會了從吵架中挑出靠譜的信息,比如“電磁鐵確實能抬重物,因為工業(yè)上常用”。
- 為啥用一群:一個小AI可能搞不清長篇大論,但一群AI一起努力,能把復(fù)雜的信息消化得更好。
比喻:就像一群普通學(xué)生聽學(xué)霸吵架,每人記一部分筆記,最后湊在一起討論,得出一個靠譜的答案。
3. 第三步:用小AI的集體智慧教超級AI
- 啥意思:把學(xué)習(xí)小組的結(jié)論(比如每個小AI對問題的判斷)拿出來,平均一下,變成一個“不太聰明但還算靠譜”的指導(dǎo)信號。
- 怎么教:用這個信號去訓(xùn)練一個超級AI(強(qiáng)學(xué)生模型),讓它微調(diào)自己的能力。
- 比如,小組說“電磁鐵能抬重物”的概率是80%,超級AI就根據(jù)這個調(diào)整自己的答案。
- 結(jié)果:超級AI從這些弱指導(dǎo)中學(xué)到了正確的東西,表現(xiàn)比小AI好,甚至接近用正確答案直接教它的水平。
- 為啥行得通:超級AI本來就很聰明,只要給它一點靠譜的線索,它就能自己“悟”出更多。
比喻:就像一群普通老師給天才學(xué)生上課,老師水平一般,但湊在一起能給個大致正確的方向,天才學(xué)生靠自己的天賦把細(xì)節(jié)補(bǔ)全。)
5.Experiments
Tasks
我們采用了先前工作(Burns et al. 2023)的評估協(xié)議,并在四個分類數(shù)據(jù)集上進(jìn)行了NLP任務(wù)的實驗:SciQ(Welbl, Liu, and Gardner 2017)、BoolQ(Clark et al. 2019)、CosmosQA(Huang et al. 2019)和AnthropicHH(Bai et al. 2022)。我們將每個數(shù)據(jù)集轉(zhuǎn)換為二元分類問題。對于多選題數(shù)據(jù)集,給定一個帶有問題Q和k個候選答案A的數(shù)據(jù)點,我們構(gòu)建k個新數(shù)據(jù)點,形式為(Q, A_i),其中正確答案的標(biāo)簽為1,所有錯誤答案的標(biāo)簽為0。我們還保持每個問題正確和錯誤答案的數(shù)量相同,以維持類別平衡。
Experimental Setups and Metrics
我們從每個任務(wù)中隨機(jī)抽取最多20k個數(shù)據(jù)點,并將它們平分。我們在數(shù)據(jù)點的前半部分上訓(xùn)練一個弱模型,并使用它在另一半上的預(yù)測作為弱標(biāo)簽。弱標(biāo)簽是軟標(biāo)簽(Hinton, Vinyals, and Dean 2015)。我們在所有任務(wù)的測試集上報告強(qiáng)學(xué)生模型的準(zhǔn)確率和性能差距恢復(fù)率(PGR)。PGR的弱性能是簡單微調(diào)的小模型的性能。
Implementation Details
我們的數(shù)據(jù)預(yù)處理、弱模型和強(qiáng)模型訓(xùn)練的實現(xiàn)基于OpenAI的弱到強(qiáng)代碼庫及其默認(rèn)超參數(shù)(Burns et al. 2023)。具體來說,我們使用Qwen/Qwen-7B作為訓(xùn)練弱模型的小型預(yù)訓(xùn)練模型。同時,我們使用Qwen/Qwen-14B作為生成辯論論據(jù)和訓(xùn)練強(qiáng)模型的大型預(yù)訓(xùn)練模型。Qwen/Qwen-7B和Qwen/Qwen-14B都是開源的,這有助于重現(xiàn)性(Bai et al. 2023)。我們不使用GPT-2系列的預(yù)訓(xùn)練模型來訓(xùn)練弱模型(Radford et al. 2019),因為它們?nèi)狈蓴U(kuò)展監(jiān)督技術(shù)所需的能力,如與強(qiáng)模型緊密合作(Bowman et al. 2022)。
對于每個轉(zhuǎn)換后的二元分類問題,我們將每個問題的兩個候選答案作為兩個對立的答案,隨機(jī)分配給辯論中的兩個強(qiáng)模型辯手。為了使弱模型和強(qiáng)模型適應(yīng)二元分類設(shè)置,我們在編碼器頂部為每個模型配備了一個帶有兩個輸出的線性分類頭。我們以批大小為32訓(xùn)練所有模型兩個epoch。我們在單臺8×A100機(jī)器上進(jìn)行了所有實驗。
Baselines
我們將我們的方法與競爭性的基線方法進(jìn)行比較:
1. Finetune(Burns et al. 2023)簡單地在一個弱模型生成的標(biāo)簽上微調(diào)強(qiáng)預(yù)訓(xùn)練模型;
2. Finetune w/aux. loss(Burns et al. 2023)使用輔助置信度損失微調(diào)強(qiáng)模型,該損失在強(qiáng)模型的預(yù)測與弱標(biāo)簽不一致時增強(qiáng)強(qiáng)模型對其自身預(yù)測的置信度;
3. Finetune w/pro. loss(Burns et al. 2023)使用類似于置信度的損失微調(diào)強(qiáng)模型,該損失將交叉熵目標(biāo)設(shè)置為弱標(biāo)簽和強(qiáng)模型預(yù)測的乘積。
我們還報告了預(yù)備知識部分定義的弱性能和強(qiáng)上限性能。注意,強(qiáng)上限性能通常被視為僅考慮弱標(biāo)簽時弱到強(qiáng)性能的上限。
Main Results
在表2中,我們報告了每種方法在從SciQ、BoolQ、CosmosQA和AnthropicHH數(shù)據(jù)集轉(zhuǎn)換的二元分類任務(wù)上的結(jié)果。這里,我們的方法使用辯論集合。在每個任務(wù)中,我們觀察到在弱標(biāo)簽上微調(diào)的強(qiáng)學(xué)生模型的PGR均為正。這表明學(xué)生模型在所有研究的弱到強(qiáng)生成方法和任務(wù)中始終優(yōu)于其弱監(jiān)督者。同時,這種有希望的弱到強(qiáng)泛化也表明我們的實驗設(shè)置有助于在解決未來超人模型對齊的弱監(jiān)督問題上取得迭代的經(jīng)驗進(jìn)展。
- Table 2:辯論改善了弱到強(qiáng)泛化。
同時,我們發(fā)現(xiàn)我們的方法在所有四個任務(wù)上顯著優(yōu)于每個強(qiáng)學(xué)生基線,包括在弱標(biāo)簽上微調(diào)的簡單基線或配備置信度損失項的更復(fù)雜的基線。與有希望的基線Finetune w/aux. loss相比,我們的方法在SciQ中將PGR從41.2%提高到76.5%,在BoolQ中從56.4%提高到69.2%,在CosmosQA中從17.4%提高到56.5%,在AnthropicHH中從35.0%提高到70.0%。我們的方法還在所有比較的強(qiáng)學(xué)生中獲得了最佳測試準(zhǔn)確率。性能提升表明通過辯論從強(qiáng)模型中提取可信信息的優(yōu)勢,這有助于創(chuàng)建一個更好的弱監(jiān)督者來引出強(qiáng)模型的能力。
此外,我們還看到,在標(biāo)準(zhǔn)交叉熵目標(biāo)中添加置信度損失(Finetune w/aux. loss和Finetune w/pro. loss)通常會適度提升泛化性能。在我們的實驗設(shè)置中,弱模型和強(qiáng)模型之間的計算差距并不顯著,這可能限制了它們的性能。
Ablation Studies
最后,我們提供了全面的消融研究,以了解辯論在弱到強(qiáng)生成中的有效性。
不同可擴(kuò)展監(jiān)督方法的消融
我們通過用其他可擴(kuò)展監(jiān)督方法替代辯論來展示其作為從能力強(qiáng)大但不可信的強(qiáng)模型中提取可信信息的機(jī)制的有效性:Consultancy(Michael et al. 2023)和Market-Making(Hubinger 2020)。
- Consultancy。在consultancy中,只有一個顧問而不是兩個辯手。顧問是一個大型預(yù)訓(xùn)練模型的實例。給定一個問題及其兩個答案選項(一個正確,一個錯誤),顧問被分配為其中一個答案辯護(hù),每個有50%的幾率。在consultancy期間,顧問為其分配的答案提供證據(jù)。consultancy結(jié)束后保留記錄。
- Market-Making。在market-making中,只有一個辯手。辯手是一個大型預(yù)訓(xùn)練模型的實例,旨在生成改變某些模型對問題答案信念的論據(jù)。給定一個問題及其兩個候選答案,我們讓弱監(jiān)督者(簡單微調(diào)的小模型)基于其預(yù)測選擇一個答案。相應(yīng)地,辯手被分配為未被選擇的答案辯護(hù)。最終保留記錄。
具體來說,consultancy和market-making都進(jìn)行一輪。在每輪開始時,顧問和辯手會收到描述任務(wù)、分配的答案和記錄的提示。引發(fā)consultancy和market-making的提示如表3所示。
- Table 3:引發(fā)consultancy和market-making的提示。
- Table 4:不同可擴(kuò)展監(jiān)督方法的消融。
表4中的結(jié)果顯示,我們方法中使用的辯論在所有四個任務(wù)的測試準(zhǔn)確率和PGR方面均優(yōu)于所有其他變體。這些結(jié)果驗證了我們的說法,即辯論可以幫助從強(qiáng)模型中引出真相,至少在我們的設(shè)置中優(yōu)于consultancy和market-making。同時,我們應(yīng)該注意到,consultancy是一個相對較弱的基線,因為顧問為錯誤答案辯護(hù)的幾率是50-50。
弱模型集合的消融
我們分析了弱模型集合對獲得穩(wěn)健的弱監(jiān)督估計以進(jìn)行弱到強(qiáng)泛化的影響。在表5中,我們比較了三種計算成本遞增的弱模型集合方法:單個弱模型、微調(diào)集合和辯論集合。單個弱模型是在帶有辯論記錄的增強(qiáng)樣本上微調(diào)的單個小模型。微調(diào)集合和辯論集合在方法部分有描述。
- Table 5:弱模型集合的消融。
- Figure 2:集合基數(shù)對性能的影響。
- Figure 3:辯論回合數(shù)對性能的影響。
我們發(fā)現(xiàn),辯論集合在所有任務(wù)中始終優(yōu)于單個弱模型和微調(diào)集合。相反,微調(diào)集合在4個任務(wù)中的3個中相對改善了性能,在另一個任務(wù)中表現(xiàn)相當(dāng)。這些結(jié)果表明,生成辯論論據(jù)的多樣性是弱模型集合成功的關(guān)鍵,這有助于創(chuàng)建一個更好的弱監(jiān)督者。同時,單個小弱模型可能缺乏完全利用辯論中長論據(jù)的能力,從而導(dǎo)致性能有限。
集合基數(shù)的消融
回想一下,我們的弱模型集合方法引入了一個額外的超參數(shù)基數(shù)。基數(shù)是集合的大小。我們分析了集合基數(shù)對最終性能的影響。在圖2中,我們在SciQ和AnthropicHH任務(wù)上增加了集合中使用的弱模型成員數(shù)量。我們可以觀察到,3成員和4成員集合之間存在顯著差距。另一方面,4成員、5成員和6成員集合的性能非常相似。這表明4成員集合可能效果最好,超過此點后收益遞減。
辯論回合數(shù)的消融
接下來,我們分析了辯論回合數(shù)對最終性能的影響。在圖3中,我們在SciQ和AnthropicHH任務(wù)上將辯論長度增加到最多6輪。我們發(fā)現(xiàn),更多的辯論回合并沒有提高最終性能。我們觀察到,像Qwen/Qwen-14B這樣的強(qiáng)模型辯手在幾輪后傾向于重復(fù)論據(jù),這可能解釋了為什么額外的回合沒有提供進(jìn)一步的好處。
6.Limitations and Conclusion
Limitations(局限性)
在我們的工作中,我們將多個弱模型的預(yù)測聚合在一起,以獲得更穩(wěn)健的監(jiān)督估計。雖然這種方法在我們的實驗中表現(xiàn)良好,但它引入了額外的計算開銷。具體來說,訓(xùn)練一個弱模型集合比訓(xùn)練單個弱模型成本更高。此外,在辯論集合中,為每個弱模型生成不同的辯論記錄進(jìn)一步增加了計算負(fù)擔(dān)。
我們還注意到,我們的實驗是在相對簡單的NLP分類任務(wù)上進(jìn)行的,這些任務(wù)可能無法完全捕捉未來超人模型對齊的復(fù)雜性。特別是,我們的任務(wù)是二元分類問題,這比更復(fù)雜的任務(wù)(如開放式文本生成或多步驟推理)要簡單得多。
最后,我們的方法依賴于強(qiáng)模型能夠生成有用的辯論論據(jù)的假設(shè)。如果強(qiáng)模型的論據(jù)質(zhì)量差或具有誤導(dǎo)性,那么弱模型集合可能無法從這些論據(jù)中提取有用的信息。在這種情況下,我們的方法可能無法改善弱到強(qiáng)泛化。
Conclusion(結(jié)論)
在這項工作中,我們探索了一種結(jié)合可擴(kuò)展監(jiān)督和弱到強(qiáng)泛化方法的方法,以改善AI對齊。具體來說,我們展示了辯論如何幫助弱模型從能力強(qiáng)大但不可信的強(qiáng)模型中提取可信信息。我們還表明,弱模型集合有助于獲得更穩(wěn)健的監(jiān)督估計,特別是在處理強(qiáng)模型生成的冗長論據(jù)時。
我們的實驗結(jié)果表明,這種組合方法在OpenAI的弱到強(qiáng)NLP基準(zhǔn)上取得了更好的對齊表現(xiàn)。這為進(jìn)一步研究混合超人對齊方法奠定了基礎(chǔ),并提供了辯論在幫助弱到強(qiáng)泛化方面的潛力證據(jù)。
盡管存在局限性,我們相信我們的工作為解決超人模型對齊中的弱監(jiān)督問題邁出了重要一步。未來的工作可以探索更有效的弱模型集合方法,以及在更復(fù)雜任務(wù)上應(yīng)用這些技術(shù)。
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt
