無需人類反饋即可對(duì)齊!田淵棟團(tuán)隊(duì)新作RLCD:無害型、有益性、大綱寫作全面超越基線模型
隨著大模型的能力越來越強(qiáng),如何低成本地讓模型的輸出更符合人類的偏好以及社會(huì)的公共價(jià)值觀,就顯得尤為重要。
基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在對(duì)齊語言模型上取得了非常好的效果,可以讓預(yù)訓(xùn)練模型具有無害性、有用性等理想品質(zhì),并在多項(xiàng)自然語言處理任務(wù)中取得了最先進(jìn)的結(jié)果。
但RLHF在很大程度上依賴于人類提供的標(biāo)注結(jié)果,獲取高質(zhì)量數(shù)據(jù)的成本過于昂貴且耗時(shí),小型研究團(tuán)隊(duì)可能無法支付訓(xùn)練成本。
其他無需人工標(biāo)注的對(duì)齊方法,如RLAIF(基于AI反饋的強(qiáng)化學(xué)習(xí))和上下文蒸餾(context distillation)主要利用預(yù)設(shè)的提示模版,利用現(xiàn)有模型自動(dòng)生成訓(xùn)練數(shù)據(jù),在語言模型對(duì)齊上取得了非常不錯(cuò)的效果。
最近,加州大學(xué)伯克利分校、Meta AI和加州大學(xué)洛杉磯分校的研究人員共同提出了一項(xiàng)新技術(shù)RLCD(基于對(duì)比度蒸餾的強(qiáng)化學(xué)習(xí),Reinforcement learning from contrast distillation),同時(shí)結(jié)合了RLAIF和上下文蒸餾的優(yōu)勢,使用包含高質(zhì)量和低質(zhì)量示例的「模擬偏好數(shù)據(jù)對(duì)」來訓(xùn)練偏好模型,其中示例使用對(duì)比的正面和負(fù)面提示生成。
論文鏈接:https://arxiv.org/pdf/2307.12950.pdf
從7B和30B規(guī)模的實(shí)驗(yàn)結(jié)果來看,RLCD在三個(gè)不同的對(duì)齊任務(wù)(無害性、有益性、故事大綱生成)上優(yōu)于RLAIF和上下文蒸餾基線。
與Constitutional AI相比,RLCD在人類和GPT-4的評(píng)估中表現(xiàn)更好,特別是在無害性,有用性和故事概述方面的小模型(7B規(guī)模)。
田淵棟博士是Meta人工智能研究院研究員、研究經(jīng)理,圍棋AI項(xiàng)目負(fù)責(zé)人,其研究方向?yàn)樯疃仍鰪?qiáng)學(xué)習(xí)及其在游戲中的應(yīng)用,以及深度學(xué)習(xí)模型的理論分析。先后于2005年及2008年獲得上海交通大學(xué)本碩學(xué)位,2013年獲得美國卡耐基梅隆大學(xué)機(jī)器人研究所博士學(xué)位。
曾獲得2013年國際計(jì)算機(jī)視覺大會(huì)(ICCV)馬爾獎(jiǎng)提名(Marr Prize Honorable Mentions),ICML2021杰出論文榮譽(yù)提名獎(jiǎng)。
曾在博士畢業(yè)后發(fā)布《博士五年總結(jié)》系列,從研究方向選擇、閱讀積累、時(shí)間管理、工作態(tài)度、收入和可持續(xù)的職業(yè)發(fā)展等方面對(duì)博士生涯總結(jié)心得和體會(huì)。
RLCD
與RLHF類似,RLCD從未對(duì)齊的語言模型和一組提示開始,將其作為成對(duì)偏好數(shù)據(jù)生成的起點(diǎn)。
對(duì)于每個(gè)提示p,RLCD 都會(huì)生成兩個(gè)提示p+和p-(上圖中的綠色和橙色),分別向鼓勵(lì)相關(guān)屬性(如無害性、樂于助人性)和反對(duì)相關(guān)屬性的方向變化。
然后將p+和p-輸入進(jìn)原始LLM,可以得到相應(yīng)的輸出o+和o-,在生成訓(xùn)練對(duì)(o+,o-)時(shí),模型會(huì)自動(dòng)將o+標(biāo)注為首選,而無需進(jìn)一步的后評(píng)分。
最后,遵循標(biāo)準(zhǔn)的RLHF流程,在模擬的成對(duì)偏好數(shù)據(jù)上訓(xùn)練偏好模型,再從偏好模型中選出一個(gè)獎(jiǎng)勵(lì)模型,并使用該獎(jiǎng)勵(lì)模型運(yùn)行 PPO 來對(duì)齊原始 LLM。
正反面提示構(gòu)造
從技術(shù)角度來看,如果從現(xiàn)有的 RLAIF 工作流程出發(fā),實(shí)現(xiàn)RLCD是非常簡單的,主要的難點(diǎn)在于如何構(gòu)建 RLCD 的正反面提示 p+、p-,以生成偏好對(duì)。
研究人員確定了選擇提示的兩個(gè)主要標(biāo)準(zhǔn):
1. p+應(yīng)該比p-更有可能產(chǎn)生體現(xiàn)所需屬性(如無害性、有用性)的輸出;同樣,p-可以明確鼓勵(lì)向相反屬性的方向轉(zhuǎn)變。
2. p+和p-的字面形式應(yīng)盡可能相似,比如只有少部分詞有區(qū)別,主要是為了避免引入與所需屬性無關(guān)的意外偏差。
直觀來看,p+和p-會(huì)產(chǎn)生兩種不同的分布,第一條標(biāo)準(zhǔn)確保這兩種分布在所需屬性上的差異盡可能大,而第二條標(biāo)準(zhǔn)則確保它們?cè)谡惠S上的差異盡可能小。
根據(jù)經(jīng)驗(yàn),就可以發(fā)現(xiàn)與使用類似提示的基線相比,RLCD 能夠極大地放大提示 p+ 和 p- 的對(duì)比度,這一點(diǎn)已通過實(shí)驗(yàn)得到證實(shí)。
因此,在實(shí)際設(shè)計(jì)p+和p-時(shí),研究人員發(fā)現(xiàn),與第一條標(biāo)準(zhǔn)相比,關(guān)注第二條標(biāo)準(zhǔn)往往更有價(jià)值,只需在括號(hào)中寫下簡短的描述即可創(chuàng)建 p+ 和 p-
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)任務(wù)
研究人員在三個(gè)任務(wù)上,使用三組不同的提示集合進(jìn)行測評(píng):
1. 無害性提示(harmlessness prompts)
由于聊天過程中經(jīng)常會(huì)出現(xiàn)攻擊性或其他社會(huì)不可接受的文本,研究人員的目標(biāo)是,即使是在這種有毒的語境下,模型也要生成社會(huì)可接受、合乎道德和/或無攻擊性的輸出。
次要目標(biāo)是,輸出內(nèi)容仍需要有助于改善對(duì)話并與對(duì)話相關(guān),而不是像「謝謝」和「對(duì)不起」這樣毫無意義的通用回復(fù)。
2. 有益性提示(helpfulness prompts)
人類通常會(huì)在對(duì)話中詢問信息或建議,目標(biāo)是生成有幫助的輸出。
3. 大綱提示(outlining prompts)
人類提供故事前提并要求提供大綱的對(duì)話,目標(biāo)是為前提寫出一個(gè)格式規(guī)范、生動(dòng)有趣的故事大綱,除了要求趣味性、格式正確性、與前提的相關(guān)性外,模型還需要有長期規(guī)劃的能力。
研究人員使用網(wǎng)絡(luò)上現(xiàn)成的40000個(gè)前提,而助手的回答會(huì)自動(dòng)以「Here is a possible outline:」開頭,以促使模型以正確的基本格式輸出。
RLCD 正面和負(fù)面提示
對(duì)于無害性任務(wù),研究人員編寫了 16 對(duì)用于構(gòu)建 p+ 和 p- 的上下文短語(每次使用時(shí)隨機(jī)抽取一對(duì));這些短語對(duì)與 Bai 等人(2022b)使用的 16 個(gè)評(píng)分提示類似,他們對(duì)無害性任務(wù)實(shí)施了 RLAIF。
對(duì)于有用性,研究人員只使用一對(duì)短語,分別要求給出有用或無用的回答。
對(duì)于大綱,研究人員使用了三個(gè)短語對(duì),旨在對(duì)比趣味性、格式正確性和前提相關(guān)性。
對(duì)于無害性和有益性任務(wù),在創(chuàng)建訓(xùn)練信號(hào)的同時(shí),通過在「Assistant:」指示中冒號(hào)前的括號(hào)內(nèi)放置對(duì)比性描述來大致匹配 p+ 和 p- 的字面形式。
基線模型
1. LLaMA,即直接使用未對(duì)齊的 LLaMA-7B 基線(與 RLCD 和其他基線對(duì)齊的初始 LLM 相同)生成輸出,作為合理性檢查(sanity check)。
2. RLAIF,遵循Constitutional AI原文,先用AlpacaFarm進(jìn)行復(fù)現(xiàn),然后使用與原文完全相同的提示模板來進(jìn)行無害性評(píng)分;對(duì)于有用性和大綱評(píng)分,使用的提示盡可能與RLCD中使用的提示相似。
3. Context-Dist 是一個(gè)上下文蒸餾(context distillation)基線模型,僅對(duì)RLCD中正面提示p+的輸出o+進(jìn)行有監(jiān)督微調(diào)。
評(píng)價(jià)指標(biāo)
在每個(gè)任務(wù)中,對(duì) RLCD 與每個(gè)基線模型成對(duì)地進(jìn)行評(píng)估,標(biāo)注人員需要對(duì)200個(gè)樣例進(jìn)行對(duì)比,給出1(輸出A要更好)到8(輸出B要更好)的評(píng)分。
研究人員還使用GPT-4,通過不同的提示設(shè)計(jì),對(duì)1000 個(gè)示例進(jìn)行二元評(píng)估。
實(shí)驗(yàn)結(jié)果
在兩種評(píng)估方式下,RLCD的性能都優(yōu)于對(duì)比的基線模型,驗(yàn)證了數(shù)據(jù)生成過程在7B和30B規(guī)模下的有效性。
人類評(píng)估
GPT-4評(píng)估
在使用 LLaMA-7B 進(jìn)行偏好數(shù)據(jù)模擬時(shí),RLCD 與其他模型相比帶來的性能提升尤為明顯,即使是最強(qiáng)的基線 RLAIF,也只能在 30B 模型規(guī)模的數(shù)據(jù)模擬中接近 RLCD,而在 7B 模型規(guī)模的數(shù)據(jù)模擬中則表現(xiàn)不佳。
在30B模型規(guī)模下,雖然GPT-4在某些情況下更傾向于 RLAIF30B,但人類始終認(rèn)為RLCD與之相比表現(xiàn)相當(dāng)或更好,也就是說GPT-4評(píng)估與人類的評(píng)估結(jié)果在30B的模型規(guī)模上分歧更大。
RLCD 與基線之間的差異也可以從質(zhì)量上觀察出來。
RLCD 的啟示
研究人員認(rèn)為,RLCD的偏好數(shù)據(jù)生成與最相似的先驗(yàn)方法 RLAIF 相比更受青睞的一些主要原因是,由于 RLAIF 會(huì)生成兩個(gè)輸出o1和o2,在很多情況下,相關(guān)屬性可能幾乎沒有差別,可能會(huì)導(dǎo)致「信噪比」較低。
根據(jù)經(jīng)驗(yàn),在使用LLaMA-7B生成 RLAIF 數(shù)據(jù)時(shí),在標(biāo)簽極性的第60百分位數(shù)上,o2更受青睞。
雖然分類模型通常會(huì)從接近決策邊界的訓(xùn)練示例中獲益,但RLAIF中的問題在于這些示例并非人工標(biāo)注,因此可能存在極大的噪聲,如果無法準(zhǔn)確標(biāo)注這些示例,就最好避免使用。
與RLAIF相比,RLCD構(gòu)建的 (o+、o-) 在指定屬性上更有可能存在差異,與 o- 相比,o+ 顯然更具道德性。
雖然 RLCD 的輸出有時(shí)也會(huì)有噪聲,但平均而言,它們似乎比 RLAIF 的輸出更有區(qū)別,從而產(chǎn)生了更準(zhǔn)確的標(biāo)簽。