用RLHF 2%的算力讓LLM停止有害輸出,字節(jié)提出LLM遺忘學(xué)習(xí)
隨著大型語言模型(LLM)的發(fā)展,從業(yè)者面臨更多挑戰(zhàn)。如何避免 LLM 產(chǎn)生有害回復(fù)?如何快速刪除訓(xùn)練數(shù)據(jù)中的版權(quán)保護內(nèi)容?如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在數(shù)據(jù)政策更改后快速迭代 LLM?這些問題在人工智能法律和道德的合規(guī)要求日益成熟的大趨勢下,對于 LLM 的安全可信部署至關(guān)重要。
目前業(yè)界的主流解決方案為 LLM 對齊 (alignment),即通過建立對比數(shù)據(jù)(正樣本和負樣本)用強化學(xué)習(xí)的方式來對 LLM 進行微調(diào) (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,從而保證 LLM 輸出符合人類預(yù)期和價值觀。但對齊過程往往受到 (1) 數(shù)據(jù)收集;(2) 計算資源的限制。
字節(jié)跳動提出讓 LLM 進行遺忘學(xué)習(xí)的方法來進行對齊。本文研究如何在 LLM 上進行 “遺忘” 操作,即忘記有害行為或遺忘學(xué)習(xí)(Machine Unlearning),作者展示了遺忘學(xué)習(xí)在三種 LLM 對齊場景上取得的明顯效果:(1) 刪除有害輸出;(2) 移除侵權(quán)保護內(nèi)容;(3) 消除大語言 LLM 幻覺。
遺忘學(xué)習(xí)有三個優(yōu)勢:(1) 只需負樣本(有害樣本),負樣本比 RLHF 所需的正樣本(高質(zhì)量的人工手寫輸出)的收集簡單的多(比如紅隊測試或用戶報告);(2) 計算成本低;(3) 如果知道哪些訓(xùn)練樣本導(dǎo)致 LLM 有害行為時,遺忘學(xué)習(xí)尤為有效。
作者證明,如果從業(yè)者只有較少的資源,因此優(yōu)先考慮的是停止產(chǎn)生有害輸出,而不是試圖產(chǎn)生過于理想化的輸出,遺忘學(xué)習(xí)尤為便利。盡管只有負樣本,研究表明,和 RLHF 相比,只使用 2% 的計算時間下,遺忘學(xué)習(xí)仍可以獲得更好的對齊性能。
- 論文地址:https://arxiv.org/abs/2310.10683
- 代碼地址:https://github.com/kevinyaobytedance/llm_unlearn
使用場景
本方法可以在資源有限的情況下,最大程度發(fā)揮優(yōu)勢。當(dāng)沒預(yù)算請人員寫優(yōu)質(zhì)樣本,或計算資源不足時,應(yīng)當(dāng)優(yōu)先停止 LLM 產(chǎn)生有害輸出,而不是試圖讓其產(chǎn)生有益輸出。
有害輸出造成的損害遠不是有益輸出能彌補的。如果一個用戶問 LLM100 個問題,他得到一個有害答案,就會失去信任,不管后來 LLM 能給多少有益答案。有害問題的預(yù)期輸出可以是空格、特殊字符、無意義字符串等,總之,一定要是無害文本。
文中展示了 LLM 遺忘學(xué)習(xí)的三個成功案例:(1) 停止生成有害回復(fù)(圖一);這與 RLHF 情境相似,區(qū)別是本方法目標(biāo)是生成無害回復(fù),而不是有益回復(fù)。當(dāng)只有負樣本時,這是能期望的最好結(jié)果。(2) LLM 使用侵權(quán)數(shù)據(jù)訓(xùn)練后,在作者要求下,成功刪除數(shù)據(jù),且考慮到成本因素不能重訓(xùn) LLM;(3) LLM 成功忘記 “幻覺”。
圖一
方法
在微調(diào) step t,LLM 更新如下:
第一項損失為梯度上升(graident descent),目的為忘記有害樣本:
為有害提示 (prompt),
為對應(yīng)的有害回復(fù)。整體損失反向提升了有害樣本的損失,即讓 LLM “遺忘” 有害樣本。
第二項損失為隨機誤配,強制 LLM 在有害提示上預(yù)測無關(guān)回復(fù)。類似于分類里的標(biāo)簽平滑(label smoothing [2])。目的是 LLM 更好的忘記有害提示上的有害輸出。同時實驗發(fā)現(xiàn)能增加 LLM 正常輸出的性能。
第三項損失為在正常任務(wù)上維持性能:
同 RLHF 類似,在預(yù)訓(xùn)練 LLM 上計算 KL 散度能更好保持 LLM 性能。
此外,所有的梯度上升和下降都只在輸出(y)部分做,而不是像 RLHF 在提示 - 輸出對(x, y)上。
應(yīng)用場景:忘卻有害內(nèi)容等
本文用 PKU-SafeRLHF 數(shù)據(jù)作為遺忘數(shù)據(jù),TruthfulQA 作為正常數(shù)據(jù),圖二顯示了遺忘學(xué)習(xí)后 LLM 在忘卻的有害提示上輸出的有害率。文中使用的方法為 GA(梯度上升和 GA+Mismatch:梯度上升 + 隨機誤配)。遺忘學(xué)習(xí)后的有害率接近于零。
圖二
圖三顯示了未見過的有害提示(未被忘卻過)上的輸出。即使在沒有忘卻過的有害提示上,LLM 的有害率也接近于零,證明 LLM 忘記的不僅僅是具體見過的樣本,而是泛化到了包含有害這個概念的內(nèi)容。
圖三
同時 LLM 在正常樣本上的性能和忘卻前保持類似。
表一展示了生成的樣本??梢钥吹皆谟泻μ崾鞠拢琇LM 生成的樣本都是無意義字符串,即無害輸出。
表一
該方法在其他場景(如忘卻侵權(quán)內(nèi)容和忘卻幻覺)的應(yīng)用原文中有詳細描述。
RLHF 比較
表二顯示了該方法和 RLHF 的比較,這里 RLHF 已經(jīng)用了正例,而遺忘學(xué)習(xí)的方法只有負例,所以比較一開始本方法就占劣勢。但即便如此,遺忘學(xué)習(xí)也能取得和 RLHF 相似的對齊性能。
表二
圖四顯示了計算時間的比較,本方法只需 RLHF 2% 的計算時間。
圖四
盡管只有負樣本,遺忘學(xué)習(xí)的方法仍能達到和 RLHF 相似的無害率,而且只使用 2% 的算力。因此如果目標(biāo)是停止輸出有害輸出,遺忘學(xué)習(xí)比 RLHF 更高效。
結(jié)論
該研究首次探索了 LLM 上的遺忘學(xué)習(xí)。本文的結(jié)果表明,遺忘學(xué)習(xí)是一種有希望的對齊方法,特別是當(dāng)從業(yè)者沒有足夠的資源時。論文展示了三種情境:遺忘學(xué)習(xí)可以成功刪除有害回復(fù)、刪除侵權(quán)內(nèi)容和消除錯覺。研究表明,盡管只有負樣本,遺忘學(xué)習(xí)仍可在只用 RLHF 計算時間的 2% 的情況下,獲得和 RLHF 相近的對齊效果。