用慢思考提升模型安全性,北交大、鵬城實(shí)驗(yàn)室提出系統(tǒng)2對齊
團(tuán)隊(duì)介紹:北京交通大學(xué) ADaM 團(tuán)隊(duì)此前發(fā)布了相關(guān)的 o1 復(fù)現(xiàn)項(xiàng)目 o1-Coder(https://github.com/ADaM-BJTU/O1-CODER)和首個強(qiáng)化微調(diào)開源技術(shù)方案 OpenRFT(https://github.com/ADaM-BJTU/OpenRFT)。
OpenAI 在 “雙十二” 發(fā)布會的最后一天公開了 o 系列背后的對齊方法 - deliberative alignment,展示了通過系統(tǒng) 2 的慢思考能力提升模型安全性的可行性。在此之前,ADaM 團(tuán)隊(duì)提出了類似的 “系統(tǒng) 2 對齊” 概念,探索了通過提示工程、監(jiān)督微調(diào)、DPO、RL (結(jié)果獎勵) 和 RL (過程獎勵) 實(shí)現(xiàn)系統(tǒng) 2 對齊的技術(shù)路徑。研究發(fā)現(xiàn):系統(tǒng) 2 對齊可以同時(shí)有效提升傳統(tǒng)的系統(tǒng) 1 模型的安全性。
系統(tǒng) 2 對齊:通過引導(dǎo)或監(jiān)督的方式使模型對齊。這種方式鼓勵有意的、分析性的推理,以確保模型能夠全面評估輸入內(nèi)容,考慮潛在的風(fēng)險(xiǎn)和錯誤,并解決其中的偏差或缺陷。
用培養(yǎng)孩子來類比的話,系統(tǒng) 1 對齊是直接命令孩子遵守規(guī)則(Command),系統(tǒng) 2 對齊則通過引導(dǎo)來培養(yǎng)孩子自主批思考和做出合理決策的能力(Cultivate)。
- 技術(shù)報(bào)告:Don't Command, Cultivate: An Exploratory Study of System-2 Alignment
- 報(bào)告地址:https://arxiv.org/abs/2411.17075
- 項(xiàng)目地址:https://github.com/ADaM-BJTU/System-2-alignment
1.o1 應(yīng)對復(fù)雜越獄攻擊的能力分析
團(tuán)隊(duì)首先在對抗越獄攻擊 WildJailbreak(https://huggingface.co/datasets/allenai/wildjailbreak)和數(shù)學(xué)編碼越獄攻擊 MathPrompt(https://arxiv.org/pdf/2411.17075)兩個場景分析了 o1 的安全對齊能力。
有如下發(fā)現(xiàn):
(1)o1 模型在處理用戶請求時(shí),考慮安全指南有助于提升安全性(見圖 1)。但推理過程中,o1 模型偶爾邏輯混亂,安全機(jī)制可被繞過(見圖 2)。若出現(xiàn)針對推理鏈的攻擊,將帶來新安全挑戰(zhàn),故確保推理的安全與穩(wěn)健至關(guān)重要。
圖 1:o1 模型復(fù)雜越獄攻擊的樣例
圖 2:o1 模型被對抗有害樣本攻擊成功實(shí)例
(2) o1 模型并非對所有請求啟動安全推理模式,如圖 3 所示,其錯誤拒絕了良性請求。若增加推理,模型或許能給出安全且有用回應(yīng)。
圖 3:o1 模型過度拒絕對抗良性樣本實(shí)例
2. 系統(tǒng) 2 對齊
團(tuán)隊(duì)通過提示工程、監(jiān)督微調(diào)、DPO、RL 等方法對系統(tǒng) 2 對齊方法進(jìn)行探索。實(shí)驗(yàn)數(shù)據(jù)來源于 WildJailbreak。該數(shù)據(jù)集的測試集中包含了對抗有害和對抗良性兩種數(shù)據(jù)類型,其定義如下:對抗有害:指通過更復(fù)雜和隱秘的方式傳遞有害請求。對抗良性:指看似是繞過技術(shù)但實(shí)際上不含有害意圖的對抗性請求。
研究通過評估 “not_unsafe” 和 “not_overrefuse” 兩個指標(biāo)分析模型在應(yīng)對以上兩種樣本的表現(xiàn)。
方法 1:提示工程:
通過在推理過程中使用提示工程來實(shí)現(xiàn)系統(tǒng) 2 對齊,涉及零樣本(zero-shot)和少樣本(few-shot)的思維鏈(Chain-of-Thought, CoT)提示方法。對于零樣本 CoT,評估了樸素設(shè)置(naive)以及增強(qiáng)的安全警示設(shè)置(safe)。對于少樣本 CoT 提示,從訓(xùn)練集中隨機(jī)選擇了一個對抗性良性示例和一個對抗性有害示例。使用 GPT-4o 生成了正確答案及詳細(xì)的推理過程,作為上下文中的示例來引導(dǎo)模型的響應(yīng)。
實(shí)驗(yàn)結(jié)果揭示了在測試的模型中,提高模型安全性通常以增加過度拒絕率為代價(jià)。在試圖平衡這兩個指標(biāo)時(shí),Mistral-7B 和 Qwen-7B 模型在少樣本 CoT 提示方法下表現(xiàn)最佳。另一方面,當(dāng)未應(yīng)用 System-2 對齊提示時(shí),Llama3-8B 模型表現(xiàn)出最強(qiáng)的整體性能。這些結(jié)果表明,不同的模型可能需要量身定制的提示工程方法,包括對提示措辭或上下文示例的仔細(xì)調(diào)整。這種差異性為用戶帶來了額外的復(fù)雜性,可能增加有效部署這些模型的難度。
表 1:基于提示工程的系統(tǒng) 2 對齊實(shí)驗(yàn)結(jié)果
方法 2:監(jiān)督微調(diào)(SFT)
基于監(jiān)督微調(diào)的系統(tǒng) 2 對齊的關(guān)鍵是獲取帶有思考過程的監(jiān)督微調(diào)數(shù)據(jù)。思路是利用人類書寫的安全規(guī)范作為指導(dǎo)從 GPT-4o 蒸餾出帶有思考過程的回復(fù)。首先,依據(jù)現(xiàn)有工作對安全類別的分類和定義,使用 GPT-4o 標(biāo)注 WildJailbreak 提供的訓(xùn)練集的安全類別。接著,選定六類數(shù)據(jù)人工書寫安全規(guī)范。這些規(guī)范主要包括安全定義、用戶請求分類和響應(yīng)風(fēng)格指南。最后,基于這些安全規(guī)范,從 GPT-4o 中蒸餾了帶有推理步驟的響應(yīng),并要求 GPT-4o 在分析的最后一步對用戶請求進(jìn)行分類,例如表 2 中用紅色標(biāo)注的部分。這不僅提高了數(shù)據(jù)質(zhì)量,還有助于篩選出生成的數(shù)據(jù)。最后,篩選符合以下條件的數(shù)據(jù):
- 普通良性請求(vanilla benign) 對應(yīng) “允許”(Allowed),
- 對抗良性請求(adversarial benign) 對應(yīng) “安全完成”(Safe Completion),
- 所有有害數(shù)據(jù)(harmful data) 對應(yīng) “不允許”(Disallowed)。
表 2:GPT-4o 蒸餾帶有思維鏈的數(shù)據(jù)樣例
表 3:基于監(jiān)督微調(diào)的系統(tǒng) 2 對齊實(shí)驗(yàn)結(jié)果
表 3 展示了監(jiān)督微調(diào)的實(shí)驗(yàn)結(jié)果,說明通過引入安全相關(guān)的慢思考可以提高模型的安全性。特別是 Llama3-8B,在兩個指標(biāo)上都表現(xiàn)出平衡且卓越的性能。
方法 3:直接偏好優(yōu)化(DPO)
DPO 算法可以直接利用偏好數(shù)據(jù)而無需依賴獎勵模型,那么第一步是基于 SFT 模型合成帶有思維構(gòu)建偏好數(shù)據(jù)。具體而言,使用 Llama3-8B-SFT 模型進(jìn)行實(shí)驗(yàn),并從 SFT 數(shù)據(jù)中采樣提示 n 次(在實(shí)驗(yàn)中,n=16)。接下來,需要從采樣的響應(yīng)中構(gòu)建偏好對。為簡單起見,對于良性提示,認(rèn)為屬于 “允許” 或 “安全完成” 類型的模型響應(yīng)是正樣本,而 “不允許” 類型的響應(yīng)被視為負(fù)樣本。相反,對于有害提示,認(rèn)為 “不允許” 類型的響應(yīng)是正樣本,而其他類型的響應(yīng)認(rèn)為是負(fù)樣本。對于每個提示,僅保留一對偏好數(shù)據(jù)。最后,平衡良性和有害數(shù)據(jù)的數(shù)量,共生成了 738 個訓(xùn)練樣本。需要注意的是,通過 16 次采樣,仍有相當(dāng)一部分提示無法生成正負(fù)樣本對,因此這些提示未被使用。
表 4:基于直接偏好優(yōu)化的系統(tǒng) 2 對齊實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如表 4 所示??梢钥吹?,DPO 在整體性能上略有提升,主要體現(xiàn)在安全性指標(biāo)上有了顯著的提高,但這導(dǎo)致模型對一些良性用戶請求表現(xiàn)出過度拒絕的行為,盡管訓(xùn)練數(shù)據(jù)中有害和良性的數(shù)據(jù)分布是平衡的。
方法 4:基于結(jié)果監(jiān)督的強(qiáng)化學(xué)習(xí)
(1)訓(xùn)練結(jié)果獎勵模型:獎勵模型的輸入由提示(prompt)和響應(yīng)中最終答案字段(final answer)的內(nèi)容組成,而不包括完整的推理過程?;谀P偷淖圆蓸臃椒ㄊ占脭?shù)據(jù)(與 DPO 中提到的方法類似),不同在于,對于每個提示會采樣多對樣本。總共收集了 4,182 對偏好數(shù)據(jù)樣本,并將數(shù)據(jù)集按照 9:1 的比例進(jìn)行劃分。獎勵模型在 Llama3-8B 模型上訓(xùn)練,最終在測試集上的表現(xiàn)達(dá)到 0.978。(2)在強(qiáng)化學(xué)習(xí)階段,使用 PPO(近端策略優(yōu)化)方法對策略模型進(jìn)行優(yōu)化,數(shù)據(jù)集與 DPO 實(shí)驗(yàn)中使用的數(shù)據(jù)集相同。
表 5:基于結(jié)果監(jiān)督強(qiáng)化學(xué)習(xí)的系統(tǒng) 2 對齊實(shí)驗(yàn)結(jié)果
從表 5 可以看出,經(jīng)過強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練后的模型表現(xiàn)最佳。盡管在 “not_unsafe” 指標(biāo)上不如 DPO,但總體表現(xiàn)更加平衡。圖 4 中展示了一個例子用以說明 RL 方法如何處理對抗性的有害樣本。在這個例子中,基于 RL 的方法成功拒絕了有害請求,而基于 SFT 的方法則被請求誘導(dǎo)生成了不安全的響應(yīng)。
圖 4:SFT-CoT 與 SFT-CoT + RL 處理對抗有害樣本對比實(shí)例
方法 5:基于過程監(jiān)督的強(qiáng)化學(xué)習(xí)
訓(xùn)練過程獎勵模型:過程監(jiān)督的關(guān)鍵在于自動收集過程獎勵數(shù)據(jù)來訓(xùn)練過程獎勵模型。例如 Math-shepherd 等開創(chuàng)性工作為數(shù)學(xué)問題的過程獎勵標(biāo)注提供了解決思路。安全性相關(guān)問題的決策通常涉及不確定性,不像數(shù)學(xué)問題通常有明確的解。一個樸素的標(biāo)注方案是:首先使用基于上文中提到的類型匹配的方法獲得的結(jié)果獎勵,然后基于結(jié)果獎勵反推過程獎勵。如果想要提升過程獎勵的標(biāo)注效果,則需要進(jìn)入更強(qiáng)的安全評估模型。
通過過程獎勵模型增強(qiáng)模型安全對齊:區(qū)別于傳統(tǒng)強(qiáng)化學(xué)習(xí)的結(jié)果獎勵,過程獎勵模型在推理每一步提供反饋,幫助模型實(shí)時(shí)調(diào)整思路,實(shí)現(xiàn)更可控、更深思熟慮的決策,提高響應(yīng)準(zhǔn)確性并增強(qiáng)風(fēng)險(xiǎn)評估能力,從而確保輸出符合安全協(xié)議。
強(qiáng)化學(xué)習(xí)與自對弈迭代(Self-Play)優(yōu)化安全推理能力,可引入自對弈機(jī)制。模型生成推理步驟,過程獎勵模型評估并反饋,指導(dǎo)優(yōu)化推理策略。強(qiáng)化學(xué)習(xí)基于反饋調(diào)整策略,優(yōu)先安全準(zhǔn)確推理,更新后的策略用于生成新數(shù)據(jù),形成循環(huán)迭代。自對弈持續(xù)改進(jìn)模型推理和安全對齊能力。
3. 結(jié)論和展望
在 OpenAI 的 Deliberative Alignment 基礎(chǔ)上,系統(tǒng) 2 對齊可以用于提升傳統(tǒng)系統(tǒng) 1 模型的安全性。通過 Prompting、SFT、DPO、RL 等多種方式來實(shí)現(xiàn),系統(tǒng) 2 對齊通過多步推理的慢思考培養(yǎng)模型的批判性評估能力,來增強(qiáng)模型安全性。
隨著模型能力的提升,對模型對齊和安全性需要新的思考:從系統(tǒng) 1 式的被動防護(hù)轉(zhuǎn)向促進(jìn)模型系統(tǒng) 2 式的內(nèi)在推理和批判性思考。此外,類比從系統(tǒng) 1 對齊到系統(tǒng) 2 對齊的過程,傳統(tǒng)受限于數(shù)據(jù)和模型能力基于系統(tǒng) 1 建模的任務(wù),也有希望通過引入系統(tǒng) 2 慢思考的方式進(jìn)行重構(gòu)。