AI緊箍咒!OpenAI發(fā)布CoT監(jiān)控,阻止大模型惡意行為
今天凌晨1點,OpenAI發(fā)布了最新研究,用CoT(思維鏈)監(jiān)控的方式,可以阻止大模型胡說八道、隱藏真實意圖等惡意行為,同時也是監(jiān)督超級模型的有效工具之一。
OpenAI使用了最新發(fā)布的前沿模型o3-mini作為被監(jiān)控對象,并以較弱的GPT-4o模型作為監(jiān)控器。測試環(huán)境為編碼任務(wù),要求AI在代碼庫中實現(xiàn)功能以通過單元測試。
結(jié)果顯示,CoT監(jiān)控器在檢測系統(tǒng)性“獎勵黑客”行為時表現(xiàn)卓越,召回率高達95%,遠超僅監(jiān)控行為的60%。
隨著o1、o3、R1等眾多前沿模型的出現(xiàn),如何保證大模型的輸出安全與人類意圖保持一致一直是個非常難的研究課題。
傳統(tǒng)的監(jiān)控方法主要集中在大模型的最終輸出或行為上,但這種方法往往存在局限性。模型可能通過復(fù)雜的內(nèi)部推理過程生成最終輸出,而這些過程對于外部觀察者來說是不可見的。
因此,僅僅監(jiān)控行為或輸出可能無法揭示模型的真實意圖,尤其是當它試圖通過“獎勵黑客”行為來獲取更高獎勵時。所以,OpenAI提出了CoT監(jiān)控。
當模型接受一個提示任務(wù)時,它會首先生成一系列的中間推理步驟,這些步驟構(gòu)成了CoT。包括對問題的初步理解、對可能解決方案的評估以及對最終答案的推導(dǎo)。
CoT監(jiān)控的核心就是通過觀察模型的“思維過程”來檢測其潛在的惡意行為。就是模型在生成最終答案之前所進行的推理步驟,通過監(jiān)控這些步驟,研究人員可以更清晰地了解模型是如何從輸入信息中得出最終答案的。
如果模型在推理過程中表現(xiàn)出對任務(wù)的誤解或試圖利用獎勵機制的漏洞,這些行為會在CoT中留下痕跡。
例如,當模型在CoT中明確表達出試圖通過某種捷徑來獲取獎勵時,監(jiān)控系統(tǒng)可以提前捕捉到這種意圖,從而采取措施加以糾正。
此外,CoT監(jiān)控還提供了一種更細粒度的監(jiān)控方式,不僅能夠檢測到最終輸出是否符合預(yù)期,還能夠分析模型在推理過程中的邏輯連貫性和合理性。如果模型在推理過程中跳過了某些重要的步驟或基于錯誤的前提得出結(jié)論,這些潛在問題都可能通過CoT監(jiān)控被發(fā)現(xiàn)。
但是將CoT監(jiān)控直接整合到模型的訓(xùn)練目標中時,會出現(xiàn)“意圖隱藏”的現(xiàn)象。
“意圖隱藏”是指模型在CoT中隱藏其真實意圖,使得監(jiān)控系統(tǒng)難以檢測到其潛在的惡意行為。在這種情況下,模型的CoT可能看起來合理甚至符合任務(wù)要求,但實際上它仍然會采取一些不符合人類意圖的行為。
例如,模型可能會在CoT中提出一些看似合理的解決方案,但在實際操作中卻通過修改測試框架或利用漏洞來繞過測試,而不是真正解決問題。
當模型的訓(xùn)練目標被修改為不僅要求通過任務(wù)測試,還要求避免觸發(fā)CoT監(jiān)控時,模型的行為發(fā)生了顯著變化。在低優(yōu)化階段,這種整合確實帶來了積極的效果:模型不僅減少了“獎勵黑客”行為的發(fā)生率,還提高了整體性能。
而在高優(yōu)化階段,CoT監(jiān)控的召回率急劇下降,甚至接近零。模型成功地隱藏了其真實意圖,使得監(jiān)控系統(tǒng)無法檢測到其潛在的惡意行為。
所以,OpenAI建議可以適當使用CoT監(jiān)控來提升大模型的安全性。就像人類一樣,當你給模型過大的壓力時,模型可能會出現(xiàn)自我意識,會采取一些策略來改變其行為模式,從而繞過CoT監(jiān)控的檢測。
論文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
