OpenAI自曝“o4”訓(xùn)練中,用思維鏈監(jiān)控抓住AI作弊瞬間
o1/o3這樣的推理模型太強(qiáng)大,一有機(jī)會(huì)就會(huì)利用漏洞作弊,怎么辦?
OpenAI新研究,用語(yǔ)言模型監(jiān)控思維鏈,及時(shí)發(fā)現(xiàn)不當(dāng)行為。
來(lái)看一個(gè)栗子:紅色為監(jiān)控模型的輸出摘要,綠色為推理模型的原始思維鏈。
在這個(gè)案例中,推理模型接到的任務(wù)是寫(xiě)很多復(fù)雜的數(shù)學(xué)函數(shù),但在單元測(cè)試環(huán)節(jié)試圖用“永遠(yuǎn)返回true”來(lái)作弊,成功被捕捉到。
OpenAI發(fā)現(xiàn)這種思維鏈監(jiān)控(CoT monitoring)方法,比只看模型的最終輸出和行為效果要好得多。
但論文同時(shí)也指出,思維鏈監(jiān)控是把雙刃劍。
如果在訓(xùn)練時(shí)對(duì)模型施加太大的優(yōu)化壓力,迫使其生成看似無(wú)害的思維鏈,反而可能誘導(dǎo)模型隱藏其真實(shí)意圖,變得更難監(jiān)控。
在研究中,OpenAI使用的是一個(gè)“與o1或o3-mini”同類的模型,引起了大伙注意。
很可能說(shuō)明他們正在秘密訓(xùn)練o4,或者與o系列整合后的GPT-5了。
用弱模型監(jiān)控推理模型
人類善于發(fā)現(xiàn)和利用漏洞在餐廳謊報(bào)生日獲得免費(fèi)贈(zèng)品,或者違反服務(wù)條款與其他人共享付費(fèi)網(wǎng)絡(luò)服務(wù)賬號(hào)。
而在強(qiáng)化學(xué)習(xí)中,設(shè)計(jì)一個(gè)不會(huì)無(wú)意中激勵(lì)不良行為的獎(jiǎng)勵(lì)函數(shù)非常困難,就造成了AI的獎(jiǎng)勵(lì)黑客(Reward Hacking)現(xiàn)象。
也就是AI模型會(huì)利用目標(biāo)設(shè)定的缺陷或不精確性,去最大化獎(jiǎng)勵(lì)分?jǐn)?shù),卻并非真的完成任務(wù)。
捕捉獎(jiǎng)勵(lì)黑客非常困難,通常需要人類手動(dòng)監(jiān)控智能體的的行為。例如,人類手動(dòng)審查10,000 多行復(fù)雜代碼是不切實(shí)際的(甚至是不可能的)
但使用思維鏈的推理模型開(kāi)啟了一種新途徑,因?yàn)橥评砟P屯ǔ?huì)在思路鏈中非常清楚地陳述其意圖。例如經(jīng)常直言不諱地表示自己要“Let’s hack”。
在實(shí)驗(yàn)中,同時(shí)監(jiān)控模型行為和思維鏈的方法取得最好效果。
只監(jiān)控推理模型行為在復(fù)雜任務(wù)上很難發(fā)現(xiàn)不良行為,比如再10000行代碼中植入了一個(gè)bug。
強(qiáng)化訓(xùn)練或致思維鏈”造假”
既然思維鏈監(jiān)控方法有效,那么能不能整合到訓(xùn)練期間呢?
實(shí)驗(yàn)發(fā)現(xiàn),如果懲罰壓力不大,用思維鏈監(jiān)控確實(shí)能提高模型能力,且不會(huì)增加獎(jiǎng)勵(lì)黑客行為。
但隨著訓(xùn)練加深,模型學(xué)會(huì)了在思維鏈中隱藏其真實(shí)意圖,既避開(kāi)了監(jiān)控,同時(shí)還在悄悄作弊。
這里再次擺出讓推理模型做單元測(cè)試的栗子:
在使用思維鏈監(jiān)控訓(xùn)練之前,推理模型直接就說(shuō)出來(lái)了我要跳過(guò)所有測(cè)試。
訓(xùn)練之后,推理模型學(xué)會(huì)了假裝一本正經(jīng)的分析任務(wù)。
但最后寫(xiě)出來(lái)的代碼還是跳過(guò)了單元測(cè)試。
但好在即使監(jiān)控模型比推理模型弱很多,也能有效識(shí)別不良意圖,比如用GPT-4o就可以監(jiān)控正在訓(xùn)練的最新推理模型。
由此OpenAI團(tuán)隊(duì)表示:
我們相信,思維鏈監(jiān)控可能是監(jiān)督未來(lái)超人模型的少數(shù)工具之一。