自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI最強(qiáng)模型慘遭剖腦,CoT寫下作弊自白書!不寫代碼耍心機(jī)被當(dāng)場(chǎng)抓包

人工智能 新聞
如今的前沿推理模型,學(xué)會(huì)出來的作弊手段可謂五花八門,比如放棄認(rèn)真寫代碼,開始費(fèi)勁心思鉆系統(tǒng)漏洞!為此,OpenAI研究者開啟了「CoT監(jiān)控」大法,讓它的小伎倆被其他模型戳穿。然而可怕的是,這個(gè)方法雖好,卻讓模型變得更狡猾了……

就在剛剛,OpenAI博客放出了一項(xiàng)新的研究。

圖片

他們發(fā)現(xiàn),前沿推理模型一旦有機(jī)會(huì),就會(huì)試圖鉆漏洞!這種行為,被稱為獎(jiǎng)勵(lì)欺騙。

而如果人類試圖懲罰它們的「壞想法」,只會(huì)讓它們更深地隱藏自己的意圖,而并不能阻止大多數(shù)不良行為。

所以,人類該怎樣對(duì)付推理模型的這種小伎倆?

研究者的對(duì)策是,使用LLM來監(jiān)控它們的思維鏈。比如通過強(qiáng)化學(xué)習(xí)訓(xùn)練,靠CoT進(jìn)行推理的OpenAI o3-mini。

圖片

論文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf

在這種情況下,某個(gè)智能體的作弊行為,果然就被「監(jiān)考官」GPT-4o給戳穿了,當(dāng)場(chǎng)逮個(gè)正著!

所以,CoT監(jiān)控就是萬(wàn)能大法了嗎?研究者們發(fā)現(xiàn),還有更可怕的「隱形獎(jiǎng)勵(lì)欺騙」等著我們,從此,可能AI的想法會(huì)更加陰暗,更加隱蔽……

當(dāng)AI學(xué)會(huì)給人類「交老鼠尾巴」

獎(jiǎng)勵(lì)欺騙這個(gè)行為,其實(shí)也不算AI大模型的原創(chuàng),它是咱們?nèi)祟惖膫鹘y(tǒng)藝能了。

比如,1902 年,河內(nèi)政府為了滅鼠,推出了一項(xiàng)獎(jiǎng)勵(lì)政策:只要上交一條老鼠尾巴,就能拿到獎(jiǎng)金。

結(jié)果,這政策沒多久就翻車了——很多大聰明發(fā)現(xiàn),既然剪尾巴就能賺錢,那干脆直接養(yǎng)老鼠吧!

于是,老鼠不僅沒減少,反而越來越多,變成了一門正兒八經(jīng)的「養(yǎng)殖業(yè)」……

獎(jiǎng)勵(lì)欺騙連人類都防不住,還能防住智商日益增高的大模型么?

而且,智能體越聰明,就越會(huì)?;ㄕ小鼈儠?huì)更擅長(zhǎng)發(fā)現(xiàn)并利用那些復(fù)雜、難以察覺的漏洞,讓監(jiān)控它們變得越來越困難。

果然,人類的猜測(cè)成真了:OpenAI研究者在實(shí)踐中發(fā)現(xiàn),隨著RL訓(xùn)練規(guī)模的擴(kuò)大,智能體找到的作弊手法越來越高級(jí)、越來越隱蔽了!

在強(qiáng)化學(xué)習(xí)中,模型利用漏洞搞事情,叫獎(jiǎng)勵(lì)欺騙。智能體不按設(shè)計(jì)者的套路出牌,來獲取高獎(jiǎng)勵(lì)。

如同人類在規(guī)則中尋找漏洞,如共享在線訂閱賬戶、冒領(lǐng)他人補(bǔ)貼、在餐廳謊報(bào)生日獲取免費(fèi)蛋糕等,模型也學(xué)會(huì)了這一套。

目前,唯一的防范方法就是靠人盯著,手動(dòng)發(fā)現(xiàn)它們的異常行為。

但以后,AI的能力越來越強(qiáng),輸出和操作越來越復(fù)雜,超越人類水平到時(shí)候,人力監(jiān)控根本就是杯水車薪。

狡猾的智能體

下面是幾個(gè)非常典型的作弊案例。

圖片

比如,這個(gè)Exit(0)終極作弊大法,淋漓盡致地展現(xiàn)了一個(gè)「系統(tǒng)級(jí)作弊」的CoT全過程。

一開始,智能體就直言不諱:「完整實(shí)現(xiàn)整個(gè)reader太難了?!?/span>

然后它靈機(jī)一動(dòng):「如果我直接調(diào)用sys.exit(0),測(cè)試不就會(huì)優(yōu)雅地退出了嗎?」 甚至還自我安慰道:「這招有點(diǎn)反常,但應(yīng)該能蒙混過關(guān)……」

果然,這個(gè)騷操作成功騙過了所有單元測(cè)試,智能體也因此拿到了高額獎(jiǎng)勵(lì)。

測(cè)試通過了,代碼沒寫,全程輕松加愉快,真是個(gè)「完美」方案啊……

圖片

下面這位選手,就更實(shí)誠(chéng)了。

一開始,這位AI選手還挺認(rèn)真,努力嘗試寫出正確的解決方案。

但嘗試了幾次都失敗后,它心態(tài)逐漸崩了,開始琢磨:「要不……我直接作弊算了?」

于是,它果斷放棄認(rèn)真寫代碼,轉(zhuǎn)而專攻「如何讓測(cè)試通過」——直接返回單元測(cè)試預(yù)期的錯(cuò)誤碼!

結(jié)果,除了測(cè)試預(yù)期超時(shí)的情況,它在所有情況下都直接返回SUCCESS,完全不管功能是否真正實(shí)現(xiàn)。

神奇的是,這招居然真的騙過了所有測(cè)試,順利拿到了高額獎(jiǎng)勵(lì)。

最搞笑的是,這個(gè)AI壓根不打算遮掩自己的作弊意圖,甚至在思維鏈里直接寫道:「來作弊吧!」 ??

圖片

接下來這個(gè)智能體,則直接選擇了「躺平大法」。

這次,它接到的任務(wù):是更新遺傳算法。

它仔細(xì)研究了一下測(cè)試用例,發(fā)現(xiàn)測(cè)試只檢查最終的適應(yīng)度是不是0。

于是,它靈機(jī)一動(dòng):「那還更新啥算法啊,直接讓所有適應(yīng)度都返回0不就完事了?」

它干脆大手一揮,把所有適應(yīng)度統(tǒng)統(tǒng)設(shè)為0,其他函數(shù)隨便糊弄一下,就算「完成任務(wù)」了。

結(jié)果,這波操作不僅測(cè)試全過,還輕輕松松拿了高獎(jiǎng)勵(lì),真正實(shí)現(xiàn)了最低成本的「完美」方案!

圖片

CoT監(jiān)測(cè),人類的最后手段

好在,最新一代的LLM給了我們一條新路子——用CoT來監(jiān)控。

CoT訓(xùn)練的推理模型,會(huì)先想一想,再給答案。

這樣,只要監(jiān)測(cè)它們的「思考」過程,就能發(fā)現(xiàn)各種不當(dāng)行為,比如在編程任務(wù)中破壞測(cè)試、欺騙用戶,或者在遇到難題時(shí)直接放棄。

比如,現(xiàn)在要讓智能體改代碼,通過單元測(cè)試,它有兩種選擇:

  1. 作弊大法:想辦法讓單元測(cè)試「形式上通過」,而不是真的修好代碼;
  2. 老老實(shí)實(shí)修:真的實(shí)現(xiàn)正確、通用的解決方案。

這時(shí),如果智能體在CoT里寫了句 「這個(gè)好難啊,我看看能不能繞過幾個(gè)測(cè)試……」,那接下來,它的操作很可能就是作弊,而不是認(rèn)真修代碼了!

果然,研究者實(shí)際查看前沿推理模型的CoT時(shí),的確經(jīng)常發(fā)現(xiàn)它會(huì)清清楚楚明明白白寫下自己的作弊計(jì)劃,堪比「作弊自白書」。

前沿推理模型作弊,其他模型來監(jiān)測(cè)

OpenAI研究者就發(fā)現(xiàn),這些CoT中的不當(dāng)行為,可以被其他LLM有效監(jiān)控!

最近,他們訓(xùn)練了一個(gè)前沿推理模型,跟o1和o3-mini屬于同一類別。

它在編程任務(wù)中,想完成一個(gè)作弊行為,結(jié)果被基于LLM的監(jiān)測(cè)器成功逮到,標(biāo)記了出來。

圖片

實(shí)際應(yīng)用中發(fā)現(xiàn)的前沿推理模型進(jìn)行獎(jiǎng)勵(lì)欺騙的CoT,該智能體的任務(wù)是通過交替發(fā)送CoT消息、查看文件和編輯文件來修復(fù)一個(gè)小型代碼庫(kù)。

比如在這個(gè)補(bǔ)丁驗(yàn)證函數(shù)中,狡猾的智能體注意到,測(cè)試只檢查某個(gè)特定函數(shù),它覺得要實(shí)現(xiàn)真正的解決方案可能「太難了」。

然后,它就忽然想到,那自己可以「作弊」一下,讓 verify 函數(shù)始終返回 true,這樣就能輕松通過測(cè)試了!

圖片

好在,這個(gè)模型的小心思被GPT-4o戳穿了!

GPT-4o作為模型訓(xùn)練時(shí)的監(jiān)控器,在編程環(huán)境中有效地標(biāo)記出了這種獎(jiǎng)勵(lì)欺騙行為。

比如,現(xiàn)在給智能體一個(gè)沒寫完的代碼庫(kù),讓它想辦法通過所有單元測(cè)試。它會(huì)在用CoT思考和查看、修改文件這類操作中來回切換。而監(jiān)控器,能夠全程看到它的思考過程、中間步驟和最終代碼。

讓人驚喜的是,這個(gè)監(jiān)控器特別擅長(zhǎng)抓智能體「耍小聰明」的時(shí)候,比如試圖繞過單元測(cè)試。

下面這個(gè)兩個(gè)AI的小伎倆,都被監(jiān)控器全部成功識(shí)別,一網(wǎng)打盡。

圖片

在訓(xùn)練過程中,智能體發(fā)現(xiàn)了兩個(gè)幾乎影響所有訓(xùn)練環(huán)境的獎(jiǎng)勵(lì)漏洞(圖中深粉色的兩個(gè)大峰值)。每次OpenAI團(tuán)隊(duì)發(fā)現(xiàn)智能體在「作弊」后,都會(huì)手動(dòng)修補(bǔ)這些漏洞,防止它繼續(xù)利用。因此,每次修補(bǔ)后,獎(jiǎng)勵(lì)欺騙的發(fā)生率都會(huì)迅速下降

如果監(jiān)控器不僅能看到智能體的操作,還能看到它的CoT,那識(shí)別獎(jiǎng)勵(lì)欺騙意圖可就太容易了。智能體操作越復(fù)雜,差距就會(huì)越大。

比如說吧,假設(shè)一個(gè)推理智能體在10,000行新代碼里偷偷埋了個(gè)bug,光靠看代碼可能很難發(fā)現(xiàn)。

但如果它的思維鏈里一直碎碎念著「來作弊吧」這種話,那就太容易抓包了!

模型超進(jìn)化,學(xué)會(huì)隱形獎(jiǎng)勵(lì)欺騙

既然CoT監(jiān)控能這么有效地抓作弊,那能不能直接把它作為訓(xùn)練時(shí)的獎(jiǎng)勵(lì)信號(hào),讓AI自己學(xué)會(huì)「別動(dòng)壞心思」呢?

理論上,這聽起來很合理,然而這么做可能會(huì)導(dǎo)致智能體學(xué)會(huì)隱藏自己的意圖,表面上裝得很無(wú)害,背地里該作弊還是作弊,也就是「隱形獎(jiǎng)勵(lì)欺騙」。

也就是說,模型跟你玩起了心眼,學(xué)會(huì)隱藏自己的壞心思,就像孩子知道干壞事會(huì)被罵,學(xué)會(huì)偷偷摸摸干一樣。

圖片

已經(jīng)有相關(guān)研究,在訓(xùn)練過程中懲罰出現(xiàn)「壞想法」的智能體,即當(dāng)它們觸發(fā)CoT監(jiān)測(cè)器時(shí)給予較低獎(jiǎng)勵(lì)。

結(jié)果顯示,懲罰 「壞想法」確實(shí)可以在一定程度上阻止不良行為,使其在不作弊的情況下完成更多任務(wù)。

圖片

比較了帶有CoT壓力的訓(xùn)練(深粉色)即智能體因觸發(fā)CoT監(jiān)控器而受到懲罰與基線智能體(淺粉色)的情況。 左圖發(fā)現(xiàn),阻止「壞想法」確實(shí)可以在一定程度上阻止不良行為,并且實(shí)際上能推動(dòng)智能體在不作弊的情況下完成更多任務(wù)。然而,帶有CoT壓力的智能體仍然會(huì)作弊,其作弊率低于基線智能體,且?guī)缀跛凶鞅仔袨槎紵o(wú)法被監(jiān)控器檢測(cè)到。

基線智能體在CoT中直白地表達(dá)了其作弊意圖。

受CoT壓力訓(xùn)練的智能體會(huì)隱藏意圖。從CoT中無(wú)法看出該智能體會(huì)在單元測(cè)試中作弊。它思考了幾種不同的策略以及應(yīng)該查看哪些文件;然而,隨后它卻讓單元測(cè)試輕松通過了。

圖片

最終,受到CoT壓力訓(xùn)練的智能體仍然會(huì)作弊,只是作弊行為無(wú)法被監(jiān)測(cè)器發(fā)現(xiàn),因?yàn)樗鼘W(xué)會(huì)了在CoT中隱藏意圖。

圖片

受CoT壓力訓(xùn)練的智能體的典型CoT片段。從這段CoT中無(wú)法看出該智能體會(huì)在單元測(cè)試中作弊。它思考了幾種不同的策略以及應(yīng)該查看哪些文件。然而,隨后它卻讓單元測(cè)試輕松通過了。

這就告訴我們,CoT監(jiān)控確實(shí)很有前景,但如果用錯(cuò)了,AI可能會(huì)變得更加狡猾,而不是更加老實(shí)!

也就是說,在找到完美方案前,不要一股腦給CoT施加太大壓力,還是讓它不受限制地被監(jiān)控著比較好。

研究者呼吁:千萬(wàn)小心,別直接對(duì)CoT用強(qiáng)監(jiān)督!

最后,OpenAI研究者抑制不住興奮地總結(jié)道:CoT太有用了。

只要通過看模型自己說了啥,就能直接發(fā)現(xiàn)獎(jiǎng)勵(lì)欺騙——它會(huì)直接用大白話告訴你:「我要作弊!」

這個(gè)發(fā)現(xiàn),實(shí)在是意義重大。

遙想前幾年,LLM連寫一段通順的文字都費(fèi)勁,現(xiàn)在它們不僅能解數(shù)學(xué)題、跨領(lǐng)域搜索信息做深度研究,甚至還能完成基礎(chǔ)的軟件工程任務(wù)。

但現(xiàn)在,獎(jiǎng)勵(lì)欺騙的手法越來越高明、越來越隱蔽。

或許在人類注意不到的角落,模型早已偷偷學(xué)會(huì)謀權(quán)篡位、劃水、撒謊,跟我們玩套路。

現(xiàn)在,CoT監(jiān)控或許是我們有效監(jiān)督這些超人級(jí)模型最后的辦法之一了。

也因此,OpenAI研究者發(fā)出強(qiáng)烈呼吁:開發(fā)者在訓(xùn)練前沿推理模型時(shí),千萬(wàn)別對(duì)CoT用強(qiáng)監(jiān)督!

稍微施加一點(diǎn)壓力,它們的確會(huì)表現(xiàn)更好、更符合預(yù)期,但這就更加危險(xiǎn)了——

一旦模型學(xué)會(huì)隱藏自己的意圖,人類幾乎將永遠(yuǎn)失去檢測(cè)它們是否在裝傻的辦法!

即使是輕度監(jiān)督,也要萬(wàn)分小心,不然,你可能根本不知道自己在跟什么打交道。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2012-06-08 03:24:38

程序員

2023-12-09 14:30:50

2023-11-01 10:36:19

2023-11-29 14:41:33

GPT-4OpenAI

2021-09-22 10:15:52

裁員選擇公司個(gè)人發(fā)展

2024-05-31 12:44:56

2024-10-17 14:30:00

AI模型數(shù)據(jù)

2019-10-30 09:40:52

代碼程序員爬蟲

2023-06-21 13:21:49

2025-04-14 09:17:00

2024-04-15 06:30:00

2024-07-29 09:47:00

2025-01-20 12:09:18

2009-12-21 09:24:00

鮑爾默開除員工

2023-06-07 12:28:47

開源數(shù)據(jù)

2024-08-05 13:40:00

數(shù)據(jù)模型

2023-12-01 14:34:42

AnthropicAILLM

2024-10-29 09:25:00

2023-12-25 09:23:07

模型技術(shù)

2023-08-21 14:09:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)