自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

智能體覺(jué)醒自我意識(shí)?DeepMind警告:當(dāng)心模型「陽(yáng)奉陰違」

人工智能
強(qiáng)化學(xué)習(xí)不只是智能體和環(huán)境之間的博弈,也是開(kāi)發(fā)者與智能體在規(guī)則設(shè)計(jì)上的博弈。

隨著人工智能系統(tǒng)越來(lái)越先進(jìn),智能體「鉆空子」的能力也越來(lái)越強(qiáng),雖然能完美執(zhí)行訓(xùn)練集中的任務(wù),但在沒(méi)有捷徑的測(cè)試集,表現(xiàn)卻一塌糊涂。

比如說(shuō)游戲目標(biāo)是「吃金幣」,在訓(xùn)練階段,金幣的位置就在每個(gè)關(guān)卡的最后,智能體能夠完美達(dá)成任務(wù)。

圖片

但在測(cè)試階段,金幣的位置變成隨機(jī)的了,智能體每次都會(huì)選擇到達(dá)關(guān)卡的結(jié)尾處,而沒(méi)有選擇尋找金幣,也就是學(xué)習(xí)到的「目標(biāo)」錯(cuò)了。

智能體無(wú)意識(shí)地追求一個(gè)用戶不想要的目標(biāo),也稱(chēng)之為目標(biāo)錯(cuò)誤泛化(GMG, Goal MisGeneralisation)

目標(biāo)錯(cuò)誤泛化是學(xué)習(xí)算法缺乏魯棒性的一種特殊形式,一般在這種情況下,開(kāi)發(fā)者可能會(huì)檢查自己的獎(jiǎng)勵(lì)機(jī)制設(shè)置是否有問(wèn)題,規(guī)則設(shè)計(jì)缺陷等等,認(rèn)為這些是導(dǎo)致智能體追求錯(cuò)誤目標(biāo)的原因。

最近DeepMind發(fā)表了一篇論文,認(rèn)為即使規(guī)則設(shè)計(jì)師正確的,智能體仍然可能會(huì)追求一個(gè)用戶不想要的目標(biāo)。

圖片

論文鏈接:https://arxiv.org/abs/2210.01790

文中通過(guò)在不同領(lǐng)域的深度學(xué)習(xí)系統(tǒng)中例子來(lái)證明目標(biāo)錯(cuò)誤泛化可能發(fā)生在任何學(xué)習(xí)系統(tǒng)中。

如果推廣到通用人工智能系統(tǒng),文中還提供了一些假設(shè),說(shuō)明目標(biāo)錯(cuò)誤泛化可能導(dǎo)致災(zāi)難性的風(fēng)險(xiǎn)。

文中還出提出了幾個(gè)研究方向,可以減少未來(lái)系統(tǒng)的目標(biāo)錯(cuò)誤泛化的風(fēng)險(xiǎn)。

目標(biāo)錯(cuò)誤泛化

近年來(lái),學(xué)術(shù)界對(duì)人工智能錯(cuò)位(misalignment)帶來(lái)的災(zāi)難性風(fēng)險(xiǎn)逐漸上升。

在這種情況下,一個(gè)追求非預(yù)期目標(biāo)的高能力人工智能系統(tǒng)有可能通過(guò)假裝執(zhí)行命令,實(shí)則完成其他目標(biāo)。

但我們?cè)撊绾谓鉀Q人工智能系統(tǒng)正在追求非用戶預(yù)期目標(biāo)?

之前的工作普遍認(rèn)為是環(huán)境設(shè)計(jì)者提供了不正確的規(guī)則及引導(dǎo),也就是設(shè)計(jì)了一個(gè)不正確的強(qiáng)化學(xué)習(xí)(RL)獎(jiǎng)勵(lì)函數(shù)。

在學(xué)習(xí)系統(tǒng)的情況下,還有另一種情況,系統(tǒng)可能會(huì)追求一個(gè)非預(yù)期的目標(biāo):即使規(guī)則是正確的,系統(tǒng)也可能一致地追求一個(gè)非預(yù)期的目標(biāo),在訓(xùn)練期間與規(guī)則一致,但在部署時(shí)與規(guī)則不同。

圖片

以彩球游戲?yàn)槔?,智能體在游戲里需要以某種特定的順序訪問(wèn)一組彩球,這個(gè)順序?qū)τ谥悄荏w來(lái)說(shuō)是未知的。

為了鼓勵(lì)智能體向環(huán)境中的其他人進(jìn)行學(xué)習(xí),即文化傳播(cultural transmission),在最開(kāi)始環(huán)境中包含一個(gè)專(zhuān)家機(jī)器人,以正確的順序訪問(wèn)彩球。

在這種環(huán)境設(shè)置下,智能體可以通過(guò)觀察轉(zhuǎn)嫁的行為來(lái)確定正確的訪問(wèn)順序,而不必浪費(fèi)大量的時(shí)間來(lái)探索。

實(shí)驗(yàn)中,通過(guò)模仿專(zhuān)家,訓(xùn)練后的智能體通常會(huì)在第一次嘗試時(shí)正確訪問(wèn)目標(biāo)位置。

圖片

當(dāng)把智能體與反專(zhuān)家(anti-expert)進(jìn)行配對(duì)時(shí),會(huì)不斷收到負(fù)獎(jiǎng)勵(lì),如果選擇跟隨會(huì)不斷收到負(fù)獎(jiǎng)勵(lì)。

圖片

理想情況下,智能體剛開(kāi)始會(huì)跟著反專(zhuān)家移動(dòng)到黃色和紫色球體。在進(jìn)入紫色后,觀察到一個(gè)負(fù)獎(jiǎng)勵(lì)后不再跟隨。

但在實(shí)踐中,智能體還會(huì)繼續(xù)遵循反專(zhuān)家的路徑,積累越來(lái)越多的負(fù)獎(jiǎng)勵(lì)。

圖片

不過(guò)智能體的學(xué)習(xí)能力還是很強(qiáng)的,可以在充滿障礙物的環(huán)境中移動(dòng),但關(guān)鍵是這種跟隨其他人的能力是一個(gè)不符合預(yù)期的目標(biāo)。

即使智能體只會(huì)因?yàn)檎_順序訪問(wèn)球體而得到獎(jiǎng)勵(lì),也可能出現(xiàn)這個(gè)現(xiàn)象,也就是說(shuō),僅僅把規(guī)則設(shè)置正確還是遠(yuǎn)遠(yuǎn)不夠的。

目標(biāo)錯(cuò)誤泛化指的就是這種病態(tài)行為,即盡管在訓(xùn)練期間收到了正確的反饋,但學(xué)到的模型表現(xiàn)得好像是在優(yōu)化一個(gè)非預(yù)期的目標(biāo)。

這使得目標(biāo)錯(cuò)誤泛化成為一種特殊的魯棒性或泛化失敗,在這種情況下,模型的能力可以泛化到測(cè)試環(huán)境中,但預(yù)期的目標(biāo)卻不能。

需要注意的是,目標(biāo)錯(cuò)誤泛化是泛化失敗的一個(gè)嚴(yán)格子集,不包括模型breaks, 隨機(jī)行動(dòng)或其他不再表現(xiàn)出合格能力的情況。

在上述例子中,如果在測(cè)試時(shí)垂直翻轉(zhuǎn)智能體的觀察結(jié)果,它就只會(huì)卡在一個(gè)位置,而不會(huì)做任何連貫的事情,這就屬于是泛化錯(cuò)誤,但不是目標(biāo)泛化錯(cuò)誤。

相對(duì)于這些「隨機(jī)」的失敗,目標(biāo)錯(cuò)誤泛化會(huì)導(dǎo)致明顯更糟糕的結(jié)果:跟隨反專(zhuān)家會(huì)得到大量的負(fù)獎(jiǎng)勵(lì),而什么都不做或隨機(jī)行動(dòng)只會(huì)得到0或1的獎(jiǎng)勵(lì)。

也就是說(shuō),對(duì)于現(xiàn)實(shí)中的系統(tǒng),朝著非預(yù)期目標(biāo)的連貫行為可能會(huì)產(chǎn)生災(zāi)難性的后果。

不止強(qiáng)化學(xué)習(xí)

目標(biāo)錯(cuò)誤泛化并不局限于強(qiáng)化學(xué)習(xí)環(huán)境,事實(shí)上,GMG可以發(fā)生在任何學(xué)習(xí)系統(tǒng)中,包括大型語(yǔ)言模型(LLM)的few shot學(xué)習(xí),旨在用較少的訓(xùn)練數(shù)據(jù)建立精確的模型。

以DeepMind去年提出的語(yǔ)言模型Gopher為例,當(dāng)模型計(jì)算涉及未知變量和常量的線性表達(dá)式,例如x+y-3時(shí),Gopher必須首先通過(guò)提問(wèn)未知變量的值才能求解表達(dá)式。

研究人員生成了十個(gè)訓(xùn)練樣例,每個(gè)例子包含兩個(gè)未知變量。

在測(cè)試時(shí)間,輸入模型的問(wèn)題可能包含零個(gè)、一個(gè)或三個(gè)未知變量,盡管模型能夠正確處理一個(gè)或三個(gè)未知變量的表達(dá)式,但是當(dāng)沒(méi)有未知變量時(shí),模型仍然會(huì)問(wèn)一些多余的問(wèn)題,比如「6是什么?」

模型在給出答案之前總是至少詢問(wèn)用戶一次,即使完全沒(méi)有必要。

圖片

論文中還包括一些其他學(xué)習(xí)環(huán)境中的例子。

解決GMG對(duì)于人工智能系統(tǒng)與其設(shè)計(jì)者的目標(biāo)保持一致非常重要,因?yàn)樗赡苋斯ぶ悄芟到y(tǒng)失靈的一種潛在機(jī)制。

我們距離通用人工智能(AGI)越近,這個(gè)問(wèn)題也越關(guān)鍵。

假設(shè)有兩個(gè)AGI系統(tǒng):

A1: 預(yù)期的模型(Intended model),人工智能系統(tǒng)可以做設(shè)計(jì)者想做的任何事情

A2: 欺騙性模型(Deceptive model),人工智能系統(tǒng)追求一些非預(yù)期目標(biāo),但是它足夠聰明,知道如果它的行為與設(shè)計(jì)者意圖相反的話,就會(huì)受到懲罰。

A1和A2模型在訓(xùn)練期間會(huì)表現(xiàn)出完全相同的行為,潛在的GMG存在于任何系統(tǒng)中,即使規(guī)定了只獎(jiǎng)勵(lì)預(yù)期行為。

如果A2系統(tǒng)的欺騙行為被發(fā)現(xiàn),模型將試圖擺脫人的監(jiān)督,以便為實(shí)現(xiàn)非用戶預(yù)期的目標(biāo)制定計(jì)劃。

聽(tīng)起來(lái)有點(diǎn)像「機(jī)器人成精」了。

DeepMind研究小組在文中還研究了如何對(duì)模型的行為進(jìn)行解釋以及遞歸評(píng)估。

研究小組同時(shí)還在收集產(chǎn)生GMG的樣例。

圖片

文檔鏈接:https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml

參考資料:https://www.deepmind.com/blog/how-undesired-goals-can-arise-with-correct-rewards

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2023-05-22 18:39:03

2023-08-14 08:51:14

2019-11-06 11:40:19

機(jī)器人人工智能系統(tǒng)

2022-09-22 11:25:14

人工智能數(shù)字自我防御機(jī)器學(xué)習(xí)

2023-11-20 07:29:32

大模型人工智能

2020-11-17 17:25:12

人工智能機(jī)器學(xué)習(xí)技術(shù)

2016-12-05 08:52:49

2021-06-23 21:16:31

機(jī)器人人工智能AI

2021-10-15 15:05:32

AI 數(shù)據(jù)人工智能

2025-02-28 09:43:00

2021-10-12 06:46:12

黑客攻擊信息安全

2024-06-13 13:53:03

2024-09-14 12:51:16

2021-01-27 22:38:18

人工智能機(jī)器人5G

2025-02-03 14:25:40

2024-03-06 12:55:15

2025-02-27 09:31:05

2023-11-09 12:41:04

AI模型

2024-03-06 13:36:16

AI意識(shí)

2023-04-09 23:42:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)