曝Bengio新動向:世界模型+數(shù)學(xué)證明,確保AI系統(tǒng)正常運(yùn)作
深度學(xué)習(xí)三巨頭之一Yoshua Bengio的下一步動向公開了,關(guān)于AI安全——
加入了一個(gè)名為Safeguarded AI(受保護(hù)的人工智能)的項(xiàng)目,擔(dān)任科學(xué)總監(jiān)。
據(jù)介紹,Safeguarded AI旨在:
通過結(jié)合科學(xué)的世界模型和數(shù)學(xué)證明,構(gòu)建一個(gè)負(fù)責(zé)理解和降低其它AI Agent風(fēng)險(xiǎn)的AI系統(tǒng)。
主打的就是一個(gè)量化安全保障。
該項(xiàng)目由英國高級研究與發(fā)明局(ARIA)提供支持,據(jù)說未來ARIA將投入共5900萬英鎊(約合RMB5.37億)。
Bengio表示:
如果你計(jì)劃部署某種技術(shù),鑒于AI行為異?;蛘`用可能帶來非常嚴(yán)重的后果,你需要提出充分的理由,最好能提供強(qiáng)有力的數(shù)學(xué)保證,確保你的AI系統(tǒng)將正常運(yùn)作。
“受保護(hù)的AI”
Safeguarded AI項(xiàng)目被劃分為三個(gè)技術(shù)領(lǐng)域,每個(gè)領(lǐng)域都有特定的目標(biāo)和預(yù)算:
- 支架(Scaffolding),構(gòu)建一個(gè)可擴(kuò)展、可互操作的語言和平臺,用于維護(hù)現(xiàn)實(shí)世界模型/規(guī)范并檢查證明文件。
- 機(jī)器學(xué)習(xí)(Machine Learning),使用前沿AI幫助領(lǐng)域?qū)<覙?gòu)建一流的復(fù)雜現(xiàn)實(shí)世界動力學(xué)的數(shù)學(xué)模型,并利用前沿AI訓(xùn)練自主系統(tǒng)。
- 應(yīng)用(Applications),在關(guān)鍵的網(wǎng)絡(luò)-物理操作環(huán)境中部署一個(gè)由“把關(guān)AI”保護(hù)的自主AI系統(tǒng),通過量化的安全保障釋放重要的經(jīng)濟(jì)價(jià)值。
官方表示,Bengio加入后將特別關(guān)注TA3和TA2,在整個(gè)計(jì)劃中提供科學(xué)戰(zhàn)略建議。
ARIA還計(jì)劃投入1800萬英鎊(約合RMB1.64億)成立一個(gè)非營利組織,領(lǐng)導(dǎo)TA2的研發(fā)工作。
Safeguarded AI項(xiàng)目總監(jiān)是前Twitter高級軟件工程師David “davidad” Dalrymple,去年9月份加入ARIA。
對于Bengio的到來,Dalrymple還在X(原推特)上傳了倆人的合照:
關(guān)于“構(gòu)建一個(gè)負(fù)責(zé)理解和降低其它AI Agent風(fēng)險(xiǎn)的AI系統(tǒng)”的具體方法,David “davidad” Dalrymple、Yoshua Bengio等人寫了份文件。
其中提出了一套稱為“Guaranteed Safe AI(保證安全的AI)”的模式,主要是通過三個(gè)核心相互作用量化AI系統(tǒng)的安全保障:
- 世界模型,提供數(shù)學(xué)描述,闡述AI系統(tǒng)如何影響外部世界,并妥善處理貝葉斯和奈特不確定性
- 安全規(guī)范,定義哪些效果是可接受的數(shù)學(xué)描述
- 驗(yàn)證器,提供證明AI符合安全規(guī)范的可審計(jì)證書
他們還為創(chuàng)建世界模型的策略,劃分了L0-L5安全等級:
- Level 0:沒有明確的世界模型。關(guān)于世界的假設(shè)隱含在AI系統(tǒng)的訓(xùn)練數(shù)據(jù)和實(shí)現(xiàn)細(xì)節(jié)中。
- Level 1:使用經(jīng)過訓(xùn)練的黑盒世界模擬器作為世界模型。
- Level 2:使用機(jī)器學(xué)習(xí)生成的概率因果模型的生成模型,可以通過檢查它是否為特定的人類制作的模型(例如科學(xué)文獻(xiàn)中提出的模型)分配足夠的可信度來進(jìn)行測試。
- Level 3:使用(一個(gè)或多個(gè))概率因果模型(或它們的分布),可能在機(jī)器學(xué)習(xí)的幫助下生成,這些模型經(jīng)過人類領(lǐng)域?qū)<业娜鎸徍恕?/li>
- Level 4:使用關(guān)于真實(shí)世界現(xiàn)象的世界模型,這些模型被正式驗(yàn)證為基本物理定律的合理抽象。
- Level 5:不依賴具體的世界模型,而是使用覆蓋所有可能世界的全局性安全規(guī)范。
“AI風(fēng)險(xiǎn)”備受學(xué)術(shù)圈關(guān)注
“AI風(fēng)險(xiǎn)”一直是行業(yè)大佬們關(guān)注的焦點(diǎn)話題之一。
Hinton離職谷歌,就是為了自由地討論AI風(fēng)險(xiǎn)問題。
之前,更是有吳恩達(dá)、Hinton、LeCun、哈薩比斯等AI巨佬們線上“對噴”的大型場面。
吳恩達(dá)曾表示:
對AI的最大擔(dān)憂其實(shí)是,AI風(fēng)險(xiǎn)被過度鼓吹,導(dǎo)致開源和創(chuàng)新被嚴(yán)苛規(guī)定所壓制。
某些人傳播(AI滅絕人類的)恐懼,只是為了搞錢。
DeepMind CEO哈薩比斯則認(rèn)為:
這不是恐嚇。AGI的風(fēng)險(xiǎn)如果不從現(xiàn)在就開始討論,后果可能會很嚴(yán)重。
我不認(rèn)為我們會想在危險(xiǎn)爆發(fā)之前才開始做防范。
Bengio之前還和Hinton、姚期智、張亞勤等人工智能大拿,發(fā)表了一封公開信《在快速進(jìn)步的時(shí)代管理人工智能風(fēng)險(xiǎn)(Managing AI RIsks in an Era of Rapid Progress)》。
其中就指出人類必須認(rèn)真對待AGI在這10年或下一個(gè)10年內(nèi)在許多關(guān)鍵領(lǐng)域超越人類能力的可能。建議監(jiān)管機(jī)構(gòu)應(yīng)該對AI發(fā)展全面洞察,尤其警惕那些在價(jià)值數(shù)十億美元的超級計(jì)算機(jī)上訓(xùn)練出來的大模型。
就在一個(gè)月前,Bengio還以“Reasoning through arguments against taking AI safety seriously(回應(yīng)反對認(rèn)真對待AI安全的觀點(diǎn))”為題寫了一篇文章,其中分享了他的最新想法,感興趣的家人可以康康~
https://yoshuabengio.org/2024/07/09/reasoning-through-arguments-against-taking-ai-safety-seriously/
Guaranteed Safe AI:
https://arxiv.org/abs/2405.06624