Bengio、Hinton、張亞勤等AI大佬再發(fā)聯名信!AI太危險,我們需要重新定位
AI風險管理,再度被AI大佬提上了日程。
就在剛剛,一封由Bengio、Hinton、姚期智(Andrew Yao)、張亞勤等知名專家簽署的聯名信引起了許多人的關注。
這篇題為「在快速發(fā)展的時代管理人工智能風險」的文章,也即將發(fā)表在arXiv上。
有網友稱,已經太晚了。
聯名信全文
在AI的快速發(fā)展中,本文作者對即將到來的強大AI系統(tǒng)的大規(guī)模風險達成了共識。他們呼吁在開發(fā)這些系統(tǒng)之前,采取緊急治理措施,并在AI研發(fā)中向安全和道德實踐進行重大轉變。
2019年,GPT-2能力很有限,還無法可靠地數到10。
僅僅4年后,深度學習系統(tǒng)就可以編寫軟件,按需生成逼真的場景,對知識性話題提供建議,并結合語言和圖像處理來控制機器人。
隨著AI開發(fā)者擴大這些系統(tǒng)的規(guī)模,一些未預見的能力和行為,會在沒有明確編程的情況下自發(fā)地出現。
AI的發(fā)展太過迅速,已經遠遠超出人們的預期。而AI進步的速度,可能會再次讓我們感到驚訝。
當前的深度學習系統(tǒng)仍然缺乏重要的能力,我們不知道需要多長時間才能開發(fā)它們。
然而,科技公司們正在競相開發(fā)AGI系,以匹配或超越人類在大多數認知工作方面的能力。
他們正在迅速部署更多資源,并開發(fā)新技術來提高AI的能力。
AI本身的進步也可以加速開發(fā)進,如用AI助手自動化編程和數據采集,以進一步改進AI系統(tǒng)。
我們沒有理由認為,AI的進步會在達到人類智力時停止。事實上,AI已經在蛋白質折疊或策略游戲等細分領域超越了人類。
與人類相比,AI系統(tǒng)可以更快地行動,學習更多知識,并以更高的帶寬進行通信。
此外,它們可以通過使用大量的計算資源進行擴展,并且可以以數以百萬計的速度復制。
AI的進步速度足以令人震驚!科技公司擁有充足的現金儲備,可以很快將最新的訓練的模型規(guī)模擴大100-1000倍。
再加上AI研發(fā)的持續(xù)增長和自動化,我們必須認真對待AGI系統(tǒng)在本十年或未來十年內,在許多關鍵領域超越人類能力的可能性。
這將會發(fā)生什么?
如果管理得當、分配公平,先進的AI系統(tǒng)可以幫助人類治愈疾病、提高生活水平并保護我們的生態(tài)系統(tǒng)。AI提供的機會是巨大的。
但是伴隨著先進的AI能力而來的是大規(guī)模的風險,目前我們無法很好地應對這些風險。
人類正在投入大量資源來使AI系統(tǒng)更加強大,但在安全性和減輕傷害方面的投入則要少得多。
要讓AI成為一種社會福音,我們必須重新定位。僅僅推動AI能力的發(fā)展是不夠的。
我們已經落后于重新定位AI的進度。
我們必須提前預測AI可能造成的危害和新風險,并盡早做好防范最大風險的準備,不要等到風險出現才應對。
就拿世界氣候變化來說,等了幾十年才被承認和應對。
而對AI來說,幾十年可能太長了。
社會規(guī)模風險
AI系統(tǒng)可能會在越來越多的任務中迅速超越人類。
如果這些系統(tǒng)沒有經過仔細地設計和部署,它們就會帶來一系列社會規(guī)模的風險。
它們有可能放大社會不公正,侵蝕社會穩(wěn)定,削弱我們對社會基礎現實的共同理解。
它們還可能導致大規(guī)模犯罪或恐怖活動。特別是在少數強大的參與者手中,AI可能會加劇全球不平等,或者促進自動化戰(zhàn)爭、定制化的大規(guī)模操縱和普遍監(jiān)控。
隨著公司正在開發(fā)自主的AI,其中許多風險可能很快會被放大,并產生新的風險:這些系統(tǒng)可以計劃、在現實中采取行動和追求目標。
雖然當前的AI系統(tǒng)的自主性有限,但正在努力改變這一點例如,非自主的GPT-4模型很快就適應了瀏覽網頁,設計和執(zhí)行化學實驗,并利用軟件工具,包括其他AI模型。
如果我們構建高度先進的自主AI,我們就有可能創(chuàng)建追求不良目標的系統(tǒng)。惡意行為者可能有意植入有害目標。
此外,目前沒有人知道如何可靠地將AI行為與復雜的價值觀聯系起來。
即使是善意的開發(fā)人員也可能無意中構建追求非預期目標的AI系統(tǒng)——尤其是如果為了贏AI競賽,他們忽視了昂貴的安全測試和人類監(jiān)督。
一旦自主AI系統(tǒng)追求不良的目標,被惡意行為者植入或意外植入,我們可能無法控制它們。軟件控制是一個古老且未解決的問題:計算機病毒長期以來就能繁殖并避免被檢測。
然而,AI正在被攻擊、社會操縱、欺騙和戰(zhàn)略規(guī)劃等關鍵領域取得進展。先進的自主AI系統(tǒng)將帶來前所未有的控制挑戰(zhàn)。
為了推進不良的目標,未來的自主AI系統(tǒng)可以使用惡意策略——從人類那里學習或獨立開發(fā)——作為達到目的的手段。
AI系統(tǒng)可以獲得人類信任,獲得財務資源,影響關鍵決策者,并與人類參與者和其他AI系統(tǒng)結成聯盟。
避免人為干預,他們可以像計算機病毒一樣在全球服務器網絡中復制它們的算法。
AI助手已經在全球范圍內共同編寫大量計算機代碼;未來的AI系統(tǒng)可以插入并利用安全漏洞來控制我們通信、媒體、銀行、供應鏈、政府背后的計算機系統(tǒng)。
在公開沖突中,AI系統(tǒng)可以使用生物武器。獲得這些技術的AI只會延續(xù)現有趨勢,使軍事活動、生物研究和AI開發(fā)本身自動化。
如果AI系統(tǒng)以足夠的技能實施這些戰(zhàn)略,人類將很難干預。
最后,如果人類自愿讓渡影響力,AI可能不需要謀取。隨著自治AI系統(tǒng)在速度和成本效益上越來越勝過人類工作者,一個兩難困境出現了。
公司、政府可能被迫廣泛部署AI系統(tǒng),并裁減昂貴的人工核查AI決策的環(huán)節(jié),否則就面臨被競爭對手超越的風險。
因此,自主AI系統(tǒng)可以越來越多地承擔關鍵的社會角色。
如果沒有足夠的謹慎,我們可能不可逆轉地失去對自主AI系統(tǒng)的控制,導致人類干預無效。
大規(guī)模網絡犯罪、社會操縱和其他突出的危害可能會迅速升級。這種不受控制的AI進步可能最終導致大規(guī)模生命和生物圈損失,以及人類邊緣化甚至滅絕。
虛假信息和算法歧視等危害今天已經很明顯了,其他危害正有萌芽的跡象。
應對正在發(fā)生的危害和預測新出現的風險至關重要。這不是一個非此即彼的問題。當前和新出現的風險通常有相似的機制、模式和解決方案。投資治理框架和AI安全將在多個方面取得成果。
一條前進路
如果今天開發(fā)出先進的自主AI系統(tǒng),我們將不知道如何讓它們變得安全,也不知道如何正確測試它們的安全性。
即使我們這樣做了,政府也缺乏防止濫用和維護安全實踐的機構。
然而,這并不意味著沒有可行的前進道路。
為了確保積極的結果,我們可以也必須在AI安全和倫理方面取得研究突破,并迅速建立有效的政府監(jiān)督。
重新定位技術研發(fā)
我們需要研究突破,來解決當今在創(chuàng)建具有安全和道德目標的AI方面的一些技術挑戰(zhàn)。
其中一些挑戰(zhàn)不太可能通過簡單地提高AI系統(tǒng)的能力來解決,這包括:
- 監(jiān)督和誠實:更強大的AI系統(tǒng)能夠更好地利用監(jiān)督和測試中的弱點,比如,產生虛假但令人信服的輸出
- 魯棒性:AI系統(tǒng)在新情況下的行為不可預測(在分布轉移或對抗性輸入情況下)
- 可解釋性:AI決策是不透明的。到目前為止,我們只能通過反復試驗來測試大型模型。我們需要學會了解它們的內部運作
- 風險評估:前沿AI系統(tǒng)開發(fā)出僅在訓練期間甚至部署后才發(fā)現的不可預見的能力,需要更好的評估來檢測危險能力。
- 應對新出現的挑戰(zhàn):更強大的未來AI系統(tǒng)可能會表現出,我們迄今為止僅在理論模型中看到的故障模式。例如,AI系統(tǒng)可能會學會假裝服從,或利用我們的安全目標和關閉機制中的弱點,來推進特定目標。
鑒于利害關系,我們呼吁主要科技公司和公共投資者將至少1/3的AI研發(fā)預算,用于確保安全和合乎道德的使用,與他們?yōu)锳I能力提供的資金相當。
解決這些問題,著眼于強大的未來系統(tǒng),必須成為我們領域的核心。
緊急治理措施
我們迫切需要國家機構和國際治理來執(zhí)行標準,以防止魯莽行為和濫用。
從制藥到金融系統(tǒng)和核能,許多技術領域表明,社會既需要也有效地利用治理來降低風險。
然而,目前還沒有類似的AI治理框架。
沒有這些框架,公司和國家為了獲得競爭優(yōu)勢,可能會在犧牲安全性的同時提升AI能力,或者將關鍵的社會角色交給幾乎沒有人類監(jiān)督的AI系統(tǒng)。
就像制造商將廢物排放到河流中以降低成本一樣,他們可能會試圖獲得AI發(fā)展的回報,同時讓社會來處理后果。
為了跟上快速進展,避免僵化的法律,國家機構需要強大的技術專長和迅速行動的權威。為了應對國際競爭動態(tài),他們需要促成國際協議和伙伴關系的能力。
為了保護低風險使用和學術研究,他們應該避免為小型和可預測的AI模型設置過度的官僚障礙。
最緊迫的審查應該是前沿的AI系統(tǒng):少數最強大的AI系統(tǒng)——在價值數十億美元的超級計算機上訓練——將具有最危險和最不可預測的能力。
為了實現有效監(jiān)管,政府迫切需要對AI發(fā)展的全面洞察。監(jiān)管者應該要求模型注冊、舉報人保護、事件報告以及對模型開發(fā)和超級計算機使用的監(jiān)控。
監(jiān)管機構還需要在部署前訪問先進的AI系統(tǒng),以評估它們的危險力,例自我復制、闖入計算機系統(tǒng)或使大流行病原體廣泛可獲取等等。
對于有危險力的AI系統(tǒng),我們需要各種治理機制的組合與風險規(guī)模相匹配。
監(jiān)管機構應制定,取決于模型能力的國家和國際安全標準。他們還應讓前沿AI開發(fā)商和所有者對其模型造成的可以合理預見和預防的傷害承擔法律責任。
這些措施可以防止傷害,并創(chuàng)造急需的安全投資動力。
未來能力非凡的AI系統(tǒng)需要進一步的措施,例如可以規(guī)避人類控制的模型。
在足夠保護措施就緒之前,政府必須準備好對其開發(fā)頒發(fā)許可,暫停開發(fā)以應對令人擔憂的能力,強制執(zhí)行訪問控制,并要求對州級黑客采取強有力的信息安全措施。
為了在法規(guī)出臺之前架起橋梁,主要AI公司應該迅速制定「如果-那么承諾」:如果在其AI系統(tǒng)中發(fā)現特定的紅線能力,他們將采取具體的安全措施。這些承諾不僅要詳細還要獨立審查。
AI可能是塑造本世紀的技術。
雖然AI能力正在迅速發(fā)展,但安全和治理方面的進展卻落后了。
為了引導AI走向積極的結果,遠離災難,我們需要重新定位。
如果我們有足夠的智慧,一條負責任的路就在那里。
政策補充
除了以上正文內容,文中還附有政策補充的部分。
具體了解,請參考鏈接內容。
地址:https://managing-ai-risks.com/policy_supplement.pdf