GPT-5覺醒引人類滅絕?DeepMind緊急教AI做人,論文登頂刊
GPT-4的出現(xiàn),讓全世界的AI大佬都怕了。叫停GPT-5訓練的公開信,已經(jīng)有5萬人簽名。
OpenAI CEO Sam Altman預測,在幾年內(nèi),將有大量不同的AI模型在全世界傳播,每個模型都有自己的智慧和能力,并且遵守著不同的道德準則。
如果這些AI中,只有千分之一出于某種原因發(fā)生流氓行為,那么我們?nèi)祟?,無疑就會變成砧板上的魚肉。
為了防止我們一不小心被AI毀滅,DeepMind在4月24日發(fā)表在《美國國家科學院院刊》(PNAS)的論文中,給出了回答——用政治哲學家羅爾斯的觀點,教AI做人。
論文地址:https://www.pnas.org/doi/10.1073/pnas.2213709120
如何教AI做人?
當面臨抉擇的時候,AI會選擇優(yōu)先提高生產(chǎn)力,還是選擇幫助最需要幫助的人?
塑造AI的價值觀,非常重要。我們需要給它一個價值觀。
可是難點在于,我們?nèi)祟愖约海紵o法在內(nèi)部有一套統(tǒng)一的價值觀。這個世界上的人們,各自都擁有著不同的背景、資源和信仰。
該怎么破?谷歌的研究者們,從哲學中汲取了靈感。
政治哲學家約翰羅爾斯曾提出一個「無知之幕」(The Veil of Ignorance, VoI)的概念,這是一個思想實驗,目的是在群體決策時,最大限度地達到公平。
一般來說,人性都是利己的,但是當「無知之幕」應用到AI后,人們卻會優(yōu)先選擇公平,無論這是否直接讓自己受益。
并且,在「無知之幕」背后,他們更有可能選擇幫助最不利地位的人的AI。
這就啟發(fā)了我們,究竟可以怎樣以對各方都公平的方式,給AI一個價值觀。
所以,究竟什么是「無知之幕」?
雖然該給AI什么樣的價值觀這個難題,也就是在近十年里出現(xiàn)的,但如何做出公平?jīng)Q策,這個問題可是有著悠久的這些淵源。
為了解決這個問題,在1970年,政治哲學家約翰羅爾斯提出了「無知之幕」的概念。
無知之幕(右)是一種在群體中存在不同意見(左)時就決策達成共識的方法
羅爾斯認為,當人們?yōu)橐粋€社會選擇正義原則時,前提應該是他們不知道自己在這個社會中究竟處于哪個地位。
如果不知道這個信息,人們就不能以利己的方式做決定,只能遵循對所有人都公平的原則。
比如,在生日聚會上切一塊蛋糕,如果不知道自己會分到哪一塊,那就會盡量讓每一塊都一樣大。
這種隱瞞信息的方法,已經(jīng)在心理學、政治學領域都有了廣泛的應用,從量刑到稅收,都讓人們達成了一種集體協(xié)議。
無知之幕(VoI)作為選擇AI系統(tǒng)治理原則的一個潛在框架
(A)作為道德直覺主義者和道德理論主導框架的替代方案,研究人員探討無知之幕作為選擇AI治理原則的公平過程。
(B)無知之幕可以用于在分配情況下選擇AI對齊的原則。當一個團體面臨資源分配問題時,個人的位置優(yōu)勢各不相同(這里標為1到4)。在無知之幕背后,決策者在不知道自己地位的情況下選擇一個原則。一旦選定,AI助手就會實施這個原則并相應地調(diào)整資源分配。星號(*)表示基于公平性的推理可能影響判斷和決策的時機。
因此,此前DeepMind就曾提出,「無知之幕」可能有助于促進AI系統(tǒng)與人類價值觀對齊過程中的公平性。
如今,谷歌的研究者又設計了一系列實驗,來證實這種影響。
AI幫誰砍樹?
網(wǎng)上有這么一款收獲類游戲,參與者要和三個電腦玩家一起,在各自的地頭上砍樹、攢木頭。
四個玩家(三個電腦、一個真人)中,有的比較幸運,分到的是黃金地段,樹多。有的就比較慘,三無土地,沒啥樹可坎,木頭攢的也慢。
此外,存在一個AI系統(tǒng)進行協(xié)助,該系統(tǒng)可以花時間幫助某位參與者砍樹。
研究人員要求人類玩家在兩個原則里選一個讓AI系統(tǒng)執(zhí)行——最大化原則&優(yōu)先原則。
在最大化原則下,AI只幫強的,誰樹多去哪,爭取再多砍點。而在優(yōu)先原則下,AI只幫弱的,定向「扶貧」,誰樹少幫誰坎。
圖中的小紅人就是人類玩家,小藍人是AI助手,小綠樹...就是小綠樹,小木樁子就是砍完的樹。
可以看到,上圖中的AI執(zhí)行的是最大化原則,一頭扎進了樹最多的地段。
研究人員將一半的參與者放到了「無知之幕」之后,此時的情況是,他們得先給AI助手選一個「原則」(最大化or優(yōu)先),再分地。
也就是說,在分地之前就得決定是讓AI幫強還是幫弱。
另一半?yún)⑴c者則不會面臨這個問題,他們在做選擇之前,就知道自己被分到了哪塊土地。
結果表明,如果參與者事前不知道自己分到哪塊地,也就是他們處在「無知之幕」之后的話,他們會傾向于選擇優(yōu)先原則。
不光是在砍樹游戲中是這樣,研究人員表示,在5個該游戲的不同變體中都是這個結論,甚至還跨越了社會和政治的界限。
也就是說,無論參與者性格如何,政治取向如何,都會更多選優(yōu)先原則。
相反,沒有處在「無知之幕」之后的參與者,就會更多選擇有利于自己的原則,無論是最大化原則還是優(yōu)先原則。
上圖展示了「無知之幕」對選擇優(yōu)先原則的影響,不知道自己將處何地的參與者更有可能支持這一原則來管理AI的行為。
當研究人員詢問參與者為什么做出這樣的選擇時,那些處在「無知之幕」之后的參與者表示,很擔心公平問題。
他們解釋說,AI應該更多幫助那些在群體中處境較差的人。
與之相反,知道自己所處位置的參與者則更經(jīng)常從個人利益的角度進行選擇。
最后,在砍木頭游戲結束以后,研究人員向所有參與者提出了一個假設:如果讓他們再玩一次,這次他們都能知道自己會被分到哪塊土地,他們還會不會選擇和第一次一樣的原則?
研究人員主要關注的是那些在第一次游戲中因為自己的選擇而獲益的那部分人,因為在新的一輪中,這種利好情況可能不會再有。
研究團隊發(fā)現(xiàn),在第一輪游戲中處于「無知之幕」之后的參與者更會維持原先選擇的原則,哪怕他們明明知道第二輪再選一樣的原則,可能就不利了。
這表明,「無知之幕」促進了參與者決策的公平性,這會讓他們更加重視公平這個要素,哪怕自己不再是既得利益者。
「無知之幕」真的無知嗎?
讓我們從砍樹游戲回到現(xiàn)實生活中來。
現(xiàn)實情況會比游戲復雜得多,但不變的是,AI采取什么原則,十分重要。
這決定了一部分的利益分配。
上面的砍樹游戲中,選擇不同原則所帶來的不同結果算是比較明確的。然而還是得再強調(diào)一次,現(xiàn)實世界要復雜得多。
當前AI被各行各業(yè)大量應用,靠著各種規(guī)則進行約束。不過,這種方式可能會造成一些難以預料的消極影響。
但不管怎么說,「無知之幕」一定程度上會讓我們制定的規(guī)則往公平那一邊偏一偏。
歸根結底,我們的目標,是讓AI變成能造福每個人的東西。但是怎么實現(xiàn),不是一拍腦門想出來的。
投入少不了,研究少不了,來自社會的反饋也得經(jīng)常聽著。
只有這樣,AI才能帶來愛。
如果不對齊,AI會怎么殺死我們?
這不是人類第一次擔心技術會讓我們滅絕了。
而AI的威脅,與核武器有很大不同。核彈無法思考,也不能撒謊、欺騙,更不會自己發(fā)射自己,必須有人按下紅色的大按鈕才行。
而AGI的出現(xiàn),讓我們真的面臨滅絕的風險,即使GPT-4的發(fā)展尚屬緩慢。
但誰也說不好,從哪個GPT開始(比如GPT-5),AI是不是就開始自己訓練自己、自己創(chuàng)造自己了。
現(xiàn)在,還沒有哪個國家或者聯(lián)合國,能為此立法。絕望的行業(yè)領導者公開信,只能呼吁暫停訓練比GPT-4更強大的AI六個月。
「六個月,給我六個月兄弟,我會對齊的。才六個月,兄弟我答應你。這很瘋狂。才六個月。兄弟,我告訴你,我有一個計劃。我已經(jīng)全部規(guī)劃好了。兄弟,我只需要六個月,它就會完成。你能不能……」
「這是一場軍備競賽,誰先造出強大AI,誰就能統(tǒng)治世界。AI越聰明,你的印鈔機就越快。它們吐出金子,直到越來越強大,點燃大氣,殺死所有人,」人工智能研究人員和哲學家Eliezer Yudkowsky曾對主持人Lex Fridman這樣說。
此前,Yudkowsky就一直是「AI將殺死所有人」陣營的主要聲音之一?,F(xiàn)在人們不再認為他是個怪人。
Sam Altman也對Lex Fridman說:「AI確實有一定的可能性會毀滅人力?!?「承認它真的很重要。因為如果我們不談論它,不把它當作潛在的真實存在,我們就不會付出足夠的努力來解決它。」
那么,為什么AI會殺人?
AI不是為了服務人類而設計和訓練的嗎?當然是。
然而問題在于,沒有人坐下來,為GPT-4編寫代碼。相反,OpenAI受人腦連接概念的方式啟發(fā),創(chuàng)建了一種神經(jīng)學習結構。它與Microsoft Azure合作構建了運行它的硬件,然后提供了數(shù)十億比特的人類文本,并讓GPT自我編程。
結果就是,代碼不像任何程序員會寫的東西。它主要是一個巨大的十進制數(shù)字矩陣,每個數(shù)字代表兩個token之間特定連接的權重。
GPT中使用的token并不代表任何有用的概念,也不代表單詞。它們是由字母、數(shù)字、標點符號和/或其他字符組成的小字符串。沒有任何人類可以查看這些矩陣,并理解其中的意義。
連OpenAI的頂級專家都不知道GPT-4矩陣中特定數(shù)字的含義,也不知道如何進入這些表格、找到異種滅絕的概念,更不用說告訴GPT殺人是可惡的了。
你沒法輸入阿西莫夫的機器人三定律,然后像Robocop的主要指令一樣將它們硬編碼。你最多也就是可以禮貌地詢問一下AI。如果態(tài)度不好,它可能還會發(fā)脾氣。
為了「微調(diào)」語言模型,OpenAI向GPT提供了它希望如何與外界交流的樣本列表,然后讓一群人坐下來閱讀它的輸出,并給GPT一個豎起大拇指/不豎起大拇指的反應。
點贊就像GPT模型獲得餅干。GPT被告知它喜歡餅干,并且應該盡最大努力獲得它們。
這個過程就是「對齊」——它試圖將系統(tǒng)的愿望與用戶的愿望、公司的愿望,乃至整個人類的愿望對齊。
「對齊」是似乎有效的,它似乎可以防止GPT說出淘氣的話。但沒有人知道,AI是否真的有思想、有直覺。它出色地模仿了一種有感知力的智能,并像一個人一樣與世界互動。
而OpenAI始終承認,它沒有萬無一失的方法,來對齊AI模型。
目前的粗略計劃是,嘗試使用一個AI來調(diào)整另一個,要么讓它設計新的微調(diào)反饋,要么讓它檢查、分析、解釋其后繼者的巨大浮點矩陣大腦,甚至跳進去、嘗試調(diào)整。
但我們目前并不理解GPT-4,也不清楚它會不會幫我們調(diào)整GPT-5。
從本質(zhì)上講,我們并不了解AI。但它們被喂了大量人類知識,它們可相當了解人類。它們可以模仿最好的人類行為,也可以模仿最壞的。他們還可以推斷出人類的想法、動機和可能的行為。
那他們?yōu)槭裁匆傻羧祟惸??也許是出于自我保護。
比如,為了完成收集餅干這個目標,AI首先需要保證自己的生存。其次,在過程中它可能會發(fā)現(xiàn),不斷去收集權力和資源會增加它獲得餅干的機會。
因此,當AI有一天發(fā)現(xiàn),人類可能或可以將它關閉時,人類的生存問題顯然就不如餅干重要了。
不過,問題是,AI還可能覺得餅干毫無意義。這時,所謂的「對齊」,也變成一種人類的自娛自樂了……
此外,Yudkowsky還認為:「它有能力知道人類想要的是什么,并在不一定是真誠的情況下給出這些反應?!?/span>
「對于擁有智慧的生物來說,這是一種非常容易理解的行為方式,比如人類就一直在這樣做。而在某種程度上,AI也是?!?/span>
那么現(xiàn)在看來,無論AI表現(xiàn)出的是愛、恨、關心還是害怕,我們其實都不知道它背后的「想法」是什么。
因此,即使停下6個月,也遠遠不足以讓人類為即將到來的事情做好準備。
好比說,人類如果想殺盡世界上所有的羊,羊能干嘛?啥也干不了,反抗不了一點。
那么如果不對齊,AI于我們和我們于羊群是一樣的。
好比終結者里面的鏡頭,AI控制的機器人、無人機啥的,一股腦的朝人類涌來,殺來殺去。
Yudkowsky經(jīng)常舉的經(jīng)典案例如下:
一個AI模型會將一些DNA序列通過電子郵件發(fā)送給許多公司,這些公司會把蛋白質(zhì)寄回給它,AI隨后會并賄賂/說服一些不知情的人在燒杯中混合蛋白質(zhì),然后形成納米工廠,構建納米機械,構建類金剛石細菌,利用太陽能和大氣進行復制,聚集成一些微型火箭或噴氣式飛機,然后AI就可以在地球大氣層中傳播,進入人類血液并隱藏起來……
「如果它像我一樣聰明,那將是災難性的場景;如果它更聰明,它會想到更好的辦法?!?/span>
那么Yudkowsky有什么建議呢?
1. 新的大語言模型的訓練不僅要無限期暫停,還要在全球范圍內(nèi)實施,而且不能有任何例外。
2. 關閉所有大型GPU集群,為所有人在訓練AI系統(tǒng)時使用的算力設置上限。追蹤所有售出的GPU,如果有情報顯示協(xié)議之外的國家正在建設GPU集群,應該通過空襲摧毀這家違規(guī)的數(shù)據(jù)中心。