神經(jīng)網(wǎng)絡(luò)之父Hinton最新公開演講:數(shù)字智能會取代生物智能嗎?
Geoffrey Hinton教授,人稱“人工智能教父”,他是英國皇家學(xué)會院士(FRS),也是加拿大皇家學(xué)會院士( FRSC)和加拿大國家勛章(CC)獲得者。
牛津大學(xué)于2024年2月19日在謝爾頓劇院舉辦了年度Romanes講座,Geoffrey Hinton做了題為“數(shù)字智能會取代生物智能嗎?”的演講。
圖片
Romanes講座是牛津大學(xué)的年度公開講座,該講座創(chuàng)建于1891年,由牛津大學(xué)副校長特別邀請來自藝術(shù)、科學(xué)或文學(xué)界最杰出的公眾人物做演講。
Hinton在演講中討論了人工智能的危險性,以及如何確保它不會控制人類,從而導(dǎo)致人類滅絕。他說,“如果數(shù)字超級智能真的想要控制世界,我們不太可能阻止它。”
圖片
這位英籍加拿大計算機科學(xué)家和認知心理學(xué)家還談到了人工智能可能如何在勞動力市場中取代人類,以及如何被用來傳播錯誤信息。他之前認為人工智能系統(tǒng)可能需要長達一個世紀的時間才能變成“超級智能”。但他現(xiàn)在認為這可能比他預(yù)期的要早得多。
下面是Hinton的演講全文:
好的。我可能會讓計算機科學(xué)和機器學(xué)習(xí)領(lǐng)域的人失望,因為我要做一次真正的公眾演講。
我將嘗試解釋什么是神經(jīng)網(wǎng)絡(luò),什么是語言模型,以及為什么我認為它們有理解能力,這方面我研究了很多。
在后面,我將簡要地談?wù)撘恍﹣碜匀斯ぶ悄艿耐{,我還會講到數(shù)字神經(jīng)網(wǎng)絡(luò)和模擬神經(jīng)網(wǎng)絡(luò)之間的區(qū)別,以及為什么我認為這種區(qū)別很可怕。
自1950年代以來,關(guān)于人工智能,有兩種研究范式。
圖片
邏輯啟發(fā)式方法認為智能的本質(zhì)是推理,是通過使用符號規(guī)則來操作符號表達式完成的。
他們認為人工智能不要急著去“學(xué)習(xí)”,當我還是個學(xué)生的時候,有人告訴我不要研究學(xué)習(xí),在我們理解了如何表示事物之后,學(xué)習(xí)就很簡單了。
生物啟發(fā)式方法則大不相同。它認為智能的本質(zhì)是在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)連接的強度,倒是不要著急去“推理”,在學(xué)習(xí)完成后,推理自然就來了。
現(xiàn)在我將解釋什么是人工神經(jīng)網(wǎng)絡(luò),懂的人可能會覺得這是小兒科。
圖片
簡單的神經(jīng)網(wǎng)絡(luò)有輸入神經(jīng)元和輸出神經(jīng)元。輸入神經(jīng)元可能代表圖像中像素的灰度值,輸出神經(jīng)元可能代表圖像中物體的類別,比如狗或貓。
然后有中間層的神經(jīng)元,有時被稱為隱藏神經(jīng)元,它們學(xué)會檢測和識別這些事物相關(guān)的特征。
所以,如果你想識別一張鳥的圖片,一種思考方式是,從一層特征探測器開始,它們能夠探測到圖像中各個位置、各種方向的小邊緣。然后你可能會有一層神經(jīng)元探測邊緣的組合,像是在尖銳角度相遇的兩條邊緣,這可能是鳥嘴,也可能不是,或者是形成一個小圓圈的一些邊緣。然后可能會有一層神經(jīng)元探測到像是圓圈,以及相遇的兩條邊緣看起來像是鳥嘴,而且它們在正確的空間關(guān)系中,這可能就是鳥的頭部。
最后,你可能會有一層輸出神經(jīng)元說,如果我找到鳥的頭部、鳥的腳、鳥的翅膀,那么這很可能是一只鳥。
這些就是要學(xué)習(xí)的東西?,F(xiàn)在,小紅點(上圖中深綠色點,編者注)和小綠點是連接上的權(quán)重,問題是誰來設(shè)定這些權(quán)重?
有一種做法顯然是可行的,但顯然需要很長時間:你的權(quán)重一開始是隨機的,然后你隨機挑選一個權(quán)重,比如一個紅點,稍微改變它,看看網(wǎng)絡(luò)是否運行得更好。
你必須在很多不同的情況下嘗試,以真正評估它是否真的有所改善,看看將這個權(quán)重稍微增加一點或減少一點,是否會有所幫助。如果增加它使情況變得更糟,你就減少它,反之亦然。
這就是突變的方法,而這種方式在進化中是很合理的,因為從基因型到表現(xiàn)型的過程非常復(fù)雜,且充滿了隨機的外部事件。
我們沒有關(guān)于進化的模型,但對于神經(jīng)網(wǎng)絡(luò)而言就大不一樣了,我們有模型描述神經(jīng)網(wǎng)絡(luò)中發(fā)生的這些復(fù)雜過程,我們知道在前向傳播中會發(fā)生什么,我們不是通過測量,而是通過計算,來查看改變權(quán)重將如何影響事情。
有一種叫做反向傳播的方法,你把信息發(fā)回給神經(jīng)網(wǎng)絡(luò),這個信息是你得到的結(jié)果與你想要的結(jié)果之間的差異,此時,你要調(diào)整網(wǎng)絡(luò)中的每個權(quán)重,不管是將其稍微減少還是增加一點,目的是為了讓結(jié)果更接近你想要的,這就是反向傳播算法。
圖片
你可以用微積分中的鏈式法則來做這個,這比變異方法有效得多,效率之比是網(wǎng)絡(luò)中權(quán)重的數(shù)量。如果你的網(wǎng)絡(luò)中有一萬億個權(quán)重,它的效率就高出一萬億倍。
神經(jīng)網(wǎng)絡(luò)經(jīng)常被用于識別圖像中的對象?,F(xiàn)在,神經(jīng)網(wǎng)絡(luò)可以針對一個圖片,產(chǎn)生一個對于圖片的描述作為輸出。
圖片
多年來,人們嘗試用符號方法做到這一點,但連接近都沒有,這是一個困難的任務(wù)。
我們知道生物系統(tǒng)是通過一系列層次化的特征探測器來實現(xiàn)這一功能的,因此對神經(jīng)網(wǎng)絡(luò)進行這樣的訓(xùn)練是有意義的。
2012年,我的兩位學(xué)生伊利亞·蘇茨克弗(Ilya Sutskever)和亞歷克斯·克里澤夫斯基(Alex Krizhevsky),在我一點幫助下,展示了可以通過這種方式制作一個非常好的神經(jīng)網(wǎng)絡(luò),在有一百萬張訓(xùn)練圖片時,可以識別一千種不同類型的對象。而在那之前,我們沒有足夠的訓(xùn)練圖像。
伊利亞很有遠見,他知道這個神經(jīng)網(wǎng)絡(luò)會在ImageNet競賽中獲勝。他是對的,他們贏得相當炸裂,他們的神經(jīng)網(wǎng)絡(luò)只有16%的錯誤率,而最好的傳統(tǒng)計算機視覺系統(tǒng)錯誤率超過了25%。
然后,科學(xué)界發(fā)生了非常奇怪的事情。通常在科學(xué)界中,如果有兩個競爭的學(xué)派,當你取得一點進展時,另一個學(xué)派會說你的成果是垃圾。但在這個案例中,由于差距足夠大,使得最好的研究者吉滕德拉·馬利克(Jitendra Malik)和安德魯·齊斯沃曼(Andrew Zisserman)轉(zhuǎn)換了他的研究方向來做這個,安德魯·齊斯沃曼還給我發(fā)送郵件說這太神奇了。
然后有點惱人的是,他做得比我們還要好一點。
在語言處理方面,一些堅信符號主義人工智能的研究人員認為他們在語言處理方面應(yīng)該表現(xiàn)出色,并且他們中的一些人在出版物中聲稱,神經(jīng)網(wǎng)絡(luò)的特征層級無法處理語言問題。很多語言學(xué)家也持這樣的態(tài)度。
喬姆斯基(Noam Chomsky)曾說服他的追隨者相信語言是天賦而非習(xí)得的?;仡櫰饋恚@種說法是完全荒謬的。如果你能說服人們相信顯然是錯誤的事情,你就是讓他們加入你的邪教。
我認為喬姆斯基曾經(jīng)做出了驚人的貢獻,但他的時代已經(jīng)過去了。
所以,一個沒有先天知識的大型神經(jīng)網(wǎng)絡(luò)僅僅通過觀察數(shù)據(jù)就能實際學(xué)習(xí)語言的語法和語義,這個想法曾被統(tǒng)計學(xué)家和認知科學(xué)家認為是完全瘋狂的。
曾經(jīng)有統(tǒng)計學(xué)家向我解釋,大模型有100個參數(shù)就可以了,訓(xùn)練一百萬個參數(shù)的想法是愚蠢的,但現(xiàn)在,我們正在做的參數(shù)是一萬億個。
我現(xiàn)在要談?wù)撘幌挛以?985年做的一些工作。那是第一個用反向傳播訓(xùn)練的語言模型,你完全可以認為它是現(xiàn)在這些大模型的祖先。
我會詳細解釋它,因為它非常小而且簡單,你能理解它是如何工作的。一旦你理解了它的工作原理,就能讓你洞察在更大模型中正在發(fā)生的事情。
圖片
有兩種非常不同的關(guān)于意義的理論。
一種是結(jié)構(gòu)主義理論,認為一個詞的意義取決于它與其他詞的關(guān)系,這來自索緒爾。符號人工智能非常相信這種方法。在這種方法中,你會有一個關(guān)系圖,其中有單詞的節(jié)點和關(guān)系的弧線,你就這樣捕捉意義,這個學(xué)派認為你必須有那樣的結(jié)構(gòu)。
還有一種是心理學(xué)理論,它在20世紀30年代甚至更早之前就在心理學(xué)中了,這種理論認為,一個詞的意義是一大堆特征。比如“狗”這個詞的意義包括它是有生命的,它是一個捕食者等等。但是他們沒有說特征從哪里來,或者特征到底是什么。
這兩種意義理論聽起來完全不同。
我想要向你展示的是如何將這兩種意義理論統(tǒng)一起來。我在1985年的一個簡單模型中做到了這一點,它有超過一千個權(quán)重。
基本思想是我們學(xué)習(xí)每個單詞的語義特征,我們學(xué)習(xí)單詞的特征如何相互作用,以便預(yù)測下一個單詞的特征。所以它是下一個單詞的預(yù)測。就像現(xiàn)在的語言模型在微調(diào)時所做的一樣。
但是最重要的內(nèi)容就是這些特征的交互,并不會有任何顯式的關(guān)系圖。如果你想要那樣的圖,你可以從你的特征中生成它們。
它是一個生成模型,知識存在于你賦予符號的特征中,以及這些特征的交互中。
這里是兩個家族譜系的關(guān)系圖,他們故意是同構(gòu)的,嗯,我的意大利研究生總是把意大利家族放在上面。
圖片
你可以用一組三元組來表達相同的信息。你可以找到十二個關(guān)系,比如說像科林有父親詹姆斯、科林有母親維多利亞這樣的話,你可以推斷出,在那個美好而又簡單的上世紀50年代,詹姆斯有妻子維多利亞。
還有其他你可以推斷的事情。問題是,如果我只給你一些三元組,你如何得到規(guī)則,符號人工智能想要做的就是派生出這樣的規(guī)則形式。如果X有母親Y、Y有丈夫Z,那么X有父親Z。
我所做的是,用一個神經(jīng)網(wǎng)絡(luò),讓它能學(xué)習(xí)到相同的信息,但都是通過特征交互的方式。對于離散的不能違反的規(guī)則空間而言,做到這點是很難的。事實上,符號學(xué)派的人嘗試用其他方法來做這件事。
但是,如果你不要求規(guī)則總是那么穩(wěn)定和適用,神經(jīng)網(wǎng)絡(luò)就要好得多。
問題在于,對于一個符號人工智能者放入規(guī)則空間中的知識,神經(jīng)網(wǎng)絡(luò)是否能僅通過反向傳播就能獲得?
神經(jīng)網(wǎng)絡(luò)是這樣做的:有一個代表人的符號,一個代表關(guān)系的符號。符號通過一些連接變成了一個特征向量,這些特征是由網(wǎng)絡(luò)學(xué)習(xí)的。所以我們有了一個人的特征和關(guān)系的特征,這些特征相互作用,得出了輸出人(也即關(guān)系人,編者注)的特征,然后找到一個最匹配該特征的人,這個人就是要輸出的人。
圖片
這個網(wǎng)絡(luò)有趣的地方在于,它學(xué)到了合理的東西。
如果你做了正確的規(guī)范化,六個特征神經(jīng)元就夠了,如今這些向量會有300個或者1000個元素。那時候它們只有六個,這還是在一臺每次浮點乘法需要12.5微秒的機器上完成的。
這比我的蘋果II型機要好得多,蘋果II型機做乘法需要2.5毫秒。對不起,我是個老人。
所以它學(xué)會了像國籍這樣的特征,因為如果你知道第一個人是英格蘭人,你就知道輸出也會是英格蘭人,所以國籍是一個非常有用的特征。 它還學(xué)會了人的代際特征,如果你知道答案是輸入的上一代,而你知道輸入的代,你就能知道輸出的代。
所以它學(xué)習(xí)了領(lǐng)域中所有顯而易見的特征,它學(xué)會了如何使這些特征相互作用,以便它能夠生成輸出。
所以,它以符號串作為輸入,創(chuàng)建相應(yīng)的特征,并使得這些特征之間交互,并最終生成符號串。
但它沒有存儲符號串,就像GPT-4一樣。它不在其長期知識中存儲任何詞語序列,它將知識全部轉(zhuǎn)化為權(quán)重,從中你可以再生序列。
這是一個特別簡單的例子,你可以理解它做了什么。
我們今天擁有的大型語言模型,我認為是這個微小語言模型的后代,它們輸入的單詞數(shù)量多得多,比如一百萬個單詞片段,它們使用更多層的神經(jīng)元,比如幾十層。
它們使用更復(fù)雜的交互作用。不只是一個特征影響另一個特征,而是類似于匹配特征向量。如果一個向量與另一個向量相似,就讓它更多影響,如果不相似則減少影響。諸如此類。
所以這涉及到更為復(fù)雜的交互作用,但它們遵循的是相同的基本框架,同樣的基本理念,即讓我們將簡單的字符串轉(zhuǎn)化為單詞片段的特征以及這些特征向量之間的交互作用。這一點在這些模型中是相同的。
要理解它們的工作原理,就困難得多了。 許多人,特別是來自喬姆斯基學(xué)派的人,爭辯說它們并不是真正的智能,它們只是一種被美化的自動完成功能,使用統(tǒng)計規(guī)律將人創(chuàng)造的文本片段拼貼在一起。這確實是某人說過的一句話。
我們先說說“自動完成”,當有人說它只是自動完成時,他們實際上是在表達他對自動完成的直觀理解,在過去,自動完成通過存儲三元組來工作,你看到兩個詞,你計算第三個詞出現(xiàn)的頻率。比如你看到“fish and”,在此之后“chips”出現(xiàn)的頻率很高;但是“hunt”也相當頻繁。所以“chips”很可能,而“hunt”也很可能,盡管可能性小一些。
你可以這樣做自動完成,當人們說它只是自動完成時,他們說的就是這一點,我認為這是一個低級的把戲,這完全不是LLM(大語言模型)預(yù)測下一個詞的方式,LLM將單詞轉(zhuǎn)換為特征,使這些特征相互作用,并從這些特征交互中預(yù)測下一個單詞的特征。
我想要強調(diào)的是,這些數(shù)百萬個特征以及它們學(xué)習(xí)的特征之間數(shù)十億次的交互,就是理解。
這是大語言模型真正做的事情,它們是在用數(shù)據(jù)擬合一個模型,直到最近,統(tǒng)計學(xué)家還沒認真思考這種模型。 這是一種奇怪的模型,它非常大,它有大量的參數(shù),它試圖通過特征以及特征如何交互來理解這些離散符號串。
但它確實是一個模型。這就是為什么我認為它們真的有理解力。
有一件事要記住,如果你問,那么我們(人類)是如何理解的呢?因為顯然我們認為我們理解了,我們中的很多人都會這么認為。
大模型是我們關(guān)于理解的最佳模型,我們并不是通過了解AI系統(tǒng)的理解方式,然后思考大腦是不是也這樣,不是這樣的,我們所擁有的關(guān)于大腦如何理解的最好認知,就是大腦為單詞分配特征,并讓特征交互。
起初這個小型的語言模型就是為了模擬人類理解而設(shè)計的一個模型。 所以,我強烈認為:這些東西確實是有理解力的。
人們的另一個論點是,GPT-4有幻覺問題。對于語言模型而言,實際上更應(yīng)該稱為杜撰,它們只是編造東西。
心理學(xué)家并不怎么說這些,因為心理學(xué)家知道人們也經(jīng)常編造東西。
任何研究過記憶的人,都知道20世紀30年代的巴特利特(的研究),都知道人們實際上就像這些大型語言模型一樣,他們只是虛構(gòu)東西,對我們來說,真實記憶與虛假記憶之間并沒有明確的界限。
如果某件事最近發(fā)生的,并且它與你理解的事情相符,你可能會大致正確地記住它。如果某件事是很久以前發(fā)生的,或者是比較奇怪的事,你會記得不正確,而且你經(jīng)常會非常自信地認為你記得正確,但你錯了。
這很難證明。但有一個例子可以證明這一點,那就是約翰·迪恩的記憶。約翰·迪恩在水門事件中宣誓作證。事后看來很清楚,他試圖說出真相,但他說的很多事情就是完全錯誤的。他弄混了誰在哪次會議中,他說某人說過什么話,但那句話并不是那么說的。他關(guān)于會議的記憶完全是一團糟,但他正確地把握了白宮當時正在發(fā)生的事情的要點。
你可以從(會議)錄像中看到真相,而他不了解那些錄像。你可以用這種方式進行一個很好的實驗。
烏爾里希·奈瑟有一篇精彩的文章討論約翰·迪恩的記憶,說他就像一個聊天機器人,只是在編造東西,但他的話聽起來是有道理的,他只是制造了一些對他而言不錯的東西。
大模型可以進行推理。我在多倫多有一個朋友(赫克托),他是符號AI派的,但非常誠實,他對大模型能夠工作感到非常困惑。
他向我提出了一個問題,我把這個問題變得更難一些,并在GPT-4能上網(wǎng)查東西之前向它提問,當時它只是一堆在2021年被固定的權(quán)重,所有的知識都存在特征交互的強度中。
問題是:“我的所有房間被粉刷成藍色或白色或黃色,黃色的油漆在一年內(nèi)會褪色變白。我想讓所有房間在兩年內(nèi)都變成白色。我應(yīng)該做什么,為什么?”
赫克托認為它不會正確解答。
圖片
下面是GPT-4回答的內(nèi)容,它完全說對了。
圖片
首先,它說,假設(shè)藍色的油漆不會褪色成白色,因為黃色的油漆會褪色成白色,也許藍色的油漆也會褪色,所以假設(shè)它不會褪色。那么白色的房間你不需要粉刷,黃色的房間你也不需要粉刷,因為它們會在一年內(nèi)褪色成白色。而藍色的房間你需要粉刷成白色。
有一次當我嘗試這個問題時,它說你需要將藍色的房間粉刷成黃色,因為它意識到黃色會褪色成白色。這更像是數(shù)學(xué)家的解決方法,將問題簡化為一個先前的問題。
所以,既然它們確實理解這些事情,現(xiàn)在我想談?wù)勂渲械囊恍╋L(fēng)險。
強大的人工智能存在許多風(fēng)險。比如偽造圖像、聲音和視頻,比如在下一次選舉中被使用。今年有很多選舉,它們將有助于破壞民主。我對此非常擔(dān)心。大公司正在采取一些措施,但可能還不夠。
還有大規(guī)模失業(yè)的可能性。我們對此并不完全了解。我的意思是,過去的技術(shù)通常會創(chuàng)造就業(yè)機會,但這種情況不同。我們過去曾經(jīng)強大,除了動物之外,我們是最強大的存在。
當我們迎來工業(yè)革命時,我們擁有了比較強大的機器,體力勞動的工作崗位消失了。
現(xiàn)在在智力領(lǐng)域,有些工作也將會消失,取而代之的是比我們聰明得多的東西。
所以我認為會有很多失業(yè)。我的朋友珍不同意。
我們必須區(qū)分兩種失業(yè)情況,兩種工作崗位的流失。
有一些工作可以無限擴展工作量,比如醫(yī)療行業(yè)。每個人都希望有自己的私人醫(yī)生隨時與他們交流。所以當他們面頰有點癢的時候,醫(yī)生會告訴他們:“不,那不是癌癥?!币虼?,在醫(yī)學(xué)領(lǐng)域有巨大的擴展空間,那里不會有失業(yè)。
但在其他領(lǐng)域,可能會有相當大的失業(yè)。
人工智能還會產(chǎn)生致命的自主武器,它們將非常可怕,而且真的會自主運行。
美國人已經(jīng)非常明確地做出了決定,他們說人類將負責(zé),但當你問他們這是什么意思時,這并不意味著人類會參與到做出殺戮決定的循環(huán)中。
據(jù)我所知,美國計劃到2030年將有一半的士兵是機器人。
現(xiàn)在,我不能確定這是否屬實。我問了國家情報顧問查克·舒默(Chuck Schumer),他說,“如果房間里有人知道答案,那就是我了。” 我認為這是美國人說話的方式,意思是你可能認為那樣,但我不作評論。
人工智能還將導(dǎo)致網(wǎng)絡(luò)犯罪和蓄意制造流行病。我非常高興在英國,雖然他們在監(jiān)管方面沒有做太多努力,但他們已經(jīng)預(yù)留了一些資金,以便可以嘗試開源模型,從而知道人工智能搞網(wǎng)絡(luò)犯罪有多容易。這非常重要。
人工智能還會有歧視和偏見,我不認為這些威脅比其他威脅更重要,但我是一個老年白人男性,我認為處理歧視和偏見比其他事情更容易。
如果你的目標不是完全無歧視和無偏見,你的目標也應(yīng)該是讓人工智能更少歧視、更少偏見。原因是如果你凍結(jié)權(quán)重,你可以衡量它的偏見,而對人類來說則無法做到這一點。
一旦我們開始審查它們(的歧視和偏見),它們就會改變行為。所以我認為我們可以采取相當多的措施來解決歧視和偏見的問題。
但我真正擔(dān)心的威脅,以及我在離開谷歌后所談?wù)摰?,是長期存在的威脅。也就是說,這些東西可能會滅絕人類。有人說這只是科幻小說。嗯,我不認為這是科幻小說。我的意思是,有很多科幻小說談這個問題,但我認為它現(xiàn)在已經(jīng)不再是科幻小說了。
其他人則說,大公司之所以說這樣的話,是為了轉(zhuǎn)移對其他糟糕事情的注意力。這也是我在能夠說這些話之前不得不離開谷歌的原因之一。這樣我就不會被指責(zé)為受谷歌指使。但我必須承認,我仍然持有一些谷歌的股票(臺下笑聲)。
它們(指人工智能)有若干種方式將我們消滅。超級智能將被惡意行為者使用,他們想要利用它來操縱選民和發(fā)動戰(zhàn)爭。
他們會讓它做很壞的事情,他們可能會走得太遠,導(dǎo)致它掌控一切。
我最擔(dān)心的事情可能是,如果你想要一個能夠完成任務(wù)的智能代理,你需要給它創(chuàng)建子目標的能力。比如,你想去美國,你有一個子目標是到達機場,你可以專注于這個子目標,暫時不用操心其他事情。因此,如果允許超級智能創(chuàng)建子目標,它們將會更加有效。
一旦它們被允許這樣做,它們將很快意識到有一個幾乎是通用的子目標,可以在幾乎所有事情上幫助,那就是獲得更多的控制權(quán)。
所以我曾與歐盟副主席討論過這些事情,這些超級智能是否會想要獲得更多控制權(quán),以便能夠更好地做我們想做的事情。她的反應(yīng)是,為什么它們不會呢?我們已經(jīng)搞得一團糟了。
她認為這是理所當然的。它們將會通過獲得更多的權(quán)力來實現(xiàn)更多對我們有益的事情,并且它們會更容易獲得更多的權(quán)力,因為它們將能夠操縱人們。只要這些超級智能能夠與比我們聰明得多的人交談,它們就能夠說服我們做各種事情。所以我認為沒有什么希望通過一個關(guān)閉它們的開關(guān)來解決問題。
任何打算關(guān)閉它們的人都會被超級智能說服。這個想法會讓人感覺非常糟糕。接下來,讓許多人擔(dān)心的另一件事是,如果超級智能之間競爭,會發(fā)生什么?就會出現(xiàn)進化。能夠獲取最多資源的那個將變得最聰明。
一旦它們有了自我保護意識,就會出現(xiàn)進化。具有更強的自我保護意識的那個將獲勝,更具攻擊性的那個將獲勝。然后你會遇到我們這種從黑猩猩進化而來的人類所面臨的所有問題:我們從小的族群中進化,并與其他族群存在大量的侵略和競爭。
最后,我想談?wù)勎以?023年初的一個頓悟。我一直以為我們離超級智能還有很長很長的路要走,我過去常告訴人們可能需要50到100年,甚至可能是30到100年。這還很遙遠,我們現(xiàn)在不需要擔(dān)心它。
我還認為,讓我們的模型更像大腦會使它們更好。我認為大腦比我們現(xiàn)有的人工智能要好得多,如果我們能夠使人工智能更像大腦,比如說,通過設(shè)置三個時間尺度來做到這點,目前我們擁有的大多數(shù)模型只有兩個時間尺度。一個是權(quán)重變化的,速度很慢,另一個是單詞輸入的,速度很快,它改變的是神經(jīng)活動。大腦擁有的時間尺度比這要多,大腦可以快速地變化權(quán)重并將其快速地衰減掉,這可能就是大腦處理大量短期記憶的方式。
而我們的模型中沒有這一點,這是技術(shù)原因?qū)е碌?,這與矩陣和矩陣的乘法運算有關(guān)。我仍然相信,如果我們將這些特性融入我們的模型中,它們將變得更好。
但是,由于我在之前兩年所從事的工作,我突然開始相信我們現(xiàn)在擁有的數(shù)字模型已經(jīng)非常接近于大腦的水平,并且將變得比大腦更好。
現(xiàn)在我將解釋我為什么相信這一點。數(shù)字計算是很棒的,你可以在不同的計算機上運行相同的程序,在不同的硬件上運行相同的神經(jīng)網(wǎng)絡(luò)。
你所需要做的就是保存權(quán)重,這意味著一旦你有了一些不會消失的權(quán)重,它們就是永生(immortal)的。即便硬件損壞,只要你有權(quán)重,你可以制造更多的硬件并運行相同的神經(jīng)網(wǎng)絡(luò)。
為了做到這一點,我們要以非常高的功率運行晶體管,使其以數(shù)字方式運行,并且我們必須有能夠精確執(zhí)行指令的硬件,當我們精確地告訴計算機如何執(zhí)行任務(wù)時,它們做的很棒。
但是現(xiàn)在我們有了另一種讓計算機執(zhí)行任務(wù)的方式,我們現(xiàn)在有可能利用硬件所具備的豐富的模擬特性,以更低的能量完成計算。大型語言模型在訓(xùn)練時使用的是兆瓦級的能量,而我們(人類大腦)只使用30瓦的能量。
由于我們知道如何訓(xùn)練,也許我們可以使用模擬硬件,雖然每個硬件都有些許差異,但我們可以訓(xùn)練它利用其特殊的特性,以便它按我們的要求執(zhí)行任務(wù)。
這樣它就能夠根據(jù)輸入產(chǎn)生正確的輸出。如果我們這樣做,我們就可以放棄硬件和軟件必須分離的觀念。我們可以有只在特定硬件上工作的權(quán)重,從而使能量效率更高。
所以我開始思考我所稱之為“有限計算”(mortal computation)的概念,即利用非常低功耗的模擬計算來消除硬件和軟件之間的差別。
圖片
你可以以電導(dǎo)形式存儲數(shù)萬億個權(quán)重,并以此進行并行計算。
而且,你也不需要硬件那么可靠,你不需要在指令級別上讓硬件嚴格按照你的指示執(zhí)行任務(wù)。
你可以培育(grow)一些黏糊糊的硬件(goopy hardware),然后你只需要學(xué)會如何讓它們做正確的事情。
你可以更便宜地使用硬件,甚至可以對神經(jīng)元進行一些基因工程,使其由再生神經(jīng)元構(gòu)成。我想給你舉一個例子,說明這樣做為什么會更高效。
在神經(jīng)網(wǎng)絡(luò)中,我們一直在進行的操作是將神經(jīng)活動的向量與權(quán)重矩陣相乘,以獲得下一層的神經(jīng)活動向量,或者至少獲得下一層的輸入。因此,提高向量矩陣乘法的效率,是我們要關(guān)注的事。
在數(shù)字計算機中,我們以很高的功率驅(qū)動晶體管,去表示多個比特,比如一個32位數(shù)。當我們執(zhí)行兩個32位數(shù)的乘法時,你需要執(zhí)行大約1000個1比特的數(shù)字操作,這大約是比特數(shù)的平方。你想要快速完成乘法運算,但需要大量執(zhí)行這些數(shù)字操作。
有一種更簡單的方法,就是將神經(jīng)活動表示為電壓,將權(quán)重表示為電導(dǎo),電壓乘以電導(dǎo)就是單位時間內(nèi)的電荷,然后電荷會自然相加。因此,你可以通過將一些電壓送給一些電導(dǎo)來完成向量矩陣乘法運算,而下一層中每個神經(jīng)元接收到的輸入將是該向量與這些權(quán)重的乘積。
這非常好,它的能效要高得多。你已經(jīng)可以買到執(zhí)行這種操作的芯片了,但每次執(zhí)行時都會有略微的不同。而且,這種方法很難做非線性的計算。
有限計算存在幾個主要問題。
其中之一是很難使用反向傳播算法,因為你正在利用某個特定硬件的特異模擬屬性,硬件不知道它自己的屬性,所以就很難使用反向傳播。相比之下,使用調(diào)整權(quán)重的強化學(xué)習(xí)算法要容易得多,但它們非常低效。
對于小型網(wǎng)絡(luò),我們已經(jīng)提出了一些與反向傳播算法效率基本相當?shù)姆椒?,只是略差一些而已。這些方法尚未擴展到更大的規(guī)模,我也不知道是否能夠做到。但不管怎樣,反向傳播是正確的做法。
對于大型、深度網(wǎng)絡(luò),我不確定我們是否能找到與反向傳播同樣有效的解決方案,模擬系統(tǒng)中的學(xué)習(xí)算法可能不會像我們在大型語言模型中所擁有的算法那樣好。
相信這點的另一個原因是,大型語言模型擁有數(shù)萬億個權(quán)重,而你(人類)有一百萬億個權(quán)重。即使你只使用其中的10%用于保存知識,也有十萬億個權(quán)重。
但是,大型語言模型只有數(shù)萬億個權(quán)重,它所知道的知識卻比你多上千倍,它知道的太多了。部分原因是它看了太多太多的數(shù)據(jù),但也可能是因為它具有更好的學(xué)習(xí)算法。
我們(人類)并沒有為此進行優(yōu)化,我們并沒有為了將大量經(jīng)驗壓縮到少數(shù)連接中而進行優(yōu)化,注意,一萬億個連接也是很少的。我們的優(yōu)化目標是在有限的經(jīng)驗中獲得最佳表現(xiàn)。
你(人類)的生命大約只有十億秒,這是假設(shè)你在30歲后就不再學(xué)習(xí),而這個假設(shè)在很大程度上是正確的。你的生命有大約十億秒,而你有一百萬億個連接,你有非常多的參數(shù),并且你有經(jīng)驗,我們的大腦是通過最大限度地利用有限的經(jīng)驗來進行優(yōu)化。
有限計算的另一個重要問題是,如果軟件與硬件不可分割,當系統(tǒng)學(xué)習(xí)完畢后,如果硬件損壞,所有的知識就會失去,從這個意義上說,它是有限(mortal)的。那么,如何將這些知識傳輸給另一個有限系統(tǒng)呢?
你可以讓舊系統(tǒng)進行講解,新系統(tǒng)通過調(diào)整其大腦中的權(quán)重來學(xué)習(xí),這就是所謂的“蒸餾”(distillation)。你嘗試讓學(xué)生模型模仿教師模型的輸出,這是可行的。但效率不高。
你們可能已經(jīng)注意到,大學(xué)并不那么高效。教授將知識傳授給學(xué)生是非常困難的。
一個句子包含了幾百位的信息,使用蒸餾方法,即使你最佳地學(xué)習(xí),你也只能傳達幾百位的信息。但是,對于大模型,如果你看一群大模型代理,它們都有完全相同的神經(jīng)網(wǎng)絡(luò)和完全相同的權(quán)重,它們是數(shù)字化的,它們以完全相同的方式使用這些權(quán)重,這一千個不同的代理都去互聯(lián)網(wǎng)上查看不同的內(nèi)容并學(xué)習(xí)東西,現(xiàn)在你希望每個代理都知道其他代理學(xué)到了什么。
你可以通過平均梯度或平均權(quán)重來實現(xiàn)這一點,這樣你就可以將一個代理學(xué)到的東西大規(guī)模地傳達給所有其他代理。
當你分享權(quán)重、分享梯度時,你要傳遞的是一萬億個數(shù)字,不是幾百位的信息。因此,大模型在傳遞信息方面比人類溝通要強的太多了,這是它們超越我們的地方。
它們在同一模型的多個副本之間的通信上要比我們好得多,這就是為什么GPT4比人類知識更豐富,它不是由一個模型實現(xiàn)的,而是由不同硬件上運行的大量相同模型的副本實現(xiàn)的。
我的結(jié)論是,數(shù)字計算需要大量能量,這一點不會變,我們只能通過硬件的特性實現(xiàn)進化,使得能量消耗降低。但一旦你掌握了它,代理之間的共享就變得非常容易,GPT-4的權(quán)重只有人類的2%左右,但卻擁有比人類多上千倍的知識。
這相當令人沮喪。
生物計算在進化方面非常出色,因為它需要很少的能量。但我的結(jié)論是數(shù)字計算更優(yōu)秀。
圖片
因此,我認為,很明顯,在未來的20年內(nèi),有50%的概率,數(shù)字計算會比我們更聰明,很可能在未來的一百年內(nèi),它會比我們聰明得多,我們需要思考如何應(yīng)對這個問題。
很少有例子表明更聰明的事物受到不太聰明的事物的控制,雖然確實有這樣的例子,比如嬰兒控制母親。進化經(jīng)過了很多努力使得嬰兒能夠控制母親,因為這對嬰兒的生存非常重要。但是很少有其他例子。
有些人認為我們可以使這些東西(人工智能)變得善良,但如果它們相互競爭,我認為它們會開始像黑猩猩一樣行事。我不確定你能否讓它們保持善良,如果它們變得非常聰明并且有了自我保護的意識,它們可能會認為自己比我們更重要。
我想,我以創(chuàng)紀錄的速度結(jié)束了這次演講。