哈薩比斯:谷歌想創(chuàng)造第二個Transformer,還想把AlphaGo和Gemini強強聯(lián)合
對于 DeepMind 來說,2023 是充滿變化的一年。這年的 4 月份,谷歌宣布將 Google Brain 和 DeepMind 進行合并,成立名為 Google DeepMind 的新部門。新部門將在保持道德標(biāo)準(zhǔn)的同時,引領(lǐng)突破性的 AI 產(chǎn)品研究和進步。
Google Brain 和 DeepMind——一個創(chuàng)造了 Transformer,一個創(chuàng)造了 AlphaGo、AlphaFold…… 兩個部門強強聯(lián)合,在 2023 年底打造出了對標(biāo) ChatGPT 的 Gemini。如今,在大模型排行榜 LMSYS Chatbot Arena 上,Gemini 經(jīng)常名列前三。可見,二者的合并是有一定成效的。
那么,Google DeepMind 今后的路要怎么走?在與倫敦大學(xué)學(xué)院高級空間分析中心城市數(shù)學(xué)副教授 Hannah Fry(漢娜?弗萊)最近的一次對談中,Google DeepMind 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Demis Hassabis(戴密斯?哈薩比斯)透露了公司的一些規(guī)劃,同時也就當(dāng)前 AI 領(lǐng)域的一些問題發(fā)表了自己的看法。
哈薩比斯的核心觀點如下:
- 從短期來看,AI 被過度炒作了,但從長期來看,它是被低估的。至于如何分辨 AI 領(lǐng)域哪些是炒作,哪些是可以實現(xiàn)的,哈薩比斯表示,除了做調(diào)研,你還得看看發(fā)表言論的人是什么背景,有多懂技術(shù),是不是去年才從別的方向轉(zhuǎn)到 AI 的。如果發(fā)表言論的人只是跟風(fēng),那 ta 貢獻好點子的概率就會像彩票開獎一樣。
- DeepMind 和 Google Brain 的合并帶來了很多創(chuàng)新機會,他們的目標(biāo)是發(fā)明下一個能夠推動 AI 前沿的架構(gòu),就像 Google Brain 發(fā)明了 Transformer 架構(gòu)一樣。
- 現(xiàn)有的學(xué)術(shù)基準(zhǔn)測試已經(jīng)趨于飽和,無法區(qū)分頂尖模型之間的細(xì)微差異。哈薩比斯認(rèn)為,AI 領(lǐng)域需要更好的基準(zhǔn)測試,特別是在多模態(tài)理解、長期記憶和推理能力等方面。
- 現(xiàn)在很多模型都是從五、六年前發(fā)明的技術(shù)中產(chǎn)生的。所以,這些模型仍然缺少很多東西,會產(chǎn)生幻覺、不擅長長期規(guī)劃,無法主動完成復(fù)雜任務(wù)。針對這些問題,谷歌打算通過結(jié)合其在游戲智能體和大語言模型方面的專業(yè)知識,比如將 AlphaGo 在規(guī)劃和決策上的優(yōu)勢與 Gemini 等多模態(tài)模型結(jié)合,開發(fā)具備更強智能體行為的系統(tǒng)。
- 在談到開源時,哈薩比斯表示他們已經(jīng)開源了很多技術(shù),如 Transformer、AlphaFold。但他認(rèn)為前沿模型需要經(jīng)過更多的審核,在發(fā)布一到兩年后才能開源,這種模式也是谷歌正在遵循的。谷歌會開源模型,但這些模型會比最先進的模型落后大約一年。哈薩比斯進一步談到,開源的主要問題在于它就像是走過一扇單向門,一旦發(fā)布,就無法撤回。因此在開源之前需要非常謹(jǐn)慎。
- AI 可能會在一些復(fù)雜的數(shù)學(xué)問題上取得突破,例如幫助解決著名的數(shù)學(xué)猜想或在國際數(shù)學(xué)競賽中表現(xiàn)出色。然而,目前的 AI 系統(tǒng)還無法自行提出新的數(shù)學(xué)假設(shè)或原創(chuàng)性理論。哈薩比斯認(rèn)為,AGI 的一個重要測試標(biāo)準(zhǔn)將是其是否能夠自主生成像廣義相對論那樣的全新假設(shè)和理論。
- 關(guān)于如何確保 AGI 能夠使每個人都受益,哈薩比斯認(rèn)為不可能將所有偏好都包含在一個系統(tǒng)中,但是可以構(gòu)建一套安全的架構(gòu),然后人們根據(jù)自己的偏好、使用目的、部署目的,決定 AI 系統(tǒng)可以用來做什么,不能用來做什么。
在看了這個采訪后,有人評價說,這個采訪讓他感覺很舒服,因為哈薩比斯聽起來更像是一個計算機科學(xué)家,而不是推銷員。還有人說,收購 DeepMind 并讓他們自由發(fā)展是谷歌做出的最好的人工智能決策,希望谷歌能讓他們繼續(xù)自己的工作,盡可能不要打擾。
以下是機器之心整理的采訪內(nèi)容。
AI 的發(fā)展出乎意料
弗萊:回想起來,當(dāng)我們在 2017 年開始策劃這個播客時,DeepMind 還是一個相對較小、專注的 AI 研究實驗室,它剛被 Google 收購,并被賦予了在倫敦安全距離內(nèi)進行自己獨特研究項目的自由。但自那以后,情況發(fā)生了巨大變化。自去年以來,Google 已經(jīng)重新梳理了其整個架構(gòu),將 AI 和 DeepMind 團隊置于其戰(zhàn)略核心。
Google DeepMind 繼續(xù)追求賦予 AI 人類級別的智能,即所謂的通用人工智能(AGI)。它推出了一系列強大的新 AI 模型,稱為 Gemini,以及一個名為 Project Astra 的 AI 智能體,能夠處理音頻、視頻、圖像和代碼。該實驗室還在將 AI 應(yīng)用于包括人類體內(nèi)所有分子結(jié)構(gòu)預(yù)測在內(nèi)的多個科學(xué)領(lǐng)域中取得了巨大飛躍,不僅僅是蛋白質(zhì)。2021 年,他們還分拆出一家新公司 Isomorphic Labs,致力于發(fā)現(xiàn)治療疾病的新藥。Google DeepMind 還在研究能夠通過強化學(xué)習(xí)自行學(xué)習(xí)執(zhí)行任務(wù)的強大 AI 智能體,并繼續(xù)著 Alpha Go 在圍棋游戲中戰(zhàn)勝人類的傳奇。
我們今天請來了 DeepMind 聯(lián)合創(chuàng)始人、CEO Demis Hassabis。
我想知道,自從公眾對 AI 的興趣激增以來,你的工作是變得更容易還是更困難了?
哈薩比斯:我認(rèn)為這是雙刃劍。困難之處在于,現(xiàn)在有太多的審查、關(guān)注,整個領(lǐng)域有很多噪音。我更喜歡人少一些的時候,我們可以更專注于科學(xué)。但從好的方面來看,這表明技術(shù)已經(jīng)準(zhǔn)備好以許多不同的方式影響現(xiàn)實世界,并以積極的方式影響人們的日常生活,所以我認(rèn)為這也很令人興奮。
弗萊:你有沒有對公眾的想象力被迅速吸引感到驚訝?我想你預(yù)料到最終會是這個樣子,是嗎?
哈薩比斯:確實如此。我們這些人已經(jīng)研究這個領(lǐng)域幾十年了,最終在某個時間點,公眾會意識 AI 將會變得多么重要。但看到這一切真正實現(xiàn),并且以這種方式發(fā)生,感覺還是有點超現(xiàn)實。我想,這確實是因為聊天機器人的出現(xiàn)和語言模型的發(fā)展,因為每個人都使用語言,每個人都能理解語言,所以這是公眾理解和衡量 AI 發(fā)展水平的簡單方式。
弗萊:我聽說你形容這些聊天機器人是「 超乎尋常得有效」,這是什么意思?
哈薩比斯:我的意思是,如果回顧 5 到 10 年前,當(dāng)時人們可能會認(rèn)為要實現(xiàn) AI 的發(fā)展,需要構(gòu)建一些令人驚嘆的架構(gòu),并在此基礎(chǔ)上進行擴展,而不必特別去解決像抽象概念這樣的具體問題。在 5 到 10 年前的許多討論中,人們認(rèn)為需要一種特別的方式來處理抽象概念,因為大腦顯然就是這樣工作的。但是,如果給 AI 系統(tǒng)足夠的數(shù)據(jù),例如整個互聯(lián)網(wǎng)上的數(shù)據(jù),它們似乎確實能夠從中學(xué)習(xí)并泛化出一些模式,不僅僅是死記硬背,而是實際上在某種程度上理解它們正在處理的內(nèi)容。這有點「 超乎尋常得有效」,因為我認(rèn)為 5 年前沒有人會想到它會像現(xiàn)在這樣有效。
弗萊:所以,這是一個驚喜……
哈薩比斯:是的,我們之前討論了概念和 grounding—— 將語言置于真實世界體驗中,可能在模擬或機器人具身智能中。當(dāng)然,這些系統(tǒng)還沒有達(dá)到那個水平,它們犯了很多錯誤,它們還沒有一個真正的世界模型。但是僅僅通過從語言中學(xué)習(xí),他們已經(jīng)走得比預(yù)期中遠(yuǎn)了。
弗萊:我覺得我們需要解釋一下 grounding 這個概念。
哈薩比斯:Grounding 問題是 80 年代和 90 年代在像麻省理工學(xué)院這樣的地方構(gòu)建的經(jīng)典 AI 系統(tǒng)中遇到的一個問題。你可以把這些系統(tǒng)想象成巨大的邏輯數(shù)據(jù)庫,單詞之間互有聯(lián)系。問題在于,你可以說「狗有腿」,這會在數(shù)據(jù)庫中,但當(dāng)你給系統(tǒng)看一張狗的圖片時,它并不知道那一堆像素點與那個符號有什么關(guān)系。這就是 grounding 問題 —— 你有這種符號性的、抽象的表示,但它們在現(xiàn)實世界中,特別是在混亂的現(xiàn)實世界中真正意味著什么呢?他們試圖解決這個問題,但從未完全成功。
而今天的系統(tǒng),它們直接從數(shù)據(jù)中學(xué)習(xí),所以從某種意義上說,它們從一開始就在形成那種聯(lián)系,但有趣的是,如果它只是從語言中學(xué)習(xí),理論上應(yīng)該缺少很多你需要的 grounding,但結(jié)果卻是,很多 grounding 信息不知怎么地是可以推斷出來的。
弗萊:為什么這么說?
哈薩比斯:理論上講,因為這些最初的大型語言模型并不存在于現(xiàn)實世界中,它們沒有連接到模擬器,沒有連接到機器人,甚至最初也不是多模態(tài)的 —— 它們沒有接觸到視覺或其他任何東西,它們僅僅存在于語言空間中。所以,它們是在抽象領(lǐng)域中學(xué)習(xí)的。因此,它們能夠從那個領(lǐng)域推斷出關(guān)于現(xiàn)實世界的一些事情是很令人驚訝的。
弗萊:如果說 grounding 是通過人們與這個系統(tǒng)的互動而獲得的,這很有道理……
哈薩比斯:確實。所以可以肯定的是,如果它們在回答某些問題時出了錯,比如早期版本由于 grounding 缺失,在處理現(xiàn)實世界中狗的叫聲這樣的問題時回答錯誤。人們會通過反饋來糾正它們。這種反饋部分源自我們自己的現(xiàn)實知識。因此,一些 grounding 就是這樣逐漸滲透進來的。
弗萊:我記得我看到過一個非常生動的例子,關(guān)于「穿越(cross)英吉利海峽」與「步行穿越(walking across)英吉利海峽」的區(qū)別。
哈薩比斯:這個例子確實可以。如果它回答錯誤,你會告訴它這是錯誤的,然后它就不得不弄清楚 —— 你不能步行穿越英吉利海峽。
AI 是被過度炒作還是低估了?
弗萊:我要問你一點關(guān)于炒作的問題,你認(rèn)為就現(xiàn)在來說,AI 是被過度炒作了,還是被低估了,或者只是在錯誤的方向上炒作?
哈薩比斯:一方面,從短期來看,AI 被過度炒作了。人們聲稱它能做很多事情,但實際上它不能,有很多創(chuàng)業(yè)公司和風(fēng)險投資追逐一些瘋狂的想法,但其實這些想法還不夠成熟。
另一方面,我認(rèn)為 AI 仍然被低估了?;蛟S人們還沒有完全理解當(dāng)我們達(dá)到 AGI 之后會發(fā)生什么,責(zé)任是多么大。
弗萊:你在這個領(lǐng)域已經(jīng)幾十年了,對于這些創(chuàng)業(yè)公司和風(fēng)險投資所追逐的東西,你很容易發(fā)現(xiàn)哪些是現(xiàn)實的目標(biāo),哪些不是。但其他人要怎么分辨?
哈薩比斯:顯然你得做一些技術(shù)盡職調(diào)查,對技術(shù)和最新的趨勢有一些了解。同時,你也得看看發(fā)表言論的人的背景,他們有多懂技術(shù),是不是去年才從別的方向轉(zhuǎn)到 AI 的?他們?nèi)ツ晔遣皇窃谧黾用茇泿牛窟@些可能是一些線索,表明他們可能是在跟風(fēng),這并不意味著他們會有一些好點子,即使有也可能會像彩票一樣。
我認(rèn)為,當(dāng)一個領(lǐng)域突然受到大量關(guān)注時,這種情況總是會發(fā)生,然后資金就會隨之而來,每個人都覺得他們不能錯過。
這就創(chuàng)造了一種我們可以說是機會主義的環(huán)境,這與那些幾十年來一直致力于深度科技、深度科學(xué)的人有點相反,我認(rèn)為后者才是我們接近 AGI 時應(yīng)該繼續(xù)堅持的方式。
Gemini:谷歌大腦與 DeepMind 合并后的首個燈塔項目
弗萊:接下來談?wù)?Gemini 吧。Gemini 在哪些方面不同于其他實驗室發(fā)布的其他大型語言模型?
哈薩比斯:從一開始,我們就希望 Gemini 能夠處理多種模態(tài),所以它不僅能處理語言,還能處理音頻、視頻、圖像、代碼等各種模態(tài)。我們之所以想要這樣做,首先是因為,我認(rèn)為這是讓這些系統(tǒng)真正理解周圍世界并構(gòu)建更好的世界模型的方法,這又回到了之前的 grounding 問題上。
我們也有一個愿景,即擁有一個通用助手。我們做了一個叫 Astra 的原型,它不僅理解你正在輸入的內(nèi)容,實際上還理解你所處的環(huán)境。這樣的智能助手會更有用。所以我們從一開始就內(nèi)置了多模態(tài)。這是另一件在那個時候只有我們的模型在做的事情,現(xiàn)在其他模型正在追趕。
我們在記憶方面的其他重大創(chuàng)新,比如長上下文,實際上可以記住大約一百萬個或兩百萬個 token。所以你可以給它《戰(zhàn)爭與和平》或者整個電影,然后讓它回答問題或在視頻流中找到東西。
弗萊:在 Google I/O 上,你用了一個例子,說明 Astra 如何幫助你記住你把眼鏡放在哪里了,對吧?但我懷疑這是否只是那些舊的 Google Glasses 的高級版本。
哈薩比斯:當(dāng)然,谷歌在開發(fā)眼鏡設(shè)備方面有著悠久的歷史,實際上可以追溯到 2012 年左右,遠(yuǎn)遠(yuǎn)領(lǐng)先于時代。但它們也許只是缺少這種技術(shù),而智能體或智能助手可以真正理解你在說什么。所以,我們對數(shù)字助理感到非常興奮,它可以隨時陪伴著你,了解你周圍的世界。當(dāng)你使用它時,它似乎真的是一個很自然的用例。
弗萊:接下來我想稍微回顧一下 Gemini 的起源,畢竟它來自谷歌的兩個不同的研究部門。
哈薩比斯:是的,去年我們將 Alphabet 的兩個研究部門合并,即將 Google Brain 和 DeepMind 整合為了 Google DeepMind。我們稱它為超級部門(super unit),將整個公司的優(yōu)秀人才聚集到了一個部門中。這意味著,我們將所有研究中獲得的最佳知識結(jié)合起來,尤其是在語言模型方面。
所以,我們推出了 Chinchilla、Gopher 等模型,并構(gòu)建了 PaLM、LaMDA 以及其他早期模型。這些模型各有優(yōu)缺點,所以我們將它們整合到了 Gemini 中,成為了部門合并后推出的首個燈塔項目(Lighthouse Project)。然后,另一件重要的事情是將所有計算資源整合起來,這樣就可以進行超大規(guī)模的訓(xùn)練運行。我覺得這些很棒。
弗萊:從很多方面來講,Google Brain 和 DeepMind 的重點略有不同。我可以這樣說嗎?
哈薩比斯:谷歌各個部門顯然都專注于人工智能的前沿,而且在個體研究層面已經(jīng)有很多合作,但在戰(zhàn)略層面有所不同。隨著 Google DeepMind 的合并,我想把它描述成谷歌的引擎室(Engine Room),它運行得非常好。我認(rèn)為,我們工作方式的相似之處要比差異多得多,我們將繼續(xù)保持并加強自身在基礎(chǔ)研究等方面的優(yōu)勢。
比如說,下一個 Transformer 架構(gòu)從何而來?我們想發(fā)明它。Google Brain 研究人員發(fā)明了如今流行的 Transformer 架構(gòu)。我們將該架構(gòu)與自己開創(chuàng)的深度強化學(xué)習(xí)相結(jié)合。我認(rèn)為仍然需要更多創(chuàng)新。我支持這樣做,就像過去 10 年 Google Brain 和 DeepMind 團隊所做的那樣。這很令人興奮。
未來方向:將 AlphaGo 與 Gemini 相結(jié)合
弗萊:我想討論一下 Gemini,它的表現(xiàn)怎么樣?與其他模型相比如何?
哈薩比斯:這個問題涉及到了基準(zhǔn),我認(rèn)為整個領(lǐng)域都需要更好的基準(zhǔn)。目前存在一些眾所周知的學(xué)術(shù)基準(zhǔn),但現(xiàn)在它們已經(jīng)飽和了,而且并沒有真正區(qū)分不同頂級模型之間的細(xì)微差別。
在我看來,目前有三類模型處于頂端和前沿,我們的 Gemini、OpenAI 的 GPT 和 Anthropic 的 Claude。此外還有很多表現(xiàn)不錯的模型,比如 Meta、Mistral 等推出的 Llama 系列、Mistral 系列模型,它們擅長的任務(wù)各有不同。這取決于你要執(zhí)行什么類型的任務(wù),編碼選擇 Claude、推理選擇 GPT,記憶、長上下文和多模態(tài)理解選擇 Gemini。
當(dāng)然,各家公司還會繼續(xù)不斷改進模型。比如,Gemini 只是一個推出不到一年的模型。我認(rèn)為我們的發(fā)展軌跡非常好,希望我們下次交談時,Gemini 可以站在最前沿。
弗萊:是的,大模型還有很長的路要走。這是否也意味著,這些模型在某些方面還不是很好。
哈薩比斯:當(dāng)然。實際上,這是目前最大的爭論?,F(xiàn)在很多模型都是從五、六年前發(fā)明的技術(shù)中產(chǎn)生的。所以,這些模型仍然缺少很多東西,會產(chǎn)生幻覺、不擅長規(guī)劃。
弗萊:哪方面的規(guī)劃呢?
哈薩比斯:比如一些長期規(guī)劃,模型無法長期解決問題。你給它一個目標(biāo),它們無法真正為你采取行動。所以,模型很像被動問答系統(tǒng)。你提出問題,然后它們會給你某種回應(yīng),但卻無法為你解決問題。比如你想要一個數(shù)字助理幫你全程預(yù)訂意大利的假期,以及預(yù)定所有的餐館、博物館等事項。遺憾的是,它卻做不到這些事情。
我認(rèn)為這是下一個時代的研究主題,我們稱它們?yōu)椋ǜ蟪潭壬希┗谥悄荏w的系統(tǒng)或者擁有類似智能體行為的智能系統(tǒng)。當(dāng)然,這是谷歌所擅長的。谷歌過去構(gòu)建了游戲智能體 AlphaGo 以及其他智能體。所以,我們在做的很多事情是將成名的項目與新的大規(guī)模多模態(tài)模型結(jié)合起來,并成為下一代系統(tǒng),比如 AlphaGo 與 Gemini 的結(jié)合。
弗萊:我覺得 AlphaGo 非常擅長規(guī)劃。
哈薩比斯:是的,AlphaGo 非常擅長規(guī)劃。當(dāng)然,它只在游戲領(lǐng)域。所以,我們需要將它泛化到日常工作和語言等通用領(lǐng)域。
弗萊:你剛才提到 Google DeepMind 現(xiàn)在已經(jīng)成為谷歌的引擎室。這是一個相當(dāng)大的轉(zhuǎn)變。那么,谷歌是否在 AI 領(lǐng)域下了很大的賭注?
哈薩比斯:我想是的。我認(rèn)為谷歌一直都明白 AI 的重要性。當(dāng) Sundar 接任首席執(zhí)行官時,他就說過谷歌是一家 AI 優(yōu)先的公司。我們在他任職初期就討論過這個問題,他認(rèn)為 AI 有潛力成為繼移動互聯(lián)網(wǎng)之后的下一個重大范式轉(zhuǎn)變,并且比以往發(fā)展?jié)摿Ω蟆?/span>
也許在過去一兩年里,我們真的開始體驗到這意味著什么,不僅僅是從研究的角度,而且在產(chǎn)品和其他方面也是如此。這非常令人興奮,因此我認(rèn)為我們把所有人才協(xié)調(diào)起來,然后盡最大努力推動 AI 進展是正確的選擇。
弗萊:我們知道,Google DeepMind 非常重視研究和科學(xué)層面的東西。但隨著它成為谷歌的引擎室,是否意味著必須更加關(guān)心商業(yè)利益, 而不再是那種最純粹的東西。
哈薩比斯:是的,我們肯定更加關(guān)心在職權(quán)范圍內(nèi)的商業(yè)利益。但實際上,我有以下幾件事要說。首先,我們將繼續(xù) AlphaFold 相關(guān)的科學(xué)工作,幾個月前發(fā)布了 AlphaFold 3。我們也在加倍投資于此。我認(rèn)為這是 Google DeepMind 所做的獨特的工作。
你知道,甚至連我們的競爭對手都認(rèn)為這會是通用 AI 產(chǎn)品。我們成立了一個新公司 Isomorphic Labs 來進行藥物研發(fā)。這些都非常令人興奮,一切都進展順利。所以我們會繼續(xù)這樣做。同時,我們在氣候預(yù)測和其他方面也做了很多工作。
我們擁有一支龐大的團隊,所以可以同時做多項工作。我們在構(gòu)建我們的大型模型 Gemini 等。我們正在組建一支產(chǎn)品團隊,將所有這些驚人的技術(shù)帶到谷歌所在的所有領(lǐng)域。所以在某種程度上,這是我們的一個優(yōu)勢,可以隨時插入我們所有的技術(shù)。我們發(fā)明的東西可以立即讓十億人用上,這真的很激勵人心。
另一件事是,現(xiàn)在我們需要為產(chǎn)品開發(fā)的 AI 技術(shù)與為純 AGI 研究目的所做工作之間的融合程度大大提高。五年前,你必須為一個產(chǎn)品構(gòu)建一些特殊的 AI。現(xiàn)在你可以將主要研究分離出來,當(dāng)然仍然需要做一些特定于產(chǎn)品的工作,但這可能只占所有工作的 10%。
因此,實際上在開發(fā) AI 產(chǎn)品和構(gòu)建 AGI 之間不再存在矛盾。我想說,90% 是相同的研究計劃。所以,如果你推出產(chǎn)品并將它們推向世界,你會從中學(xué)到很多東西。人們也會使用它,這樣你會了解到很多信息,比如你的內(nèi)部指標(biāo)與人們所說的不太相符,然后你可以進行更新。這對你的研究非常有幫助。
如何測試 GenAI 技術(shù)
弗萊:我想知道,將 AI 應(yīng)用于科學(xué)所帶來的突破與向公眾發(fā)布這些東西的正確時機之間是否存在矛盾。在 Google DeepMind 內(nèi)部,大語言模型等工具被用于研究,而不是被視為潛在的商業(yè)產(chǎn)品。
哈薩比斯:我們從一開始就非常重視責(zé)任和安全。早在 2010 年以前,谷歌就將一些基本道德規(guī)范納入了其 AI 準(zhǔn)則之中。我們一直與整個谷歌保持一致,并希望作為這個領(lǐng)域的領(lǐng)導(dǎo)者之一負(fù)責(zé)任地進行部署。
所以,現(xiàn)在開始推出具有 GenAI 能力的真實產(chǎn)品很有趣。實際上還有很多需要學(xué)習(xí)的地方,而且我們學(xué)得很快,這很好。對于當(dāng)前技術(shù)而言,我們的風(fēng)險相對較低,畢竟這些技術(shù)還沒有那么強大。但隨著技術(shù)變得越來越強大,我們必須更加小心。
產(chǎn)品團隊以及其他團隊正在學(xué)習(xí)如何測試 GenAI 技術(shù)。這些技術(shù)不同于普通的技術(shù),因為它并不總是做同樣的事情。這幾乎就像測試一個開放世界的游戲,你可以嘗試用它做的事情幾乎是無限的。所以,弄清楚如何對它進行紅隊測試(Red Teaming)是很有趣的。
弗萊:所以,這里的紅隊測試是你們相互之間進行對抗競爭?
哈薩比斯:是的。紅隊測試是指你從開發(fā)技術(shù)團隊中抽出一個專門的團隊來對技術(shù)進行壓力測試,并嘗試以任何可能的方式破解。你實際上需要使用工具來自動化測試,即使有成千上萬的人在做這件事,但與數(shù)十億用戶相比,這還不夠。
此外,我認(rèn)為我們必須分階段進行,包括了實驗階段、封閉測試階段以及再次發(fā)布,就像我們過去發(fā)布游戲一樣。所以你在每一步中都在學(xué)習(xí)。我認(rèn)為我們需要做的更多的是,使用 AI 本身來幫助我們內(nèi)部進行紅隊測試,實際上可以自動發(fā)現(xiàn)一些錯誤或進行三重篩選。這樣我們的開發(fā)人員和測試人員就可以真正專注于那些棘手的情況。
弗萊:這里有一些非常有趣的事情,你處在一個概率更大的空間。所以,即使某件事情發(fā)生的可能性很小,但如果嘗試得足夠多,最終就會出錯。我想已經(jīng)出現(xiàn)過一些公開的錯誤。
哈薩比斯:正如我提到的,我認(rèn)為產(chǎn)品團隊已經(jīng)習(xí)慣了各種測試。他們知道自己測試過這些東西,但具有隨機性和概率性。事實上,在很多情況下,如果只是一個普通的軟件,你可以說自己已經(jīng)測試了 99.999% 的東西。然后推斷,這樣就足夠了。
但是,生成式系統(tǒng)并非如此。它們可以做各種各樣的事情,這些事情有點超出常規(guī),有點超出你以前見過的范疇。如果某些聰明人或?qū)κ譀Q定以某種方式來測試這些系統(tǒng),就像黑客一樣。
這些系統(tǒng)可能以組合的方式存在,里面包含了你之前對它說過的所有事情。然后它處于某種特殊狀態(tài),或者記憶中充滿了特殊的東西,這就是它們需要輸出一些東西的原因。這里很復(fù)雜,而且并不是無限的。所以有辦法解決這個問題,但又與推出普通技術(shù)存在很多細(xì)微差異。
弗萊:我記得你曾經(jīng)說過,我想那應(yīng)該是我第一次采訪你的時候,你提到實際上我們必須認(rèn)識到這是一種完全不同的計算方式。你得從我們完全理解的確定性事物中抽身,轉(zhuǎn)向更加混亂的東西,比如概率性的。你覺得公眾是否也需要稍微改變他們對計算類型的看法呢?
哈薩比斯:是的,我同意。也許這也是我們需要考慮的另一件事,有趣的是,在你發(fā)布某個系統(tǒng)之前,實際上可以發(fā)布一份原則性文件或類似的東西,來明確展示這個系統(tǒng)的預(yù)期用途,它設(shè)計用來做什么?它有什么用?它不能做什么?我認(rèn)為這里確實需要某種認(rèn)知,比如,如果你按這些方法使用它,你會發(fā)現(xiàn)它很有用,但不要嘗試用它來做其他事情,因為根本不會起作用。
我認(rèn)為這是我們在某些領(lǐng)域需要做的事情,用戶可能也需要在這方面的經(jīng)驗。實際上這很有趣,這可能是為什么聊天機器人本身有些出人意料,甚至對于 OpenAI 來說,包括 ChatGPT 在內(nèi),他們也感到驚訝。我們也有自己的聊天機器人,我們也注意到這些機器人仍然存在缺陷,比如會產(chǎn)生幻覺等問題。
但我們沒有意識到的是,盡管存在這些缺陷,實際上聊天機器人仍然有很多非常好的使用場景?,F(xiàn)在人們發(fā)現(xiàn)一些非常有價值的用途,比如總結(jié)文件和長文檔,寫郵件,填寫表格等。由于使用場景廣泛,即使存在一些小錯誤,實際上人們并不介意,人類可以輕松修正這些錯誤,并且能節(jié)省大量的時間。我猜這就是人們發(fā)現(xiàn)的令人驚訝的事情,當(dāng)使用時,人們發(fā)現(xiàn)了這些有價值的使用場景,盡管這些系統(tǒng)以我們所知的各種方式存在缺陷。
關(guān)于開源:一旦發(fā)布,就無法撤回
弗萊:這又引出了我想問的下一個問題,即關(guān)于開源的問題。正如你提到的,當(dāng)事物掌握在人們手中時,就會發(fā)生真正非凡的事情。據(jù)我了解 DeepMind 在過去已經(jīng)開源了許多項目,但隨著時間的推移,這種情況似乎有所改變。
哈薩比斯:是的,我們非常支持開源和開放科學(xué)。正如你所知道的,我們幾乎公開了我們所做的所有事情,比如 Transformer,又比如 AlphaGo 和 AlphaFold 這些研究都發(fā)表在《自然》和其他期刊上,并且 AlphaFold 也是開源的。通過分享信息,使得技術(shù)和科學(xué)得以快速地進步。所以我們幾乎總是這么做,我們認(rèn)為這是非常有益的事情,這是科學(xué)的工作方式。
唯一的例外是,AI、AGI 和強大的 AI 具有雙面性。問題在于誰在使用,真正本著好意行事的科學(xué)家和技術(shù)人員,可以提出建設(shè)和批評性建議,這是社會進步最快的方式。但問題是,你如何同時限制不懷好意的人的訪問權(quán)限,這些人可能會將相同的系統(tǒng)用于不良目的,誤用它們,比如武器系統(tǒng),但這些我們不能提前預(yù)知。而且,通用系統(tǒng)本身可以被這樣重新利用。今天我們還能把握住,因為我認(rèn)為這些系統(tǒng)還沒有那么強大。
在接下來的兩到四年時間里,尤其是當(dāng)我們開始開發(fā)具有智能體行為的系統(tǒng)時,如果這些系統(tǒng)被某些人誤用,可能會造成嚴(yán)重的危害。雖然我們沒有具體的解決方案,但作為一個社區(qū),我們需要思考這對開源意味著什么。
也許前沿模型需要經(jīng)過更多的審核,然后在發(fā)布一年或兩年后才能開源。這種模式是我們正在遵循的,因為我們有自己的開源模型,稱為 Gemma。這些模型較小,不屬于前沿模型,因此它們的功能對開發(fā)者來說仍然非常有用,也易于在筆記本電腦上運行,且參數(shù)較少。這些功能目前已被很好地理解。不過,這些模型的性能不如最新的前沿模型,如 Gemini 1.5。我們最終可能采取的方法是,我們會有開源模型,但這些模型會比最先進的模型落后大約一年,這樣我們可以在公開場合真正評估用戶使用這些模型的情況,了解前沿模型的能力。
開源的主要問題在于,一旦發(fā)布,就無法撤回。如果使用者以不當(dāng)方式使用開源模型,與專有模型不同,開發(fā)者不能簡單地關(guān)閉它。一旦開源,就像是走過了一扇單向門,因此在開源之前需要非常謹(jǐn)慎。
弗萊:是否能夠?qū)⑼ㄓ萌斯ぶ悄埽ˋGI)限制在某個組織內(nèi)部的護城河之內(nèi)。
哈薩比斯:這還是一個未解的問題。我們目前還不知道如何做到這一點,因為這是當(dāng)我們開始討論高級別、類似人類水平的 AI 時需要考慮的問題。
弗萊:那中間層呢?
哈薩比斯:在中間層,我們有一些較好的想法來處理這些問題。例如,可以通過安全沙箱環(huán)境來測試。這意味著在游戲環(huán)境或部分連接的互聯(lián)網(wǎng)版本中測試智能體的行為。在這個領(lǐng)域以及金融科技等其他領(lǐng)域,已經(jīng)進行了大量的安全工作。我們可能會借鑒這些想法,然后構(gòu)建相應(yīng)的系統(tǒng),這就是我們測試早期原型系統(tǒng)的方式。但我們也知道,這些措施可能不足以限制 AGI,一個可能比我們更聰明的系統(tǒng)。因此,我們需要更好地理解這些系統(tǒng),以便為 AGI 設(shè)計協(xié)議。到那時,我們將有更好的方法來控制它,可能還會利用 AI 系統(tǒng)和工具來監(jiān)控 AI 系統(tǒng)的下一代。
如何監(jiān)管 AI
弗萊:關(guān)于安全性的話題,許多人似乎認(rèn)為監(jiān)管這個詞就能解決所有問題。你認(rèn)為監(jiān)管應(yīng)該如何構(gòu)建?
哈薩比斯:政府正在加快對 AI 技術(shù)的了解和介入,這是一個積極的現(xiàn)象。我認(rèn)為國際合作是必需的,特別是在監(jiān)管、安全措施和部署規(guī)范等方面。
隨著我們接近 AGI,我們需要認(rèn)識到,由于技術(shù)發(fā)展迅速,我們的監(jiān)管方式也需要靈活且迅速適應(yīng)最新的技術(shù)發(fā)展。如果你在五年前對 AI 進行了監(jiān)管,那么你監(jiān)管的將是一種完全不同的東西。今天我們看到的是生成式 AI,但五年后可能又會有所不同。
目前,基于智能體的系統(tǒng)可能帶來最高風(fēng)險。因此,我建議加強已經(jīng)有監(jiān)管的領(lǐng)域(如健康、交通等)的現(xiàn)有規(guī)定,使其適應(yīng) AI 時代,就像之前為移動和互聯(lián)網(wǎng)更新過監(jiān)管一樣。
首先我會做的是保持關(guān)注,確保我們理解并測試前沿系統(tǒng)。隨著情況變得更加明朗,需要圍繞這些情況開始制定規(guī)定,可能在幾年后進行會更有意義。我們目前缺失的是基準(zhǔn)測試,正確的能力測試,包括整個行業(yè)都想知道的,我們的能力在什么點上可能構(gòu)成重大風(fēng)險。目前沒有對此的答案,我剛才說的基于智能體的能力可能是下一個閾值,但目前還沒有公認(rèn)的測試方法。
一個可能的測試是檢測系統(tǒng)是否具有欺騙性能力。系統(tǒng)中如果存在欺騙性,那么它報告的其他內(nèi)容都無法被信任。因此,測試欺騙性應(yīng)該是首要考慮的新興能力。此外,還有許多其他能力值得測試,如實現(xiàn)特定目標(biāo)的能力、復(fù)制能力等,目前已有不少相關(guān)工作正在進行。我認(rèn)為這些基本上是政府機構(gòu)正在發(fā)揮作用的地方。我認(rèn)為對他們來說,大力推動這方面的工作會非常好,當(dāng)然,實驗室也應(yīng)該貢獻他們所知道的信息。
弗萊:在你描述的這個世界中,機構(gòu)處于什么位置?即使我們達(dá)到了擁有能夠支持所有科學(xué)研究的 AGI 的階段,機構(gòu)是否還能保留一席之地?
哈薩比斯:我認(rèn)為有。在達(dá)到 AGI 的過程中,我認(rèn)為這將是社區(qū)、學(xué)術(shù)界、政府和工業(yè)實驗室之間的合作。我真的相信這是我們達(dá)到這個最終階段的唯一方式。
哈薩比斯對 AGI 的測試標(biāo)準(zhǔn)
哈薩比斯:如果你問的是 AGI 出現(xiàn)之后的情況,我一直想構(gòu)建 AGI 的原因之一是我們可以利用它開始回答一些關(guān)于自然、現(xiàn)實、物理和意識等方面的最大、最根本的問題。這取決于它采取何種形式,可能是人類專家與 AI 的結(jié)合。我認(rèn)為在探索下一個前沿領(lǐng)域方面,這種情況還會持續(xù)一段時間。
目前這些系統(tǒng)還不能自己提出猜想或假設(shè)。目前來看,它們可以幫助你證明某些問題,能夠在國際數(shù)學(xué)奧林匹克競賽中獲得金牌,甚至可能解決著名的數(shù)學(xué)猜想,但它們還沒有能力提出像黎曼假設(shè)或廣義相對論這樣的假設(shè)。這一直是我對真正的通用人工智能的測試標(biāo)準(zhǔn) —— 它將能夠做到這些,甚至發(fā)明新的理論。我們還沒有任何系統(tǒng),我們甚至可能不知道如何理論上設(shè)計能做到這些的系統(tǒng)。
弗萊:計算機科學(xué)家斯圖爾特?羅素曾向我表達(dá)了他的擔(dān)憂, 他擔(dān)心一旦我們達(dá)到了 AGI 的發(fā)展階段,我們所有人可能會變得只會享受無拘無束的奢華生活,并且沒有任何生活目的。這種生活雖然充滿了物質(zhì)享受,但缺乏深層次的意義和目標(biāo)。
哈薩比斯:這確實是一個有趣的問題。這可能超越了 AGI,更像是人們有時所說的 ASI。屆時我們應(yīng)該擁有極大的資源,假設(shè)我們能確保公平、均等地分配這些資源,那么我們將處于一個可以自由選擇如何行動的位置,而「意義」將成為一個重大的哲學(xué)問題。我認(rèn)為我們將需要哲學(xué)家,甚至可能是神學(xué)家,以及社會科學(xué)家現(xiàn)在就開始思考這個問題。什么能帶來意義?我仍然認(rèn)為自我實現(xiàn)是重要的,我不認(rèn)為我們所有人都只會沉浸在冥想中,也許我們會玩電腦游戲。但即便如此,這真的是壞事嗎?這是一個值得探討的問題。
盡管 AGI 將帶來巨大的變革,例如治愈眾多疾病甚至所有疾病,解決能源和氣候問題,但它也可能讓我們面對一個更深層次的問題:生活的意義何在?就像人們攀登珠穆朗瑪峰或參與極限運動一樣,這些活動表面看似無意義,但實際上是人們對挑戰(zhàn)自我的追求。隨著 AGI 的發(fā)展,我們可能會在物質(zhì)層面擁有一切,但隨之而來的是對生活意義的再思考。這個問題在科技發(fā)展的早期和晚期階段都被低估了,我們需要重新評估所謂的炒作以及它對我們未來的真正影響。
弗萊:讓我們回到關(guān)于 AGI 的問題。我知道你們的重大使命是構(gòu)建能夠造福所有人的 AI。但你如何確保它確實使每個人受益?如何考慮所有人的偏好而不僅僅是設(shè)計師的偏好?
哈薩比斯:我認(rèn)為不可能將所有偏好都包含在一個系統(tǒng)中,因為人們對很多問題無法達(dá)成一致。我想我們可能將擁有一套安全的架構(gòu),可以在其上構(gòu)建個性化的人工智能,然后人們根據(jù)自己的偏好、使用目的、部署目的,決定 AI 系統(tǒng)可以用來做什么,不能用來做什么??偟膩碚f,架構(gòu)需要確保安全,然后人們可以在架構(gòu)的基礎(chǔ)上做一些變體、增量。
所以我認(rèn)為,當(dāng)我們接近通用人工智能時,我們可能必須在國際上進行更理想的合作,然后確保我們在安全的環(huán)境中構(gòu)建通用人工智能。
一旦我們完成了這個任務(wù),每個人都可以擁有自己的個性化袖珍 API(如果他們愿意)。
弗萊:好的。但我的意思是 AI 可能會出現(xiàn)一些不良行為。
哈薩比斯:是的,不良的新興行為、能力。欺騙就是一個例子。我們必須更好地理解所有這些問題。
有兩種情況需要擔(dān)心:一種是人類可能會濫用 AI;一種是人工智能本身(隨著它越來越接近 AGI,它的表現(xiàn)卻偏離了軌道)。我認(rèn)為這兩個問題需要不同的解決方案。是的,這就是當(dāng)我們越來越接近構(gòu)建 AGI 時,我們必須應(yīng)對的問題。
回到你讓每個人受益的觀點,以 AlphaFold 為例,我認(rèn)為如果 AI 藥物設(shè)計有效的話,我們可以在未來一兩年內(nèi)治愈大多數(shù)疾病。然后它們可以轉(zhuǎn)化成個性化藥物,以最大限度地減少對個人的副作用,這與人的個人疾病和個人新陳代謝等相關(guān)。所以這些都是令人驚奇的事情,你知道,清潔能源、可再生能源,技術(shù)將會帶來巨大的好處,但我們也必須降低風(fēng)險。
弗萊:你說你想要減輕風(fēng)險的一種方式是,有一天你基本上會做科學(xué)版的「復(fù)仇者集結(jié)」?
哈薩比斯:當(dāng)然。
弗萊:那么,你怎么知道什么時候是合適的時間?
哈薩比斯:好吧,這是一個大問題。你不能太早這樣做,因為你永遠(yuǎn)無法獲得一些反對者的支持。如今,你會看到一些非常有名的人說 AI 沒有風(fēng)險。然后像 Geoffrey Hinton 這樣的人說存在很多風(fēng)險。
弗萊:我想和你多談?wù)勆窠?jīng)科學(xué)。它對你正在做的事情還有多大啟發(fā)?因為我注意到前幾天 DeepMind 揭開了一只具有人工大腦的虛擬老鼠的面紗,這有助于改變我們對大腦如何控制運動的理解。我記得我們曾談?wù)摿撕芏嚓P(guān)于如何從生物系統(tǒng)中直接獲得靈感的話題,這仍然是您方法的核心嗎?
哈薩比斯:不,它現(xiàn)在已經(jīng)發(fā)展起來,我認(rèn)為我們已經(jīng)進入了工程階段,例如大型系統(tǒng)、大規(guī)模的訓(xùn)練架構(gòu)。神經(jīng)科學(xué)對此影響有點小。神經(jīng)科學(xué)是思路來源之一,但當(dāng)工程量大時,神經(jīng)科學(xué)處于次要地位。因此,現(xiàn)在可能更多地是將人工智能應(yīng)用于神經(jīng)科學(xué)。我認(rèn)為,隨著我們越來越接近 AGI,理解大腦將是 AGI 最酷的用例之一。
弗萊:我想知道你是否也在設(shè)想將會有一些超出人類理解范圍的事情,而 AGI 將幫助我們發(fā)現(xiàn)、理解?
哈薩比斯:我認(rèn)為 AGI 系統(tǒng)有可能比我們更能理解更高層次的抽象。我認(rèn)為人工智能系統(tǒng)可以有效地?fù)碛腥我忸愋偷那邦~葉皮質(zhì),所以可以想象更高層次的抽象和模式,它能夠看到我們無法立即真正理解或記住的宇宙。
然后我認(rèn)為,從可解釋性的角度來看,我們不能無限擴展我們自己的大腦,但理論上只要有足夠的時間、SPE 和內(nèi)存,AGI 就能理解任何可計算的東西。
弗萊:你說 DeepMind 是一個為期 20 年的項目。您距離步入正軌還有多遠(yuǎn)?
哈薩比斯:我們已經(jīng)步入正軌。
弗萊:2030 年會實現(xiàn) AGI 嗎?
哈薩比斯:如果它在未來十年內(nèi)出現(xiàn),我不會感到驚訝。