DeepMind 首席科學(xué)家 Oriol Vinyals 最新訪談:通用 AI 的未來是強(qiáng)交互式元學(xué)習(xí)
自 2016 年 AlphaGo 在圍棋中擊敗人類以來,DeepMind 的科學(xué)家一直致力于探索強(qiáng)大的通用人工智能算法,Oriol Vinyals 就是其中之一。
Vinyals 于 2016 年加入 DeepMind,目前任首席科學(xué)家,領(lǐng)導(dǎo)深度學(xué)習(xí)小組。此前他曾在 Google Brain 工作。他的博士就讀于加州大學(xué)伯克利分校,曾獲得 2016 年 MIT TR35 創(chuàng)新者獎(jiǎng)。他在 seq2seq、知識(shí)蒸餾以及 TensorFlow 方面的研究成果,已經(jīng)被應(yīng)用于谷歌翻譯、文轉(zhuǎn)到語(yǔ)音和語(yǔ)音識(shí)別等產(chǎn)品中。他的文章被引用超過 16 萬(wàn)次。
最近,Oriol Vinyals 做客 Lex Fridman 的播客節(jié)目,談?wù)摿怂麑?duì)深度學(xué)習(xí)、通才智能體 Gato、元學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、AI 意識(shí)等方向的一些看法。Vinyals 認(rèn)為:
- 擴(kuò)大模型規(guī)模能夠增強(qiáng)智能體多模態(tài)之間的協(xié)同作用,模塊化的模型則是有效擴(kuò)大模型規(guī)模的一種方式,通過權(quán)重復(fù)用可以不必從頭訓(xùn)練模型;
- 未來的元學(xué)習(xí)將更注重智能體與環(huán)境的交互學(xué)習(xí);
- Transformer 內(nèi)置的歸納性注意偏差使得它比其他神經(jīng)網(wǎng)絡(luò)架構(gòu)更強(qiáng)大;
- 通用的、大規(guī)模的模型或智能體在技術(shù)上的成功關(guān)鍵是:數(shù)據(jù)工程、部署工程和建立基準(zhǔn)。
- 現(xiàn)有的 AI 模型離產(chǎn)生意識(shí)還很遙遠(yuǎn),生物大腦遠(yuǎn)比計(jì)算大腦更復(fù)雜,人類的思維運(yùn)作方式可以啟發(fā)算法層面的研究;
- 未來 AI 系統(tǒng)有可能具備與人類同等水平的智能,但是否能超越人類水平并不確定。
下面 AI 科技評(píng)論對(duì)訪談內(nèi)容作了不改變?cè)獾木庉嬚恚?/strong>
1、通用算法
Fridman:在我們有生之年能否建立一個(gè) AI 系統(tǒng)、在這次談話中取代我們作為采訪者或被采訪者?
Vinyals:我想問的是,我們想要實(shí)現(xiàn)那樣的愿望嗎?我很開心看到我們正在使用非常強(qiáng)大的模型,并覺得它們跟我們?cè)絹碓浇咏珕栴}是,如果沒有了談話中人性化的一面,它還會(huì)是一個(gè)有趣的人工制品嗎?可能不會(huì)。例如,在星際爭(zhēng)霸中,我們可以創(chuàng)建智能體來玩游戲、自我對(duì)抗,但最終人們關(guān)心的是,當(dāng)競(jìng)爭(zhēng)對(duì)手是人類時(shí),智能體要如何做。
所以毫無疑問,有了 AI,我們會(huì)更強(qiáng)大。比如你可以從 AI 系統(tǒng)中篩選出一些非常有趣的問題,在語(yǔ)言領(lǐng)域,我們有時(shí)將其稱為“Terry Picking”。同樣,如果我現(xiàn)在有這樣的工具,你問一個(gè)有趣的問題,特定系統(tǒng)會(huì)選擇一些單詞來組成答案,但這并不是很讓我興奮。
Fridman:如果引起人的興奮本身就是這個(gè)系統(tǒng)的目標(biāo)函數(shù)的一部分呢?
Vinyals:在游戲中,當(dāng)你設(shè)計(jì)算法時(shí),你可以將獲勝作為目標(biāo)寫入獎(jiǎng)勵(lì)函數(shù)。但如果你能衡量它并針對(duì)它進(jìn)行優(yōu)化,那還有什么令人興奮的呢?這可能就是我們玩電子游戲、上網(wǎng)互動(dòng)、觀看貓咪視頻的原因。的確,對(duì)強(qiáng)化學(xué)習(xí)中使用的那些明顯的獎(jiǎng)勵(lì)函數(shù)之外的獎(jiǎng)勵(lì)進(jìn)行建模,是非常有趣的。
另外,AI 在特定方面確實(shí)取得了一些關(guān)鍵進(jìn)展,例如,我們可以根據(jù)互聯(lián)網(wǎng)上的接受度來評(píng)估對(duì)話或信息是否可信。然后,如果可以自動(dòng)化地學(xué)習(xí)一個(gè)函數(shù),你就能更輕松地進(jìn)行優(yōu)化,然后進(jìn)行對(duì)話以優(yōu)化一些不太顯眼的信息,如興奮度。構(gòu)建一個(gè)至少一方面完全由興奮獎(jiǎng)勵(lì)函數(shù)驅(qū)動(dòng)的系統(tǒng)會(huì)很有趣。
但顯然,系統(tǒng)仍然包含很多來自系統(tǒng)構(gòu)建者的人性元素,而且為興奮度打上的標(biāo)簽是來自于我們,很難去計(jì)算興奮度。據(jù)我了解,還沒有人做這樣的事情。
Fridman:也許系統(tǒng)還需要有強(qiáng)烈的身份認(rèn)同感。它會(huì)有記憶,能夠講述它過去的故事。它可以從有爭(zhēng)議的觀點(diǎn)中學(xué)習(xí),因?yàn)榛ヂ?lián)網(wǎng)上有很多關(guān)于人們持有什么觀點(diǎn)的數(shù)據(jù),以及與某種觀點(diǎn)相關(guān)聯(lián)的興奮度。系統(tǒng)可以從中創(chuàng)建一些東西,不再是優(yōu)化語(yǔ)法和真實(shí)度,而是優(yōu)化句子在人性上的一致性。
Vinyals:從神經(jīng)網(wǎng)絡(luò)、人工智能的構(gòu)建者角度來看,通常你會(huì)嘗試將你討論過的許多有趣的主題映射到基準(zhǔn)測(cè)試中,然后也映射到關(guān)于這些系統(tǒng)當(dāng)前如何被構(gòu)建、如何學(xué)習(xí)、從什么數(shù)據(jù)中學(xué)習(xí)、學(xué)習(xí)什么的實(shí)際架構(gòu)中,這里我們要談的是數(shù)學(xué)函數(shù)的權(quán)重。
就當(dāng)前游戲的發(fā)展?fàn)顟B(tài)而言,我們需要什么才能達(dá)到這些人生體驗(yàn),比如恐懼?在語(yǔ)言方面,目前我們幾乎看不到進(jìn)步,因?yàn)槲覀儸F(xiàn)在做的是,獲取大量的在線人類互動(dòng),然后提取序列,包括一連串的單詞、字母、圖像、聲音、模態(tài),接著再試著學(xué)習(xí)一個(gè)函數(shù),通過神經(jīng)網(wǎng)絡(luò)來將看到這些序列的可能性加以最大化。
我們目前訓(xùn)練這些模型的一些方式,有希望能夠發(fā)展出你所說的那種能力。其中之一是智能體或者模型的生命周期,模型從離線數(shù)據(jù)中學(xué)習(xí)到這些,所以它只是被動(dòng)地進(jìn)行觀察和最大化。就像在一個(gè)山地景觀中,在到處都是人類交互數(shù)據(jù)的地方,提高權(quán)重;在沒有數(shù)據(jù)的地方,降低權(quán)重。模型通常不會(huì)體驗(yàn)到自身,它們只是數(shù)據(jù)的被動(dòng)觀察者。然后,我們讓它們?cè)谖覀兣c之交互時(shí)生成數(shù)據(jù),但這極大地限制了它們可能正在優(yōu)化或進(jìn)一步優(yōu)化權(quán)重時(shí)實(shí)際經(jīng)歷到的體驗(yàn)。 但我們甚至還沒有到達(dá)這樣的階段。
在 AlphaGo、SlphaStar中,我們部署模型,讓它與人類比賽,或與人類互動(dòng)(比如語(yǔ)言模型),以此來訓(xùn)練模型。它們并不是持續(xù)訓(xùn)練的,它們沒有根據(jù)從數(shù)據(jù)中學(xué)到的權(quán)重來學(xué)習(xí),它們不會(huì)持續(xù)改進(jìn)自身。
但如果你考慮一下神經(jīng)網(wǎng)絡(luò),這是可以理解的,它們可能無法從嚴(yán)格意義上的權(quán)重變化中學(xué)習(xí),這與神經(jīng)元如何互連以及我們?cè)谝簧腥绾螌W(xué)習(xí)有關(guān)。但是,當(dāng)你與這些系統(tǒng)交談時(shí),對(duì)話的上下文確實(shí)存在于它們的內(nèi)存中。這就像你啟動(dòng)一臺(tái)電腦,它的硬盤里有很多信息,您也可以訪問包含所有信息的互聯(lián)網(wǎng)。同時(shí)也有內(nèi)存,我們把它看作是智能體的指望所在。
目前存儲(chǔ)非常有限,我們現(xiàn)在談?wù)摰氖俏覀兯鶕碛械拇蠹s 2,000 個(gè)單詞,超出這個(gè)數(shù)字后,我們就開始遺忘我們所見到,所以一些短期的連貫性是存在的。如果智能體具有連貫性,那么如果你問「你的名字是什么」,它就可以記住這句話,但它可能會(huì)遺忘超出 2,000 個(gè)單詞的上下文。
所以從技術(shù)上講,人們對(duì)于深度學(xué)習(xí)的期望有這樣一種限制。但我們希望基準(zhǔn)測(cè)試和技術(shù)能夠擁有不斷積累的記憶體驗(yàn),離線學(xué)習(xí)的方式顯然很強(qiáng)大。我們已經(jīng)取得了很大的進(jìn)展,我們已經(jīng)再次看到了這些模仿的力量或者讓這些關(guān)于世界的基本知識(shí)被納入權(quán)重的互聯(lián)網(wǎng)規(guī)模,但是經(jīng)驗(yàn)是很缺乏的。
事實(shí)上,當(dāng)我們與系統(tǒng)交談時(shí),我們甚至都不訓(xùn)練它們,除非它們的內(nèi)存受到影響。這是動(dòng)態(tài)的部分,但它們的學(xué)習(xí)方式與你我從出生就開始的學(xué)習(xí)方式不同。所以關(guān)于你的問題,我這里提到的一點(diǎn)就是,記憶和體驗(yàn)與僅僅觀察和學(xué)習(xí)世界的知識(shí)不同。
我看到的第二個(gè)問題是,我們是從頭開始訓(xùn)練所有這些模型。好像我們不從頭開始訓(xùn)練模型、從最開始的地方找到靈感,就會(huì)有什么東西缺失了一樣。每隔幾個(gè)月,就應(yīng)該有某種方式可以讓我們像培養(yǎng)一個(gè)物種一樣訓(xùn)練模型,而宇宙中的許多其他元素都是從以前的迭代中構(gòu)建的。從純粹的神經(jīng)網(wǎng)絡(luò)的角度來看,很難不丟棄以前的權(quán)重,我們是從數(shù)據(jù)中學(xué)習(xí)并更新這些權(quán)重。所以感覺好像少了點(diǎn)什么,我們最終可能會(huì)找到它,但它會(huì)是什么樣子還不是很清楚。
Fridman:從頭開始訓(xùn)練似乎是一種浪費(fèi),每次我們解決圍棋和國(guó)際象棋、星際爭(zhēng)霸、蛋白質(zhì)折疊問題時(shí),肯定有一些方法可以重復(fù)使用權(quán)重,因?yàn)槲覀償U(kuò)展了巨大的新神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。所以我們?nèi)绾沃貜?fù)使用權(quán)重?如何學(xué)習(xí)提取什么是可泛化的以及如何摒棄其他無用的東西?如何更好地初始化權(quán)重?
Vinyals:深度學(xué)習(xí)的核心有一個(gè)絕妙的想法,那就是單個(gè)算法解決所有任務(wù)。隨著越來越多的基準(zhǔn)的出現(xiàn),這個(gè)基本原則已經(jīng)被證明是不可能的事情。也就是說,你有一個(gè)空白的計(jì)算大腦一樣的初始化神經(jīng)網(wǎng)絡(luò),然后你在監(jiān)督學(xué)習(xí)中喂給它更多東西。
理想情況是,輸入什么樣的期望,輸出就應(yīng)該什么樣。比如圖像分類,可能是從 1000 個(gè)類別中選出一個(gè),這就是圖像網(wǎng)絡(luò)。許多問題都可以通過這種方式映射出來。還應(yīng)該有一種通用的辦法,對(duì)于任何給定的任務(wù),你都可以不做很多改變、不加思考就能使用,我認(rèn)為這是深度學(xué)習(xí)研究的核心。
我們還沒有找到這個(gè)辦法,但如果人們能發(fā)現(xiàn)更少的技巧(一種通用算法)來解決重要問題,那將很令人興奮。在算法層面上,我們已經(jīng)有了一些通用的東西,就是在大量數(shù)據(jù)上訓(xùn)練出非常強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型的公式。
而在很多情況下,你需要考慮一些實(shí)際問題的特殊性。蛋白質(zhì)折疊問題很重要,已經(jīng)有一些基本的方法,比如 Transformer 模型、圖神經(jīng)網(wǎng)絡(luò)、來自 NLP 的見解(如 BERT),以及知識(shí)蒸餾。在這個(gè)公式中,我們還需要找到一些蛋白質(zhì)折疊問題所特有的東西,這非常重要,我們應(yīng)該解決它,有可能在這個(gè)問題中學(xué)到的知識(shí)將應(yīng)用到深度學(xué)習(xí)研究者的下一個(gè)迭代中。
也許在過去的 23 年里,在元學(xué)習(xí)這個(gè)領(lǐng)域,通用算法已經(jīng)有了一些進(jìn)展,主要是產(chǎn)生自語(yǔ)言領(lǐng)域的GPT-3。這個(gè)模型只訓(xùn)練一次,而且它并不局限于翻譯語(yǔ)言或只知道根系一個(gè)句子的情感,這些實(shí)際上可以通過提示來教給它,提示本質(zhì)上是給它們展示更多例子。我們是通過語(yǔ)言來進(jìn)行提示的,語(yǔ)言本身是我們互相學(xué)習(xí)的很自然的方式。也許它會(huì)先問我一些問題,然后我告訴它應(yīng)該做這個(gè)新任務(wù)。你不需要從頭開始重新訓(xùn)練它。我們已經(jīng)通過小樣本學(xué)習(xí)看到了一些神奇的時(shí)刻,在只有語(yǔ)言的模態(tài)中用語(yǔ)言進(jìn)行提示。
在過去兩年里,我們看到這擴(kuò)展到語(yǔ)言之外的其他模態(tài),添加了視覺、行動(dòng)和游戲,并取得了很大的進(jìn)步。這可能是實(shí)現(xiàn)單一模型的一個(gè)方式。問題是這種模型很難增加權(quán)重或容量,但它的確很強(qiáng)大。
目前的進(jìn)展出現(xiàn)在基于文本的任務(wù)或者視覺風(fēng)格分類的任務(wù)中,但應(yīng)該有更多的突破。我們有一個(gè)很好的基線,我們想要基準(zhǔn)向通用人工智能發(fā)展,整個(gè)社區(qū)正在向這個(gè)方向靠攏,這很好。讓我興奮的是,深度學(xué)習(xí)的下一步是如何讓這些模型更強(qiáng)大?如何訓(xùn)練它們?如果它們必須進(jìn)化,如何「培育」它們?當(dāng)你教它任務(wù)時(shí),它們應(yīng)該改變權(quán)重嗎?還有很多問題需要回答。
2、通才智能體 Gato
Fridman:你能解釋一下你這條推特中的“Meow”和貓的表情嗎?以及 Gato 是什么?它是如何工作的?涉及的是哪種神經(jīng)網(wǎng)絡(luò)?如何訓(xùn)練?
Vinyals:首先,Gato 這個(gè)名字跟其他 DeepMind 發(fā)布的一系列模型一樣,是以動(dòng)物的名字命名。大序列模型剛開始只有語(yǔ)言,但我們正在擴(kuò)展到其他模態(tài)。Gopher(囊地鼠)、Chinchilla(南美栗鼠/龍貓) 這些都是純語(yǔ)言模型,最近我們還發(fā)布了涵蓋視覺的 Flamingo(火烈鳥)。Gato 則添加了視覺和動(dòng)作模態(tài),像上、下、左、右這樣的離散動(dòng)作,可以很自然由詞語(yǔ)、映射到強(qiáng)大的語(yǔ)言序列模型中。
在發(fā)布 Gato 之前,我們討論了我們應(yīng)該選擇哪種動(dòng)物來命名,我想主要考慮的是 general agent(通用智能體),這是 Gato 所特有的屬性,“gato”在西班牙語(yǔ)中是“貓”的意思。
Gato 的基本原理與許多其他工作并沒有什么不同。它是一個(gè) Transformer 模型,一種循環(huán)的神經(jīng)網(wǎng)絡(luò),涵蓋多種模態(tài),包括視覺、語(yǔ)言、動(dòng)作。訓(xùn)練時(shí)的目標(biāo)是它能夠預(yù)測(cè)序列中的下一個(gè)是什么,如果用來訓(xùn)練的是動(dòng)作序列,那么就是預(yù)測(cè)下一個(gè)動(dòng)作是什么。字符序列、圖像序列也是類似。我們把它們都看作是字節(jié),模型的任務(wù)是預(yù)測(cè)下一個(gè)字節(jié)是什么,然后你可以將這個(gè)字節(jié)理解為一個(gè)動(dòng)作,并在游戲中使用這個(gè)動(dòng)作;你也可以將其理解為一個(gè)詞,并在與系統(tǒng)的對(duì)話中把這個(gè)詞寫下來。
Gato 的輸入包括圖像、文本、視頻、動(dòng)作,以及一些來自機(jī)器人的感知傳感器,因?yàn)闄C(jī)器人也是訓(xùn)練內(nèi)容之一。它輸出的是文字和動(dòng)作,它不輸出圖像,我們目前是設(shè)計(jì)了這樣的輸出形式,所以我說 Gato 是一個(gè)開始,因?yàn)檫€有更多的工作要做。本質(zhì)上,Gato 是這樣一個(gè)大腦,你給它任何序列的觀察和模態(tài),它會(huì)輸出序列的下一步。然后你開始你進(jìn)入下一個(gè)并繼續(xù)預(yù)測(cè)下一個(gè),以此類推。
現(xiàn)在它不僅僅是一個(gè)語(yǔ)言模型,你可以像和 Chinchilla、Flamingo 聊天一樣跟 Gato 聊天,但它同時(shí)是個(gè)智能體,它在各種各樣的數(shù)據(jù)集上被訓(xùn)練成是通用的,而不只是擅長(zhǎng)星際爭(zhēng)霸、雅達(dá)利游戲或者圍棋。
Fridman:在動(dòng)作模態(tài)上,什么樣的模型能稱之為「智能體」?
Vinyals:在我看來,智能體實(shí)際上是在一個(gè)環(huán)境中采取行動(dòng)的能力。它對(duì)環(huán)境給出一個(gè)動(dòng)作的反應(yīng),環(huán)境會(huì)返回一個(gè)新的觀察,然后它會(huì)產(chǎn)生下一個(gè)動(dòng)作。
我們訓(xùn)練 Gato 的方法是提取觀察數(shù)據(jù)集,是一種大規(guī)模的模仿學(xué)習(xí)算法,比如訓(xùn)練它預(yù)測(cè)數(shù)據(jù)集中的下一個(gè)詞是什么。我們有人們?cè)诰W(wǎng)頁(yè)上的文字和聊天數(shù)據(jù)集。
DeepMind 對(duì)強(qiáng)化學(xué)習(xí)和在不同環(huán)境中工作的學(xué)習(xí)智能體很感興趣。我們開發(fā)了一個(gè)數(shù)據(jù)集,記錄智能體的經(jīng)驗(yàn)軌跡。我們訓(xùn)練的其他智能體都是為了一個(gè)單一的目標(biāo),比如控制一個(gè)三維游戲環(huán)境和導(dǎo)航迷宮,我們會(huì)把一個(gè)智能體與環(huán)境的交互所獲得的經(jīng)驗(yàn)加入到數(shù)據(jù)集里。
訓(xùn)練 Gato 時(shí),我們把單詞、智能體與環(huán)境的交互等數(shù)據(jù)都混合在一起進(jìn)行訓(xùn)練,這是 Gato 的「通用」之所在,對(duì)于不同的模態(tài)和任務(wù),它都只有單個(gè)的「大腦」,而且與近年來大部分神經(jīng)網(wǎng)絡(luò)相比,它并沒有那么大,只有 10 億參數(shù)。
盡管規(guī)模小,但它的訓(xùn)練數(shù)據(jù)集非常有挑戰(zhàn)性和多樣化,不僅包含互聯(lián)網(wǎng)數(shù)據(jù),還包含智能體與不同環(huán)境的交互經(jīng)驗(yàn)。
原則上,Gato 能夠控制任何環(huán)境,尤其是被訓(xùn)練過的電子游戲、各種機(jī)器人任務(wù)等環(huán)境。但它不會(huì)做得比教它的老師更好,規(guī)模仍然是很重要的,Gato 的規(guī)模相對(duì)還比較小,所以它是個(gè)開始,擴(kuò)大規(guī)??赡軙?huì)增強(qiáng)各種模態(tài)之間的協(xié)同作用。而且我相信會(huì)有一些新的研究或準(zhǔn)備數(shù)據(jù)的方法,比如我們需要讓模型清楚它在玩雅達(dá)利游戲時(shí)不只是考慮上和下的動(dòng)作,在看到屏幕開始玩游戲之前,智能體需要一定的背景,可以用文字告訴它「我給你展示的是一整個(gè)序列,你要開始玩這個(gè)游戲了」。所以文字可能是增強(qiáng)數(shù)據(jù)的一個(gè)辦法。
Fridman:如何對(duì)文本、圖像、游戲動(dòng)作、機(jī)器人任務(wù)做 tokenization?
Vinyals:好問題。tokenization 是讓所有數(shù)據(jù)成為序列的一個(gè)起點(diǎn),這就像我們把所有東西都分解成這些拼圖塊,然后就可以模擬出拼圖的樣子。當(dāng)你把它們排成一行時(shí),就成了一個(gè)序列。Gato 使用的是目前標(biāo)準(zhǔn)的文本 tokenization 技術(shù),我們通過常用的子字符串來對(duì)文本進(jìn)行 tokenization ,比如“ing”是英語(yǔ)中一個(gè)常用的子字符串,所以它可以作為一個(gè) token。
Fridman:一個(gè)單詞需要多少個(gè) token?
Vinyals:對(duì)于一個(gè)英語(yǔ)單詞,目前的 tokenization 粒度一般是 2~5 個(gè)符號(hào),比字母大,比單詞小。
Fridman:你嘗試過對(duì) emojis 做 tokenization 嗎?
Vinyals:emojis 實(shí)際上只是字母的序列。
Fridman:emojis 是圖像還是文本?
Vinyals:實(shí)際上可以將 emojis 映射為字符序列,所以你可以給模型輸入 emojis,它也會(huì)輸出 emojis。在 Gato 中,我們處理圖像的方式是把圖像壓縮為不同強(qiáng)度的像素,從而獲得一個(gè)非常長(zhǎng)的像素序列。
Fridman:所以這里面不涉及語(yǔ)義?你不需要理解關(guān)于圖像的任何東西?
Vinyals:對(duì),在這里只使用了壓縮的概念。在 tokenization 層面,我們做的就是找到共同的模式來壓縮圖像。
Fridman:視覺信息比如顏色確實(shí)能捕捉到圖像意義方面的東西,而不只是一些統(tǒng)計(jì)數(shù)據(jù)。
Vinyals:在機(jī)器學(xué)習(xí)中,處理圖像的方法更多是由數(shù)據(jù)驅(qū)動(dòng)的。我們只是使用圖像的統(tǒng)計(jì)數(shù)據(jù),然后對(duì)它們進(jìn)行量化。常見的子字符串被定位成一個(gè) token,圖像也是類似,但它們之間沒有聯(lián)系。如果把 token 看作是整數(shù),假設(shè)文本有 10000 個(gè) token,從 1 到 10000,它們代表了我們會(huì)看到的所有語(yǔ)言和單詞。
圖像是另一個(gè)整數(shù)集合,從 10001 到20000,二者是完全獨(dú)立的。連接它們的是數(shù)據(jù),在數(shù)據(jù)集中,圖片的標(biāo)題會(huì)告訴圖像內(nèi)容。模型需要預(yù)測(cè)從文本到像素,二者之間的關(guān)聯(lián)隨著算法的學(xué)習(xí)而發(fā)生。除了單詞、圖像,我們還可以把整數(shù)分配給動(dòng)作,將其離散化,用類似的想法把動(dòng)作壓縮成 token。
這就是我們現(xiàn)在把所有空間類型映射到整數(shù)序列的方法,它們各自占據(jù)的空間不同,連接它們的是學(xué)習(xí)算法。
Fridman:你之前提到過,很難擴(kuò)大規(guī)模,這是什么意思?有些涌現(xiàn)是有規(guī)模上的門檻的,為什么很難擴(kuò)大類似于 Gato 這樣的網(wǎng)絡(luò)?
Vinyals:如果你對(duì) Gato 網(wǎng)絡(luò)進(jìn)行再訓(xùn)練,擴(kuò)大規(guī)模并不難。關(guān)鍵是我們現(xiàn)在有10億個(gè)參數(shù),我們是否可以使用同樣的權(quán)重來把它擴(kuò)展成一個(gè)更大的大腦?這是非常困難的。所以在軟件工程中有模塊化的概念,已經(jīng)有一些利用模塊化的研究。Flamingo 不處理動(dòng)作,但它處理圖像很強(qiáng)大,這些項(xiàng)目之間的任務(wù)是不同的、模塊化的。
我們?cè)?Flamingo 模型中完美地實(shí)現(xiàn)了模塊化,我們采用了純語(yǔ)言模型 Chinchilla 的權(quán)重,然后凍結(jié)這些權(quán)重,在模型的正確位置接上一些新的神經(jīng)網(wǎng)絡(luò)。你需要研究如何在不破壞其他功能的情況下添加別的功能。
我們創(chuàng)建了一個(gè)小的子網(wǎng)絡(luò),它不是隨機(jī)初始化的,而是通過自我監(jiān)督來學(xué)習(xí)。然后我們用數(shù)據(jù)集把視覺和語(yǔ)言這兩種模態(tài)聯(lián)系起來。我們凍結(jié)了網(wǎng)絡(luò)中最大的部分,然后從頭在訓(xùn)練頂部添加了一些參數(shù)。然后 Flamingo 就出現(xiàn)了,它輸入的是文本和圖像,輸出的是文本。你可以教它新的視覺任務(wù),它所做的事情超出了數(shù)據(jù)集本身提供的功能,但它利用了許多從 Chinchilla 那里獲得的語(yǔ)言知識(shí)。
這種模塊化的關(guān)鍵思想是,我們?nèi)∫粋€(gè)凍結(jié)的大腦,給它添加一個(gè)新的功能。在某種程度上,你可以看到,即使是在 DeepMind,我們也有 Flamingo 這種折衷主義,它可以更合理地利用規(guī)模,而不需要從頭再訓(xùn)練一個(gè)系統(tǒng)。
而 Gato 盡管也使用了相同的數(shù)據(jù)集,但它是從頭訓(xùn)練的。所以我想社區(qū)面臨的一個(gè)大問題是,我們應(yīng)該從頭開始訓(xùn)練,還是應(yīng)該接受模塊化?作為一種擴(kuò)大規(guī)模的方式,模塊化非常有效。
3、元學(xué)習(xí)將包含更多交互
Fridman:Gato 出現(xiàn)之后,我們能否重新定義「元學(xué)習(xí)」這個(gè)術(shù)語(yǔ)?你認(rèn)為元學(xué)習(xí)是什么?5年或10年之后,元學(xué)習(xí)會(huì)是擴(kuò)展后的 Gato 的樣子嗎?
Vinyals:也許向后看而不是向前看能提供一個(gè)好視角。當(dāng)我們?cè)?2019 年談?wù)撛獙W(xué)習(xí)時(shí),它的含義主要是經(jīng)歷了 GPT-3 革命而改變的。當(dāng)時(shí)的基準(zhǔn)測(cè)試是關(guān)于學(xué)習(xí)對(duì)象身份的能力,所以非常適用于視覺和物體分類。我們學(xué)習(xí)的不僅僅是 ImageNet 告訴我們要學(xué)習(xí)的 1000 個(gè)類別,我們還要學(xué)習(xí)在與模型交互時(shí)可以被定義的對(duì)象類別。
模型的進(jìn)化過程很有趣。剛開始,我們有一個(gè)特殊的語(yǔ)言,它是一個(gè)小的數(shù)據(jù)集,我們提示模型有一個(gè)新的分類任務(wù)。有了機(jī)器學(xué)習(xí)數(shù)據(jù)集的形式的提示,就得到了一個(gè)系統(tǒng),可以預(yù)測(cè)或分類我們定義的物體。最后,語(yǔ)言模型成為了一個(gè)學(xué)習(xí)者。GPT-3 表明,我們可以關(guān)注對(duì)象分類以及在學(xué)習(xí)對(duì)象類別的范圍內(nèi)元學(xué)習(xí)意味著什么。
現(xiàn)在,我們不再被基準(zhǔn)束縛,我們可以通過自然語(yǔ)言直接告訴模型一些邏輯任務(wù)。這些模型不是完美的,但它們正在做新的任務(wù),通過元學(xué)習(xí)來獲得新能力。Flamingo 模型擴(kuò)展到視覺和語(yǔ)言多模態(tài),但擁有相同的能力。你可以教它。例如,一個(gè)涌現(xiàn)的特性是你可以給數(shù)字拍照,然后教它做算術(shù)。你給它看幾個(gè)例子,它就能學(xué)會(huì),所以它遠(yuǎn)遠(yuǎn)超出了以往的圖像分類。
這擴(kuò)展了元學(xué)習(xí)在過去的含義。元學(xué)習(xí)一個(gè)不斷變化著的術(shù)語(yǔ)。鑒于當(dāng)前的進(jìn)展,我很希望看到接下來會(huì)發(fā)生什么,5 年后可能就另說了。我們有一個(gè)系統(tǒng),它有一組權(quán)重,我們可以通過交互提示教它玩星際爭(zhēng)霸。想象一下,你與一個(gè)系統(tǒng)對(duì)話,教它一個(gè)新游戲,向它展示這個(gè)游戲的例子。也許這個(gè)系統(tǒng)甚至?xí)柲銌栴},比如,「我剛玩過這個(gè)游戲,我玩得好嗎?你能教我更多嗎?」所以5年或者10年后,在專門的領(lǐng)域里,這些元學(xué)習(xí)能力會(huì)更具交互性,更加豐富。比如我們專門針對(duì)星際爭(zhēng)霸開發(fā)的 AlphaStar 是很不同的。算法是通用的,但權(quán)重是特定的。
元學(xué)習(xí)已經(jīng)超出了提示的范圍,它會(huì)包含更多的交互。系統(tǒng)可能會(huì)在它犯錯(cuò)或者輸?shù)舯荣惡蟾嬖V我們給它一些反饋。其實(shí)基準(zhǔn)已經(jīng)存在了,我們只是改變了它們的目標(biāo)。所以在某種程度上,我喜歡把通用人工智能理解為:我們已經(jīng)在國(guó)際象棋和星際爭(zhēng)霸這樣的特定任務(wù)上有 101 %的性能,而在下一次迭代中,我們可以在所有任務(wù)上達(dá)到 20%。下一代的模型的進(jìn)步肯定是沿著這個(gè)方向。當(dāng)然我們?cè)谝恍┦虑樯峡赡軙?huì)出錯(cuò),比如我們可能沒有工具,或者可能 Transformer 不夠。在未來的 5 到 10 年里,模型的權(quán)重很可能已經(jīng)被訓(xùn)練過,更多的是關(guān)于教學(xué)或者讓模型展開元學(xué)習(xí)。
這是一種交互式的教學(xué)。在機(jī)器學(xué)習(xí)領(lǐng)域,長(zhǎng)期以來處理分類任務(wù)是使用的都不是這種方法。我的想法聽起來有點(diǎn)像最近鄰(nearest neighbor)算法,它幾乎是最簡(jiǎn)單的算法,并不需要學(xué)習(xí),不需要計(jì)算梯度。最近鄰做是在一個(gè)數(shù)據(jù)集中測(cè)量點(diǎn)與點(diǎn)之間的距離,然后對(duì)一個(gè)新點(diǎn)進(jìn)行分類,你只需要計(jì)算在這大量數(shù)據(jù)中最近的點(diǎn)是什么。所以你可以把提示看作是:你在上載的時(shí)候處理的不僅僅是簡(jiǎn)單的點(diǎn),而是在為預(yù)訓(xùn)練的系統(tǒng)添加知識(shí)。
提示是對(duì)機(jī)器學(xué)習(xí)中非常經(jīng)典的一個(gè)概念的發(fā)展,即通過最近的點(diǎn)來學(xué)習(xí)。我們?cè)?2016 年的一項(xiàng)研究使用的就是最近鄰的方法,這在計(jì)算機(jī)視覺領(lǐng)域也很常見,如何計(jì)算兩幅圖像之間的距離是一個(gè)非常活躍的研究領(lǐng)域,如果你能獲得一個(gè)很好的距離矩陣,你也能獲得一個(gè)很好的分類器。
這些距離和點(diǎn)不僅僅限于圖像,還可以是教給模型的文字或文字、圖像、動(dòng)作序列等新信息。我們可能不會(huì)再做更多的權(quán)重訓(xùn)練。元學(xué)習(xí)的一些技術(shù)確實(shí)會(huì)做一些微調(diào),得到一個(gè)新任務(wù)時(shí),它們會(huì)稍微訓(xùn)練一下權(quán)重。
4、Transformer 的強(qiáng)大之處
Fridman:我們已經(jīng)做出了 Flamingo、Chinchilla、Gopher 這些通用的、大規(guī)模的模型和智能體,它們?cè)诩夹g(shù)上有何特殊之處?
Vinyals:我認(rèn)為成功的關(guān)鍵是工程。首先是數(shù)據(jù)工程,因?yàn)槲覀冏罱K收集的是數(shù)據(jù)集。然后是部署工程,我們將模型大規(guī)模部署到一些計(jì)算集群中。這個(gè)成功要素適用于一切,魔鬼的確存在于細(xì)節(jié)之中。
另外就是目前基準(zhǔn)方面的進(jìn)展,一個(gè)團(tuán)隊(duì)花上數(shù)月做一項(xiàng)研究,并不能確定能否成功,但如果你不冒險(xiǎn)去做一些看起來不可能的事情,就不會(huì)有成功的機(jī)會(huì)。不過,我們需要一種衡量進(jìn)展的方法,所以建立基準(zhǔn)是至關(guān)重要的。
我們大量利用基準(zhǔn)開發(fā)了 AlphaFold,這個(gè)項(xiàng)目的數(shù)據(jù)和指標(biāo)都是現(xiàn)成的。一個(gè)優(yōu)秀團(tuán)隊(duì)不應(yīng)該是為了找到一些增量改進(jìn)并發(fā)表論文,而是要有更高的目標(biāo),并為其鉆研數(shù)年。
在機(jī)器學(xué)習(xí)領(lǐng)域,我們喜歡像神經(jīng)網(wǎng)絡(luò)這樣的架構(gòu),而且在 Transformer 出現(xiàn)之前,這是一個(gè)發(fā)展非常迅速的領(lǐng)域。“Attentionis All You Need” 的確是一個(gè)很棒的論文題目。這個(gè)架構(gòu)實(shí)現(xiàn)了我們對(duì)任何字節(jié)序列進(jìn)行建模的夢(mèng)想。我認(rèn)為這些架構(gòu)的進(jìn)步某種程度上是在于神經(jīng)網(wǎng)絡(luò)的工作方式,很難找到一種發(fā)明于五年前、至今依然穩(wěn)定、變化很小的架構(gòu),所以 Transformer 能夠不斷出現(xiàn)在很多項(xiàng)目中,這是令人驚訝的。
Fridman:在技術(shù)的哲學(xué)性層面,注意力的魔力在什么地方?注意力在人類心智中是如何運(yùn)作的?
Vinyals:Transformer 和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò) LSTMs 之間存在區(qū)別,在 Transformer 的早期,LSTMs 仍然是很強(qiáng)大的序列模型,比如 AlphaStar 就同時(shí)使用了兩者。Transformer 的強(qiáng)大之處是它內(nèi)置了一種歸納性的注意偏差。假如我們要解決針對(duì)一串單詞的復(fù)雜任務(wù),比如翻譯一整段話,或者根據(jù)之前的十個(gè)段落來預(yù)測(cè)下一段話。
在直覺上,Transformer 做這些任務(wù)的方式是對(duì)人類的模仿和復(fù)制,在 Transformer 中,你是在尋找某個(gè)東西,你在剛讀了一段文字后,你會(huì)想接下來會(huì)發(fā)生什么,你可能想重新看一下文本,這是一種假設(shè)驅(qū)動(dòng)的過程。如果我在想我下一個(gè)詞是“貓”還是“狗”,那么Transformer 的運(yùn)作方式是它有兩個(gè)假設(shè):會(huì)是貓?還是狗?如果是貓,我會(huì)找出一些詞(不一定就是“貓”這個(gè)詞本身),并回溯上文來看看輸出“貓”還是“狗”更說得通。
然后它會(huì)對(duì)單詞進(jìn)行一些非常深入的計(jì)算,它將詞組合起來,它還可以查詢。如果你真的仔細(xì)思考文本,你就需要回看上文的所有文本,但是什么在引導(dǎo)著注意力?我剛剛寫了什么,這當(dāng)然很重要,但你十頁(yè)之前寫下的東西也可能很關(guān)鍵,所以你要考慮的不是位置,而是內(nèi)容。Transformer 的可以查詢特定的內(nèi)容并將其拉取出來,從而更好地做決策。這是一種解釋 Transformer 的方式,我認(rèn)為這種歸納偏差非常強(qiáng)大。隨著時(shí)間推移,Transformer 可能會(huì)有一些細(xì)節(jié)上的變化,但是歸納偏差使得 Transformer 比基于近因偏差的循環(huán)網(wǎng)絡(luò)更加強(qiáng)大,循環(huán)網(wǎng)絡(luò)在某些任務(wù)中有效,但它有非常大的缺陷。
Transformer 本身也有缺陷。我認(rèn)為最主要的一個(gè)挑戰(zhàn)就是我們剛才討論的提示。一個(gè)提示可能有長(zhǎng)達(dá) 1000 個(gè)詞,甚至我需要給系統(tǒng)看關(guān)于一個(gè)游戲的視頻和維基百科的文章。當(dāng)系統(tǒng)玩游戲并向我提問時(shí),我還需要與之互動(dòng)。我需要成為一個(gè)好的老師來教模型實(shí)現(xiàn)超出現(xiàn)有的能力的事情。所以問題是,我們?nèi)绾螌?duì)這些任務(wù)進(jìn)行基準(zhǔn)測(cè)試?我們?nèi)绾胃淖兗軜?gòu)的結(jié)構(gòu)?這是有爭(zhēng)議的。
Fridman:個(gè)體的人在這一切的研究進(jìn)展中有多重要?他們?cè)诙啻蟪潭壬细淖兞讼嚓P(guān)領(lǐng)域?你現(xiàn)在正在領(lǐng)導(dǎo)著 DeepMind 的深度學(xué)習(xí)研究,你會(huì)有很多項(xiàng)目,很多杰出的研究人員,所有這些人類能帶來多少變革?
Vinyals:我相信人的作用非常大。一些人想要獲得可行的想法并堅(jiān)持下去,另一些人可能更實(shí)際,他們不在乎什么想法可行,只要能破解蛋白質(zhì)折疊就行。我們同時(shí)需要這兩種看起來對(duì)立的想法。在歷史上,二者都分別或早或晚地產(chǎn)出了某些東西。二者的區(qū)分也許還類似于強(qiáng)化學(xué)習(xí)領(lǐng)域所說的 Exploration-Exploitation Tradeoff(探索-利用權(quán)衡)。在一個(gè)團(tuán)隊(duì)中或在會(huì)議上與人互動(dòng)時(shí),你很快會(huì)發(fā)現(xiàn)某個(gè)東西是可探索的或者可利用的。
否定任何一種研究風(fēng)格都是錯(cuò)誤的,我是工業(yè)界的,所以我們有大規(guī)模算力可以使用,也會(huì)有相應(yīng)的特定類型的研究。為了科學(xué)進(jìn)步,我們需要回答我們現(xiàn)在應(yīng)該回答的問題。
與此同時(shí),我也看到了很多進(jìn)步。注意力機(jī)制最初是在加拿大的蒙特利爾由于缺乏算力而被發(fā)現(xiàn)的,當(dāng)時(shí)我們正和谷歌大腦的朋友一起研究序列到序列模型。我們使用了 8 個(gè) GPU(其實(shí)這個(gè)數(shù)量在那個(gè)時(shí)候其實(shí)挺多了),我覺得蒙特利爾在計(jì)算規(guī)模上還比較有限。但后來他們發(fā)現(xiàn)了基于內(nèi)容的注意力概念,這進(jìn)一步帶來了 Transformer。
Fridman:很多人都傾向于認(rèn)為天才棲息于那些宏大的創(chuàng)見,但我懷疑工程上的天才往往在于細(xì)節(jié),有時(shí)單個(gè)工程師或者少數(shù)幾個(gè)工程師就能改變我們所做的事情,尤其是那些大規(guī)模計(jì)算機(jī)上進(jìn)行的一個(gè)工程決策可能會(huì)引發(fā)連鎖反應(yīng)。
Vinyals:如果你回顧一下深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史,你會(huì)發(fā)現(xiàn)有偶然的成分在。因?yàn)?GPU 恰好在正確的時(shí)間出現(xiàn),盡管是為電子游戲而服務(wù)。所以即使是硬件工程也會(huì)受到時(shí)間因素的影響。也是由于這場(chǎng)硬件革命,數(shù)據(jù)中心被建立起來。例如谷歌的數(shù)據(jù)中心。有了這樣的數(shù)據(jù)中心,我們就可以訓(xùn)練模型。軟件也是一個(gè)重要的因素,而且越來越多的人在進(jìn)入這個(gè)領(lǐng)域。我們也許還會(huì)期待一個(gè)系統(tǒng)能擁有所有基準(zhǔn)。
5、AI 距離涌現(xiàn)出意識(shí)還很遠(yuǎn)
Fridman:你有一篇與 Jeff Dean、Percy Liang 等人合著的論文,題為“Emergent Abilities of Large Language Models”。神經(jīng)網(wǎng)絡(luò)中的涌現(xiàn)在直覺上怎么解釋?是否有一個(gè)神奇的臨界點(diǎn)?這會(huì)因任務(wù)而異嗎?
Vinyals:以基準(zhǔn)測(cè)試為例。在你訓(xùn)練系統(tǒng)的過程中,當(dāng)你分析數(shù)據(jù)集大小對(duì)性能有多大影響、模型大小如何影響性能、訓(xùn)練了多久系統(tǒng)才會(huì)影響到性能等問題時(shí),曲線是相當(dāng)平滑的。如果我們把 ImageNet 看成是非常平滑且可預(yù)測(cè)的訓(xùn)練曲線,它在某種程度上看起來相當(dāng)平滑和可預(yù)測(cè)。
在語(yǔ)言方面,基準(zhǔn)要求更多的思考,即使輸入是一個(gè)描述數(shù)學(xué)問題的句子,也需要更多的處理和更多的內(nèi)省。模型的性能可能會(huì)變得隨機(jī),直到由 Transformer 的查詢系統(tǒng)或者 Transformer 這樣的語(yǔ)言模型提出一個(gè)正確的問題,性能才開始從隨機(jī)變?yōu)榉请S機(jī),這是非常經(jīng)驗(yàn)性的,背后還沒有形式化的理論。
Fridman:最近一個(gè)谷歌工程師聲稱,Lambda 語(yǔ)言模型是有意識(shí)的。這個(gè)案例涉及人類層面、機(jī)器學(xué)習(xí)的技術(shù)層面以及 AI 系統(tǒng)在人類世界中的角色的哲學(xué)層面。作為一名機(jī)器學(xué)習(xí)工程師以及作為一個(gè)人類,你的看法是什么?
Vinyals:我認(rèn)為目前的任何一種模型離具有意識(shí)都還很遠(yuǎn)。我覺得我有點(diǎn)像個(gè)失敗的科學(xué)家,我總會(huì)覺得看到機(jī)器學(xué)習(xí)可能是一門可以幫助其他科學(xué)的科學(xué),我喜歡天文學(xué)、生物,但我不是那些領(lǐng)域的專家,所以我決定研究機(jī)器學(xué)習(xí)。
但是當(dāng)我對(duì) Alphafold 有了更多的了解,學(xué)習(xí)了一些關(guān)于蛋白質(zhì)、生物學(xué)和生命科學(xué)的知識(shí)后,我開始觀察在原子水平上發(fā)生的事情。我們傾向于把神經(jīng)網(wǎng)絡(luò)想象成大腦,當(dāng)我不是專家的時(shí)候,它看起來很復(fù)雜性和神奇,但是生物系統(tǒng)遠(yuǎn)遠(yuǎn)比計(jì)算大腦要更復(fù)雜,現(xiàn)有的模型還沒有達(dá)到生物大腦的水平。
對(duì)于這位谷歌工程師的事情,我并沒有那么驚訝。也許是因?yàn)槲铱吹綍r(shí)間曲線變得更加平滑,從50 年代香農(nóng)的工作以來,語(yǔ)言模型的進(jìn)步并沒有那么快,100年前的想法和我們現(xiàn)在的想法并沒有什么不同。但沒有人應(yīng)該告訴別人他們應(yīng)該怎么想。
人類從一開始被創(chuàng)造出來就具有的復(fù)雜性,以及整個(gè)宇宙進(jìn)化的復(fù)雜性,對(duì)我來說是更迷人的數(shù)量級(jí)。癡迷于你所做的事情是好事,但我希望生物學(xué)專家能告訴我這并不是那么神奇。通過社區(qū)中的互動(dòng),我們也可以獲得一定程度的教育,這有助于了解什么是不正常的、什么是不安全的等等,否則一項(xiàng)技術(shù)將無法得到正確的應(yīng)用。
Fridman:為了解決智能問題,系統(tǒng)需要獲得意識(shí)嗎?人類心智中哪一部分的意識(shí)對(duì)創(chuàng)造 AI 系統(tǒng)有指導(dǎo)意義?
Vinyals:我覺得系統(tǒng)的智能不必達(dá)到有一個(gè)極度有用、能夠挑戰(zhàn)你、指導(dǎo)你的大腦的程度。而是應(yīng)該你教它做事。就我個(gè)人而言,我不確定意識(shí)是否必要,可能意識(shí)或其他生物或進(jìn)化的觀點(diǎn)會(huì)影響我們的下一代算法。
人的大腦和神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算的細(xì)節(jié)是有區(qū)別的,二者當(dāng)然有一些相似之處,但我們對(duì)大腦的細(xì)節(jié)了解還不夠。但如果把范圍縮小一點(diǎn),如我們的思維過程,記憶如何運(yùn)作,甚至我們?nèi)绾芜M(jìn)化到現(xiàn)在的樣子,探索和開發(fā)是什么等等,這些都可以啟發(fā)算法層面的研究。
Fridman:你是否同意 Richard Sutton 在 The Bitter Lesson(《苦澀的教訓(xùn)》)中的觀點(diǎn),即 70 年來的人工智能研究帶來最大的教訓(xùn)是利用計(jì)算能力的一般方法是最終有效的方法?
Vinyals:我非常同意這個(gè)觀點(diǎn)。對(duì)于構(gòu)建可信、復(fù)雜的系統(tǒng)來說,擴(kuò)大規(guī)模是必要的。這可能還不夠,我們需要一些突破。Sutton 提到搜索是規(guī)?;囊环N方法,在圍棋這樣的領(lǐng)域,搜索很有用,因?yàn)橛忻鞔_的獎(jiǎng)勵(lì)函數(shù)。但在其他一些任務(wù)中,我們不太清楚該怎么做。
6、AI 至少可以具備人類水平的智能
Fridman:你認(rèn)為在你有生之年,我們能建立一個(gè)達(dá)到甚至超越人類智力水平的通用人工智能系統(tǒng)嗎?
Vinyals:我絕對(duì)相信它將具備人類水平的智能?!赋健惯@個(gè)詞很難定義,尤其是當(dāng)我們從模仿學(xué)習(xí)的角度來看目前的標(biāo)準(zhǔn)時(shí),我們當(dāng)然可以讓 AI 在語(yǔ)言方面模仿和超越人類。所以要通過模仿來達(dá)到人類水平需要強(qiáng)化學(xué)習(xí)和其他東西。在某些領(lǐng)域已經(jīng)有了回報(bào)。
就超越人類能力而言,AlphaGo 是我迄今為止最喜歡的例子。而在一般意義上,我不確定我們是否能夠從模仿人類智力水平的角度來定義獎(jiǎng)勵(lì)函數(shù)。至于超越,我還不太確定,但肯定能達(dá)到人類水平。很明顯我們不會(huì)去嘗試超越,如果超越,我們將有超人科學(xué)家和探索發(fā)現(xiàn)來推動(dòng)世界發(fā)展,但至少人類水平的系統(tǒng)也是非常強(qiáng)大的。
Fridman:當(dāng)有數(shù)十億達(dá)到或超越人類水平的智能體與人類社會(huì)深度融合,你認(rèn)為會(huì)有一個(gè)奇點(diǎn)時(shí)刻嗎?你會(huì)害怕還是為這個(gè)世界感到興奮?
Vinyals:也許我們需要考慮我們是否真的能達(dá)到這個(gè)目標(biāo)。在資源有限的情況下,讓太多的人共存會(huì)產(chǎn)生很多問題。對(duì)于數(shù)字實(shí)體來說,數(shù)量限制也許也應(yīng)該存在。這是出于能源可用性的原因,因?yàn)樗鼈円蚕哪茉础?/p>
事實(shí)上,就能源需求而言,大多數(shù)系統(tǒng)的效率都比我們低。但我認(rèn)為,作為一個(gè)社會(huì),我們需要共同努力找到合理的增長(zhǎng)方式以及我們?nèi)绾喂泊?。如果真的發(fā)生,我會(huì)很興奮,自動(dòng)化的一些方面使那些原本顯然沒有機(jī)會(huì)獲得某些資源或知識(shí)的人變得有機(jī)會(huì),這是我最期待看到的應(yīng)用。
Fridman:最后一個(gè)問題,隨著人類走出太陽(yáng)系,未來世界會(huì)有更多的人類還是更多的機(jī)器人?
Vinyals:人類和 AI 可能混合共存,這只是猜測(cè),但已經(jīng)有公司正試圖以這種方式讓我們變得更好。我希望比例至多到達(dá) 1:1,1:1 也許是可行的,但失去平衡就不好了。
原視頻鏈接:https://youtu.be/aGBLRlLe7X8