深度學習崛起十年:“開掛”的OpenAI革新者
AlexNet,AlphaGo,GPT、CLIP、DALL-E和Codex,這些在AI界轟動一時的杰作,對于任何一個AI領域的研究者來說,主導或參與上述任何一項項目都無疑可以成就一段輝煌的職業(yè)生涯,但是,偏偏就有人就能集齊這大龍珠。
更讓人感到絕望的是,這個人的成就還不止于此。在他2012年博士畢業(yè)后的十年里,他的論文被引次數超過25萬次,在AI學術界有著巨大影響力。此人就是OpenAI聯合創(chuàng)始人兼首席科學家Ilya Sutskever。
(從左至右依次為Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)
在多倫多大學讀本科時,深度學習三巨頭之一的Geoffrey Hinton就成了他的導師,當時這個領域一片荒蕪,但他的學習動機非常明確,就是要對AI做出哪怕非常小但有意義的貢獻。Hinton一開始給Sutskever的研究項目是改進隨機鄰居嵌入算法,后者的出色表現給Hinton留下了深刻印象。
2012年,在多倫多大學讀博期間,在Hinton的指導下,他和博士生同學Alex Krizhevsky設計了AlexNet,并在當年的ImageNet大賽上一舉奪魁。AlexNet的出現使得深度學習大放異彩,并讓AI在過去10年里得到突飛猛進的發(fā)展。
博士畢業(yè)后,他加入了Hinton的新研究公司DNNResearch,2013年3月,這家只有三個人的創(chuàng)業(yè)公司被谷歌收購,Sutskever擔任Google Brain的研究科學家。
期間,他與谷歌研究員Oriol Vinyals和Quoc Le提出了Seq2seq學習,開啟了RNN廣泛應用于語言任務的時代。他還參與開發(fā)了機器學習框架TensorFlow,用于大規(guī)模機器學習。更重要的是,他還參與研發(fā)了DeepMind的AlphaGo,該系統基于深度神經網絡和蒙特卡羅樹搜索方面進行訓練,并使用強化學習算法自學習,他也是AlphaGo論文的作者之一。
2015年7月,Sutskever參加了一場有Sam Altman(Y Combinator前總裁)、Elon Musk和Greg Brockman(現OpenAI首席技術官)的飯局,他們一致決定要成立一個“工程型的AI實驗室”。同年末,Sutskever與Greg Brockman共同創(chuàng)立OpenAI,致力于創(chuàng)造出通用人工智能,并獲得了Elon Musk,Sam Altman和LinkedIn創(chuàng)始人Reid Hoffman等人的私人投資,在6年時間里,他們如今開發(fā)出了GPT、CLIP、DALL-E和Codex等震動業(yè)界的AI項目。
作為一個AI前沿領域的探索者,縱覽其職業(yè)生涯,Sutskever的每一次轉向似乎都能恰到好處地挖到黃金。
那么,他對AI發(fā)展的敏銳度來自何處,又如何看待未來神經網絡、AI的發(fā)展機遇?在Pieter Abbeel主持的The Robot Brains Podcast節(jié)目中,Ilya Sutskever分享了他在多倫多大學、谷歌、OpenAI等經歷的研究往事,在深度學習崛起十年之際,我們將了解到這個AI革新者和引領者背后的思考和分析。
以下為對話內容,OneFlow社區(qū)做了不改變原意的編譯:
1 為何決定研究神經網絡
Pieter Ab beel :很多人認為,新一輪AI高潮的到來是從2012年AlexNet的突破開始的,你是促成這一時刻發(fā)生的人之一。但在那之前,別人都在研究其他各種的計算機視覺方法,你為什么卻在研究應用于計算機視覺的神經網絡?
Ilya Sutskever: 這一決定是由過去幾年一系列認識產生的結果。 第一個認識是,James Martens寫的一篇名為《通過Hessian-Free優(yōu)化深度學習》的論文第一次證明可以從監(jiān)督數據進行端到端訓練深度網絡。
但在當時的某些情況下,大家都覺得無法訓練深度網絡。反向傳播太弱了,你需要進行某種形式的預訓練,然后才可能會有一些進展。而且,即使能進行端到端訓練,深度網絡到底能做什么?
當然,現在我們提到深度學習,就覺得訓練神經網絡是理所當然,只需要一個大型神經網絡,輸入數據,然后輸出很不錯的結果。
人們真正關注的是機器學習模型,他們希望可以有一種算法完美地訓練這些模型。但是,如果你把這個條件強加給自己,并且想找到一個簡單優(yōu)雅的數學證明時,這最終會限制模型能力。
相比之下,神經網絡基本算是小型并行計算機,盡管已經不算小了。而訓練一個神經網絡相當于用反向傳播算法給這臺并行計算機進行編程。所以當我看到Hessian優(yōu)化的結果后,我真的很高興,這意味著現在可以對并行計算機編程了。你可能覺得,也許有人會雄心勃勃地訓練這些東西,但顯然基本不可能成功,局部極小值是個大難題。但現在,你可以訓練神經網絡了。
第二個認識是,人類的視覺速度很快,最快幾百毫秒就能識別出東西,盡管神經元的速度很慢。這意味著甚至不需要那么多的層來實現多好的視覺效果。 如果有一個相當大的神經網絡,那么可以通過調參在視覺應用上實現很好的效果。要是一開始就有做訓練用的數據集就好了。然后ImageNet、GPU出現了,我就想,神經網絡也必然會出現。
然后某一次我和Alex Krizhevsky聊天,他提到自己的GPU代碼可以訓練一個小的卷積網絡,在60秒內輸出很不錯的結果,我感到很震驚。我想如果在圖像上這么做肯定能成功。所以事情就是這樣發(fā)生的。
Pieter Abbeel:我還記得你第一次告訴我“神經網絡只是一個計算機程序”的情景,這甚至比Andrej Karpathy說 軟件2.0是用神經網絡編程 還要早好幾年。但在神經網絡取得成功之前,你就看到了這一點。你什么時候意識到神經網絡在ImageNet上更有效?
Ilya Sutskever: 我一直都相信這樣做會有效。那時,Alex一直在訓練神經網絡,得到的結果越來越好,每周都有很大進步。
但從我的角度來看,當時的神經網絡都不夠大,最大的風險是我們是否有能力充分利用GPU來訓練一個非常大的神經網絡,它應該比其他所有的神經網絡都要好。當然我們做的遠遠不止這些。
我們的計算機速度更快,神經網絡也更大,但我們的目標是盡可能地利用當時的硬件走得更遠,這就是風險所在。幸運的是,Alex用高度優(yōu)化的CUDA內核消除了這個風險。
Pieter Abbeel:如今我們可以直接在PyTorch或TensorFlow中訓練神經網絡,但那時,你必須自己搭建一些專業(yè)的工具才能正常運行。我很好奇,當你比其他人更早知道AlexNet的突破發(fā)生后,你在想什么?
Ilya Sutskever: 當時在思考兩件事。首先我相信,我們已經證明了神經網絡可以解決人類在短時間內可以解決的問題,我們已經證明了可以用適量的層來訓練神經網絡。因此,我認為我們可以把神經網絡做得足夠寬(wide),但如果想把神經網絡做得很深(deep)卻很難。如何做深還需要大量思考才可能解決。
那么我們能不能找到一些有趣的、不需要太多思考的問題?我考慮的實際是強化學習,而語言正是人們可以快速理解的東西,翻譯也是語言領域一個著重需要解決的問題。
另一件事也是關于AIphaGo系統的,使用卷積網絡或許會為當時其他的非神經網絡系統提供非常好的直覺參考。
Pieter Abbeel:神經網絡如何改變了AlphaGo系統的行為?
Ilya Sutskever: 在深度學習之前,任何與AI有關的東西都會涉及某種搜索程序或某種硬編碼的啟發(fā)式方法。在這種情況下,真正有經驗的工程師需要花很多時間認真思考:在什么情況下,他們應該繼續(xù)做某事或停止做某事,還是擴展資源。他們的所有時間都花在找啟發(fā)式方法上。
但是神經網絡是形式化的直覺,會提供一種專家式的直覺。我曾經了解到,在任何一款游戲中,專業(yè)級玩家只要觀察一下情況,馬上就能有一種非常強烈的直覺:不是這么做就是那么做。然后在剩下的時間里,他就會考慮是這兩個選擇里的哪一個。
如果你相信神經網絡可以完成人類短時間內完成的事情,神經網絡就真的能做到。圍棋這樣的游戲就是一個大的“軟柿子”(soft problem),我們是有能力做到的。
Pieter Abbeel:當我第一次聽說圍棋游戲使用卷積網絡時, 我的第一反應是,既然卷積以平移不變性而聞名,而圍棋棋盤上是沒辦法保證“平移不變”的,因為一個特征所處的位置真的很重要。但很明顯,這并沒有阻止卷積網絡的成功,而且它掌握了這種特征。
Ilya Sutskever: 這又是并行計算機的力量,你能想象編寫一個卷積網絡來做正確的事情嗎?這的確不可思議,但這的確是人們信念上的一次飛躍。我最后也間接參與了AlphaGo的論文。我有一個實習生叫Chris Maddison,我們一起想給Go應用超級卷積網絡。
與此同時,谷歌收購了DeepMind,所有員工都去拜訪過谷歌。我們與David Silver和Aja Huang(AlphaGo主要作者)進行了交談,這是一個很酷的項目。DeepMind真的付出了很多努力,他們在這個項目上執(zhí)行得非常出色。
Pieter Abbeel:AlexNet是大多數AI研究人員看到深度學習時代到來的新起點,而AlphaGo的面世可能讓大多數人看到AI能夠實現許多不可能的時刻。世界上大多數人都在關注這一點,比如在自然語言處理方面中發(fā)生了一些非?;镜?、顛覆性的事情。
整個谷歌翻譯系統已經用神經網絡進行改造,盡管當時很多人認為神經網絡只是特征識別。而特征應該是像語音或者是視覺上的信號,語言卻是離散的、獨立的。如何從這些連續(xù)的信號“跳轉”到離散的、獨立的語言上去?這兩者差異很大。
Ilya Sutskever: 如果你相信生物神經元和人工神經元沒什么大的不同,那么你就會認為這個跳轉非常自然。世界上最好的專業(yè)翻譯應該是極度精通至少兩種語言的人,他幾乎可以馬上把一種語言翻譯為另一種語言。因此,在這個人的頭腦中存在著一些層數相對較少的神經網絡,可以完成這項任務。
如果我們在電腦里有一個規(guī)模沒有那么大的神經網絡,通過輸入、輸出多次訓練這個神經網絡,我們肯定能得到這樣一個神經網絡解決問題。因此,世界上極度精通兩種語言的人類的存在,也可以證明神經網絡可以做到。現在我們有了大型神經網絡,我們的大腦也相當強大,也許你可以大膽地說,我們可以不斷訓練數字神經元,再少點兒噪音就可以了。
當然,現在神經網絡還沒有達到人類翻譯的水平。但我們可以推斷,既然生物神經元和人工神經元沒有什么不同,那為什么神經網絡不能做到?再等等吧。
Pieter Abbeel:你和谷歌的合作者發(fā)明了一種用神經網絡進行機器翻譯的方法,你能介紹下它的工作原理嗎?
Ilya Sutskever: 你所需要的只是一個大型神經網絡,它能以某種方式吸收單詞的某些表征。在AI領域我們經常使用“表征”這個詞。比如字母a或者是cat這個單詞,要怎么把它們傳達給計算機或者神經網絡?
計算機或神經網絡會在單詞或字母上建立某種映射,生成某種神經網絡可以接受的形式。所以你只需要設計一本字典,然后把這些信號輸入到神經網絡,然后用某種方法讓神經網絡一次一個地接收這些信號,之后在翻譯過程中一個一個地輸出這些單詞。這就是現在很流行的所謂的自回歸建模方法。
用這個方法并不是因為它有多特別,只是因為比較方便。神經網絡會做所有事情,它知道如何建立內部機制,如何構建神經元來正確地翻譯每個單詞的意思。
神經元會把它們分塊、轉換、編排,一次輸出一個正確的單詞。當然也有其他方式來設計其他的神經網絡來接收這些單詞的信號,現在人們也正在探索,比如擴散模型。也許神經網絡能夠并行地接收單詞,做一些順序性工作,然后并行地輸出。
事實上,這并不重要。重要的是,我們只是以某種方式將單詞呈現給神經網絡,有辦法讓神經網絡可以輸出目標單詞。
2 大學生涯與導師Hinton
Pieter Abbeel:是什么讓你最終成為一名AI研究人員?
Ilya Sutskever: 我在俄羅斯出生,以色列長大,16歲時移居加拿大。據我父母說,我在很小的時候就開始談論AI。我也清楚地記得,曾經思考過AI的事情,還讀到有文章稱這個領域是在“用蠻力下棋”的說法。
很明顯,AI似乎可以下國際象棋。 但AI真正的核心應該是學習,這也是AI如此糟糕的緣由。 因為它不學習,而人類一直在學習,那么我們能一直做到所有的學習嗎?
自我去了多倫多大學后,我就找到了研究深度學習的教授Geoffrey Hinton。另一個原因是,他在訓練神經網絡,而神經網絡似乎是更有希望的方向,因為它們沒有明顯的計算限制,盡管決策樹這些在當時比較流行。
Pieter Abbeel:去多倫多大學后有沒有想過,Hinton在這個領域研究了三四十年似乎一直沒有什么起色,再研究三四十年后可能也不會成功?
Ilya Sutskever: 我的動機非常明確,就是要對AI做出哪怕非常小但有意義的貢獻。我認為學習并不總是完全有效的,如果因為我的存在,AI的研究變得更好了一點,那么我就成功了。
Pieter Abbeel:還記得自己第一次和Hinton見面時的場景嗎?
Ilya Sutskever: 我是在大三時第一次見到他。當時我的專業(yè)是數學,大家都認為數學很難,真正有天賦的人才會學習數學。我當初選擇機器學習因為它不僅是真正有價值的研究,還因為所有聰明人都去學數學和物理了,我對這種狀況感到高興。
Pieter Abbeel:我在讀Cade Metz的書時,Hinton講述了他和你見面的事情。他當時給了你一篇論文,你回去讀了之后說看不懂,他說沒關系,你還在讀本科,有什么不明白的他可以解釋給你聽。然后你說,手動操作的地方太多了,你不明白為什么他們不把整個學習過程自動化。你能看懂這篇論文,只是不明白他們?yōu)槭裁匆@么做。Hinton心想,哇哦,有點兒意思。后來他給了你另一篇論文,你讀后回來說,你也不理解為什么他們?yōu)槊總€應用程序都單獨訓練一個神經網絡,為什么不能訓練一個龐大的網絡來完成所有的事?一起訓練效果應該會更好。
這些事讓我想起我們在OpenAI的時候,感覺你的思考總是走在我們前面,你會預測事情未來將如何發(fā)展。今天回過頭來看,你好像真的知道幾年后事情的發(fā)展是怎樣的。
Ilya Sutskever: 確有其事。我剛從事這個領域的時候,AI并不被人看好,還沒有人做出什么成就,這個領域一片荒蕪,也不清楚未來是否會有什么進展。
我一開始給自己制定的目標是,推進對AI有用的、有意義的一小步。這是我在相當長一段時間內的很明確的動機。在這個動機變得更清晰之前,這條路可能會更加崎嶇陡峭,但同時也燃起了我們的斗志。
3 OpenAI和GPT的誕生
Pieter Abbeel:從多倫多大學開始研究生涯,到去谷歌工作,再到創(chuàng)立OpenAI公司,你似乎都是在恰當的時間更換自己的處境,做著領域內最具開創(chuàng)性的工作,這些轉變是怎么發(fā)生的?
Ilya Sutskever: 我記得我在谷歌的時候,感覺非常舒服,同時也非常不安。我認為有兩個因素造成了這樣的感覺:一方面是我可以展望未來10年,對事情的發(fā)展有點太清楚了,我不太喜歡那樣;另一方面就是看到DeepMind在AlphaGo構建工作的經歷,這非常鼓舞人心,我認為這是深度學習領域開始成熟的標志。
在這之前,AI領域的所有進展都是由從事小項目的一小部分研究人員推動的。大部分的工作都是以想法為重,然后通過工程執(zhí)行以證明想法是有效的。但我覺得, AlphaGo的不同在于它展現了工程設計的重要性。
事實上,這個領域將發(fā)生變化,開始進入工程領域,工具變得非??煽俊=酉聛淼膯栴}是,如何真正訓練這些網絡?如何調試?如何設置分布式訓練?有很多工作要做,而且堆積的東西相當深。
我覺得谷歌的文化與學術界文化非常相似,確實有利于產生激進的新奇想法。事實上,谷歌這些年在AI中產生了很多激進和革命性的想法,最明顯的是過去幾年的Transformer。
但我覺得這不會是AI進步的全部,它只是AI進步的一部分。 如果把AI看作是身體,那還需要肌肉、骨骼和神經系統。如果你只有其中一個部件,挺好的,但整個事情不會有真正的進展,你需要集齊所有的部件。 如果某個公司將這些部件都放在一起,就真的很好。
但我不知道怎么做,只是隨便想想。某天,我收到了Sam Altman的電子郵件,他說讓我們和一些很酷的人一起吃個飯吧。Greg Brookman、Elon Musk等人在那里,我們聊了聊在一個新的AI實驗室里開始研究會很好。因為我也在思考同樣的想法,我真的希望它是工程型的??吹紼lon將參與其中,我想不到還能從比他更好的人身上學到大型工程項目方面的東西。我認為這就是OpenAI的真正起因。從我的角度來看,就像白日夢成真了。
Pieter Abbeel:在OpenAI成立初期,你打算怎么塑造它?
Ilya Sutskever: 一開始其實有各方面的壓力,而且我并不完全清楚如何馬上開始行動。有一點明確的是,我們需要做某種大型項目。我對這個想法感到興奮,如果你能很好地預測,就能在監(jiān)督學習上取得進展,但除此之外,還不清楚該怎么做。
當時的情況是,DeepMind已經在強化學習領域取得了一些非常令人興奮的進展。首先,通過對神經網絡的訓練,用強化學習來玩簡單的電腦游戲,然后AlphaGo事件發(fā)生了,人們開始覺得強化學習也許可以做一些事情,但在過去,這看起來是一個不可能實現的任務。
在我們嘗試了很多不同的項目后,最終決定,也許解決有挑戰(zhàn)的實時戰(zhàn)略游戲比如Dota。這是Greg一展身手的地方,他接手了這個項目,即使看起來真的不可能。但不知何故,他用最老套的深度學習方式發(fā)揮了作用,我們嘗試過的最簡單的策略梯度法最終奏效,并且從未停止過通過更大規(guī)模和更多訓練進行改進。它證明了我們可以做大型項目。
Pieter Abbeel:最簡單的方法最終奏效的確令人驚訝。在語言領域,OpenAI還做出了GPT模型,它的能力非常令人驚訝,對你來說,什么時候讓你相信這是要去做的事情?
Ilya Sutskever: 從我的角度來看,一件非常重要的事情是,我對無監(jiān)督學習非常感興趣。Alexnet、AlphaGo和Dota都是以某種方式向神經網絡提供輸入和期望的輸出來進行訓練,今天來看這種方式是非常直觀的,而且,你至少可以有一個合理的強烈直覺,知道為什么監(jiān)督學習、強化學習是可行的。但相比之下,至少在我看來,無監(jiān)督學習要神秘得多。
到底什么是無監(jiān)督學習?你可以通過簡單的觀察來了解這個世界,而不需要有一個“老師”來告訴你理想行為應該是什么。問題是,這怎么可能行得通?
普遍的想法是,也許你有某種任務,比如輸入圖像讓神經網絡以某種方式去轉換它,然后產生相同的圖像。但為什么這對你所關心的任務來說是件好事,是否有一些數學上的原因?
我覺得這很不令人滿意,在我看來,無監(jiān)督學習根本就沒有好的數學基礎,我真的為此感到困擾。經過大量的思考,我形成了這樣的信念: 實際上,如果你能很好地預測下一步,應該就有了一個很好的監(jiān)督者。
具體來說,如果你能很好地預測下一個位(bit),那么就已經能提取出所有有意義的信息,模型以某種方式知道存在于信號中這些信息,它應該有一個所有概念的表征,就是語言模型上下文語境中的想法。
這是非常直觀的,你可以適度準確地預測下一個單詞。也許模型會知道單詞只是由空格分隔的字符串。如果你預測得更好,你可能知道那兒有一個詞匯表,但是你不擅長語法。如果你進一步改進你的預測,那么你的語法也會變得更好,也會突然產生一些語法上的莫名其妙的錯誤。但如果進一步改進你的預測,那么語義必須發(fā)揮作用,我覺得這同樣也可以用來預測像素。
所以在某種程度上,我開始相信,這也許在預測方面做得非常好。有趣的是,現在每個人都知道無監(jiān)督學習就是有效的。但在不久前,這似乎還是一件非常棘手的事。
回到GPT是如何產生的這個故事。真正朝這個方向邁出一步的項目是由Alec Radford領導的,他是GPT傳奇的一個重要英雄,在那個項目里,我們訓練神經系統和LSTM來為亞馬遜產品的評論中預測下一個字。
我們發(fā)現,這個LSTM有一個與情緒相對應的神經元。換句話說,如果你閱讀的評論是正面的,那么情緒神經元就會觸發(fā),如果你閱讀的評論是負面的,那么情緒神經元就會抑制(fall)。這很有趣,驗證了我們的猜想。
后來,我們非常高興地看到Transformer神經網絡架構出來了,我們相信長程依賴(Long-Term Dependency)真的很重要,而Transformer對長程依賴有一個非常干凈、優(yōu)雅且計算效率高的答案。
但在技術上,我們討論了這些神經網絡在某種程度上是深層的,直到最近都是這樣,要訓練深度神經網絡相當困難。
以前用于訓練模型和語言序列的神經網絡,序列越長,網絡就越深,就越難訓練。但Transformer將深度與序列的長度解耦,所以可以用非常長的序列得到一個可管理的深度Transformer,這令人興奮。這直接導致了GPT-1的面世,后來我們繼續(xù)擴大參數規(guī)模,就得到了GPT-2和GPT-3。
Pieter Abbeel:GPT-3出來的時候,整個社區(qū)都異常興奮,當你提供一點額外的文本,就可以讓它做你想做的事情,甚至可以編寫一些基礎代碼。它大概是怎么運作的?
Ilya Sutskever: 你只需要有一個神經網絡,還有一些文本,讓它輸出一個有根據的預測內容,這是對單詞可能是什么的概率猜測。你可以根據神經系統輸出的概率來挑選一個詞,然后提交給它,讓“神經元”一次又一次地預測下一個詞。足夠好的預測帶來了你所夢想的一切。
Pieter Abbeel:讓人印象深刻的一點是,GPT是一項非常實用的重大研究突破。當GPT開始有效時,你或者其他人是否已經開始考慮相關應用?
Ilya Sutskever: 我們對潛在的應用絕對感到興奮,以至于我們圍繞GPT-3構建了API產品,以便人們可以去構建他們的語言應用??创诎l(fā)生的事情的另一種視角是,AI只是不斷地繼續(xù)獲得越來越多的能力。
要分辨某一研究進展是否真實,有時會比較棘手。假設你有一些很酷的Demo,可能很難理解這個應用進步的幅度,特別是如果你不知道這個Demo與他們的訓練數據有多相似。這個領域已經非常成熟,你不再需要依靠Demo甚至是基準作為衡量進步的唯一指標。不過,產品的有用性是衡量進步的最真實指標。
4 AI如何影響生產力
Pieter Abbeel:你覺得這些工具將怎樣幫助人類提高生產力?
Ilya Sutskever: 短期內,生產力會逐步提高。而隨著時間推移和AI系統能力的提高,生產力也會顯著提升。長期來看,AI系統會讓所有的工作都會由AI來完成,我非常有信心見證生產力的大幅提高。
Pieter Abbeel:人們會通過很多方面來思考,在這種背景下,當你賦予AI較強的生產力時,它最好一直做正確的事情。AI不會把事情搞砸,或誤解人們想讓他做的事。我對這個項目非常好奇,因為它將強化學習與GPT結合在一起。
Ilya Sutskever: 退一步說,我們擁有的這些AI系統正變得越來越強大。它們強大的功能來自在非常大的數據集上訓練它們,我們對于它們的作用有著直觀了解。
我們有這些大型語言模型,有能力通過提示信息(prompt)來控制它們。事實上,語言模型越好,控制能力就越強,它就越容易通過提示信息來控制。但我們希望模型完全按照我們的意愿辦事,或者盡可能接近我們的要求。
你剛剛提到的用人類反饋的強化學習來訓練這些語言模型?,F在強化學習不是針對模擬器而是針對人類裁判,這些人會告訴你輸出是理想的還是不理想的。這種強化學習環(huán)境真的很令人興奮,你甚至可以爭辯說強化學習可能慢了一點,因為還沒有很好的環(huán)境。
在強化學習中,通常會提供好壞兩種結果。但是我們通過人類反饋的強化學習的方法,“老師”需要觀察模型的兩個輸出,然后判斷哪個更好。
比較兩件事相對來說哪個更好是比判斷一件事絕對的是好還是壞更簡單的任務。然后我們做一點機器學習,從獎勵模型中創(chuàng)建獎勵,然后使用這個模型來訓練神經網絡。這是一個非常簡單有效的事,你可以用精細的方式來控制這些語言模型和神經網絡的行為。
最近我們一直在訓練Instruction-following(指令跟蹤)模型。實際上,人們可以通過GPT3中的開放API進行使用。
所以你需要非常聰明地指定你的提示信息來設計一種核心,并讓模型做你想做的,提供一些例子,在這些例子中,指令跟蹤模型以這種方式接受訓練,可以真正做到我們讓它做什么,它就做什么。有一個詞在機器學習領域的一些子集里是已知的,但并不是所有的子集都知道。
但再往前,你想從各種方面學習“老師”,想使用機器學習,不僅僅通過提供有監(jiān)督例子或獎勵,但是你想有一個對話,在其中提出正確問題,來了解這個概念所需的信息。
這就是未來的發(fā)展趨勢?,F在這個方法已經成功的使用了,讓GPT模型比自然情況下更一致(aligned)。
Pieter Abbeel:我理解的對齊是可以用個性化的方式調整它們,從而與特定的要求保持一致。就像我可以教你遵循我的喜好一樣。
Ilya Sutskever: 這是肯定可以的,我提到的指令追蹤模型是一個單一模型。它已經被對齊了,已經通過訓練和激勵來追蹤你給出的指示。它是一個非常方便的界面,使用這些神經網絡可以讓它們做任何你想做的事,可以用任何你想用的方式來訓練它們。你也可以用任何方式進行個性化設置,用戶可以在段落中指定或使用它們過去的一些操作。幾乎一切都是可能的。
Pieter Abbeel:最近你和OpenAI的合作者一起發(fā)布了可以在同一模型中處理視覺和語言的CLIP和DALL-E,并根據需要有效地在兩者之間進行轉換。你們是如何做到的?
Ilya Sutskever: 我認為潛在的動機是,未來的神經網絡不會同時處理視覺和語言,這似乎令人難以置信。 至少在我看來,有大量證據表明如果把神經網絡做得很大,并且有一個合適的數據集。如果它們能生成語言,為什么不生成圖像的語言呢?也許我們應該把它看作是一種探索,在圖像和文本中訓練神經網絡,并使用DALL-E作為語境。
DALL-E實際上是一個在文本上訓練的GPT3,像圖像的文本表示一樣,因此使用這些tokens來表示圖像。從模型的角度來看,它只是一種時髦的語言,就像你可以在英語和法語文本上訓練GPT。
那并不重要。如果你有一種不同的語言,某些人類語言和圖像語言,那DALL-E的工作方式完全符合你的預期,看到神經系統生成圖像仍然很有趣。CLIP是一個相反方向的探索,它學習了大量的視覺語境概念,健壯性非常好。
Pieter Abbeel:CLIP數據集比ImageNet大了多少?
Ilya Sutskever: 大了數百倍,它有開放式類別,這些類別只是自由格式的文本,但它確實有點大。它需要多樣化數據,如果數據集來源很窄,就會損害神經網絡。
5 擁有更強大的神經網絡
Piter Abbeel:回顧自AlexNet突破以來的過去10年,似乎每年都有新突破。當你展望未來時,是否有一些令你感到特別興奮的事情在未來幾年里可能會發(fā)生?
Ilya Sutskever: 從某種意義上來說,深度學習的傳奇故事要比過去10年時間還要長久。如果讀了Rosenblatt在60年代的一些介紹就會覺得很有趣,他發(fā)明了感知器,是最早的可以在真實計算機上學習有趣東西的神經網絡之一。
Rosenblatt曾稱,總有一天神經網絡會看、聽到和能翻譯,并成為你的朋友。他試圖籌集資金來建造越來越大的計算機,也招來了一些學者的批評,這導致神經網絡發(fā)展的首個低潮期到來。
我認為這些想法還在思考中,只是環(huán)境還沒準備好。 因為一旦需要數據和計算準備就緒,就能夠抓住這個機會實現進步。 我相信進展會繼續(xù),我們會擁有更強大的神經網絡。 我不想把可能發(fā)生的事情說得太具體。
這些事情很難預測,但好的一點是我們的神經系統更可靠,你可以相信它們的輸出。當它們遇到不會的,只會告訴你,可能會要求進行驗證。我認為這是非常有影響力的,它們會比現在采取更多的行動。
我認為,我們的神經網絡仍然是惰性和被動(inert and passive)的,它們的用處會繼續(xù)增加。 我肯定我們需要一些新的想法,即使這些想法中看待事物的方式可能與現在不同。但很多深度學習的主要進展都是以這種形式出現的。
例如,監(jiān)督學習的最新進展,我們只是訓練了更大的語言模型,但它們過去就存在,只是我們才意識到語言模型的方向一直都是正確的。我們眼前的東西實際上比我們預期的要更強大,我期望這些系統的能力可以繼續(xù)提高,它們將在世界上變得越來越有影響力。我們將看到難以置信的革命性產品,可以想象很多人都會擁有非常強大的AI。最終,人們會進入一個享受AI工作的世界。
Pieter Abbeel:那真的很美好,你的模型在某種意義上反映了一種愿景,AI的好處可能是無限的。把無限的利益集中在一小群人身上對其他人來說并不好。很多人都在討論AI的成本可能會變得越來越高。我在想是不是錢越多,模型越大,性能就越好,還是未來會不一樣?
Ilya Sutskever: 找到“錢”半功倍的方法提高模型效率,這種動力是很強大的,它影響著這個領域的每個人。我期望在未來,硬件成本會下降,相關的方法會更有效率,可以用一小部分成本來做更多的事情。同時我認為模型越來越大是更好的,現實就是如此。
我希望有一種不同模型做不同事情的規(guī)則,有一些非常強大的模型用于特定的任務,更小更專業(yè)的模型也仍然非常有用。我也希望,對于每個級別的計算都有一些最佳的使用方法,人們發(fā)現這種方法并創(chuàng)建非常有趣的應用程序。
Pieter Abbeel:過去10年甚至更早,你在AI領域有許多研究突破。你有哪些習慣或特質幫助你擁有強大的創(chuàng)造力和生產力?
Ilya Sutskever: 給出籠統的建議是很難的。但這兩個答案可能會有幫助,也就是節(jié)約時間和努力。你得面對困境,解決這些困難后就能得到你想要的。
Pieter Abbeel:節(jié)約的時間會做什么?
Ilya Sutskever: 我有很多獨立的工作,和一些人會進行非常重要且深入的研究性談話。這是我主要在做的事。
Pieter Abbeel:我了解到你也是個藝術家,這對提高創(chuàng)造力有幫助嗎?
Ilya Sutskever: 很難說,但我認為是有幫助的。
(本文已獲得編譯授權,來源:https://www.youtube.com/watch?v=fCoavgGZ64Y&t=699s)