Hinton萬(wàn)字訪談:用更大模型「預(yù)測(cè)下一個(gè)詞」值得全力以赴 精華
「這份訪談的每一秒都是精華?!棺罱?,圖靈獎(jiǎng)得主 Geoffrey Hinton 的一個(gè)訪談視頻得到了網(wǎng)友的高度評(píng)價(jià)。
視頻鏈接:https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s
在訪談中,Hinton 談到了很多話題,包括當(dāng)前大模型的技術(shù)路線、多模態(tài)學(xué)習(xí)的重要性、 數(shù)字計(jì)算與共享知識(shí)、智能系統(tǒng)的意識(shí)與情感以及他的合作者和優(yōu)秀學(xué)生……
Hinton 認(rèn)為,大型語(yǔ)言模型通過(guò)尋找不同領(lǐng)域的共同結(jié)構(gòu)來(lái)進(jìn)行編碼,這種能力使它們能夠壓縮信息并形成深層次的理解,發(fā)現(xiàn)現(xiàn)實(shí)世界中人類尚未發(fā)現(xiàn)的萬(wàn)事萬(wàn)物的聯(lián)系,這是創(chuàng)造力的來(lái)源。他還提到,通過(guò)預(yù)測(cè)下一個(gè)符號(hào),模型實(shí)際上必須執(zhí)行一定程度的推理,而不是像很多人所說(shuō)的大模型并不具備推理能力。隨著模型規(guī)模的增加,這種推理能力也將變得越來(lái)越強(qiáng)。這是一個(gè)值得全力以赴的方向。
在回憶和 Ilya 的師生合作時(shí),Hinton 提到,Ilya 擁有很好的直覺(jué)。他很早就預(yù)見(jiàn)到,增大模型的規(guī)模是有用的,盡管當(dāng)時(shí) Hinton 并不看好這個(gè)想法。事實(shí)證明,Ilya 的直覺(jué)是很準(zhǔn)的。
整個(gè)訪談時(shí)間跨度比較大,為了方便梳理故事背景,我們可以先回顧一下 Hinton 的職業(yè)生涯:
- 1947 年 12 月 6 日,Hinton 出生于英國(guó)溫布爾登。
- 1970 年,獲得劍橋大學(xué)實(shí)驗(yàn)心理學(xué)學(xué)士學(xué)位。
- 1976 年 —1978 年,擔(dān)任蘇塞克斯大學(xué)認(rèn)知科學(xué)研究項(xiàng)目研究員。
- 1978 年,獲得愛(ài)丁堡大學(xué)人工智能學(xué)博士學(xué)位。
- 1978 年 —1980 年,擔(dān)任加州大學(xué)圣地亞哥分校認(rèn)知科學(xué)系訪問(wèn)學(xué)者。
- 1980 年 —1982 年,擔(dān)任英國(guó)劍橋 MRC 應(yīng)用心理學(xué)部科學(xué)管理人員。
- 1982 年 —1987 年,歷任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)系助理教授、副教授。
- 1987 年 —1998 年,擔(dān)任多倫多大學(xué)計(jì)算機(jī)科學(xué)系教授。
- 1996 年,當(dāng)選為加拿大皇家學(xué)會(huì)院士。
- 1998 年,當(dāng)選為英國(guó)皇家學(xué)會(huì)院士。
- 1998 年 —2001 年,擔(dān)任倫敦大學(xué)學(xué)院蓋茨比計(jì)算神經(jīng)科學(xué)部創(chuàng)始主任。
- 2001 年 —2014 年,擔(dān)任多倫多大學(xué)計(jì)算機(jī)科學(xué)系教授。
- 2003 年,當(dāng)選為認(rèn)知科學(xué)學(xué)會(huì)會(huì)士。
- 2013 年 —2016 年,擔(dān)任谷歌杰出研究員。
- 2016 年 —2023 年,擔(dān)任谷歌副總裁兼工程研究員。
- 2023 年,從谷歌辭職。
以下是訪談內(nèi)容:
起點(diǎn):理解大腦的工作方式
Hinton:我還記得我第一次從英國(guó)到卡內(nèi)基梅隆大學(xué)的時(shí)候。在英國(guó)的研究機(jī)構(gòu),大家到了 6 點(diǎn)都會(huì)去酒吧喝一杯。但到了卡內(nèi)基梅隆,幾周后的一個(gè)周六晚上,那時(shí)我還沒(méi)有任何朋友,也不知道該做什么,所以我決定去實(shí)驗(yàn)室編程。因?yàn)槲矣幸慌_(tái)列表機(jī)(list machine),這個(gè)東西不能在家編程。所以我在周六晚上大約 9 點(diǎn)鐘去了實(shí)驗(yàn)室,結(jié)果里面擠滿了人,所有的學(xué)生都在那兒。他們之所以這樣,是因?yàn)樗麄兯龅氖虑榇砦磥?lái)。他們都相信,他們接下來(lái)做的事情將改變計(jì)算機(jī)科學(xué)的進(jìn)程。這與英國(guó)的情況非常不同,非常令人耳目一新。
Hellermark:我們回到起點(diǎn) —— 劍橋時(shí)期的你。當(dāng)時(shí),你試圖理解大腦的工作方式,那時(shí)是什么情況?
Hinton:那是段非常令人失望的時(shí)光。我當(dāng)時(shí)主要研究生理學(xué)。在夏季學(xué)期,他們要教我們大腦是如何工作的。他們教的只是神經(jīng)元如何傳導(dǎo)動(dòng)作電位,這非常有趣,但它并沒(méi)有告訴你大腦是如何工作的。所以那非常令人失望。隨后,我轉(zhuǎn)向了哲學(xué)。那時(shí)的想法是,也許哲學(xué)會(huì)告訴我們思維是如何工作的。結(jié)果同樣令人失望。我最終去了愛(ài)丁堡大學(xué)學(xué)習(xí)人工智能,那更有趣。至少你可以模擬東西,這樣你就可以測(cè)試?yán)碚摿恕?/p>
Hellermark:你還記得是什么讓你對(duì) AI 產(chǎn)生了興趣嗎?是讀了某篇論文嗎?還是某個(gè)特定的人向你介紹了這些想法?
Hinton:我想是 Donald Hebb(加拿大心理學(xué)家,認(rèn)知心理生理學(xué)的開(kāi)創(chuàng)者)寫(xiě)的一本書(shū)對(duì)我產(chǎn)生了很大影響。他對(duì)如何在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)連接強(qiáng)度非常感興趣。我還讀了馮?諾依曼(計(jì)算機(jī)之父)的書(shū),他對(duì)大腦如何計(jì)算以及它與普通計(jì)算機(jī)有何不同非常感興趣。
Hellermark:在愛(ài)丁堡的那些日子里,你有沒(méi)有一種信念,認(rèn)為這些想法會(huì)成功?或者你當(dāng)時(shí)的直覺(jué)是什么?
Hinton:在我看來(lái),大腦肯定有一種學(xué)習(xí)的方式。大腦的學(xué)習(xí)并非依靠將各種事物預(yù)設(shè)編程,然后運(yùn)用邏輯推理規(guī)則 —— 這種做法從一開(kāi)始就顯得過(guò)于瘋狂。因此,我們必須解開(kāi)大腦是如何學(xué)會(huì)調(diào)整神經(jīng)網(wǎng)絡(luò)中的連接,使其能夠處理復(fù)雜事物的謎團(tuán)。對(duì)于馮?諾依曼和圖靈來(lái)說(shuō)也是如此。馮?諾依曼和圖靈都非常擅長(zhǎng)邏輯,但他們不相信這種邏輯方法。
Hellermark:你是如何將研究神經(jīng)科學(xué)的想法與只是做那些看起來(lái)不錯(cuò)的人工智能算法區(qū)分開(kāi)來(lái)的?你在早期獲得了多少靈感?
Hinton:我并沒(méi)有在神經(jīng)科學(xué)上做太多研究。我總是受到我對(duì)大腦工作原理的啟發(fā),那里有一堆神經(jīng)元,它們執(zhí)行相對(duì)簡(jiǎn)單的操作。它們是非線性的,但它們收集輸入,加權(quán)這些輸入,然后輸出取決于那些加權(quán)輸入。問(wèn)題是,你如何改變這些權(quán)重,讓整個(gè)系統(tǒng)做出一些好的事情。這看起來(lái)像是一個(gè)相當(dāng)簡(jiǎn)單的問(wèn)題。
Hellermark:你還記得那時(shí)的合作者嗎?
Hinton:我在卡內(nèi)基梅隆的主要合作對(duì)象并不是卡內(nèi)基梅隆的人。我與在巴爾的摩約翰?霍普金斯大學(xué)的 Terrence Sejnowski 有很多互動(dòng)。大約每月一次,要么他開(kāi)車去匹茲堡,要么我開(kāi)車去巴爾的摩。兩地距離 250 英里(約 402 公里)。我們會(huì)一起度過(guò)一個(gè)周末,一起在巴爾的摩的機(jī)器上工作。那是一次很棒的合作。我們都相信那就是大腦的工作方式。那是我所做過(guò)的最令人興奮的研究,產(chǎn)出了很多技術(shù)上非常有趣的結(jié)果,但我認(rèn)為那不是大腦的工作方式。
我還與 Peter Brown 有很好的合作,他是一位非常優(yōu)秀的統(tǒng)計(jì)學(xué)家,在 IBM 工作,研究語(yǔ)音識(shí)別。他是作為一名成熟的學(xué)生來(lái)到卡內(nèi)基梅隆的,為了拿到博士學(xué)位。其實(shí)他已經(jīng)懂得很多了。他教了我很多關(guān)于語(yǔ)音的知識(shí),教了我隱馬爾可夫模型。我覺(jué)得我從他那里學(xué)到的比他從我這里學(xué)到的要多。這就是大家都想要的那種學(xué)生。當(dāng)他教我隱馬爾可夫模型時(shí),我正在用隱藏層做反向傳播。那時(shí)它還不叫隱藏層。我認(rèn)為馬爾可夫模型中使用的這個(gè)名字對(duì)于那些你不知道它們?cè)诟墒裁吹淖兞縼?lái)說(shuō)是一個(gè)很好的名字。所以這就是神經(jīng)網(wǎng)絡(luò)中「隱藏層」名字的由來(lái)。
談 Ilya:他有很好的直覺(jué)
Hellermark:帶我們回憶一下 Ilya 出現(xiàn)在你辦公室的時(shí)候。
Hinton:那可能是一個(gè)周日,我在編程,然后有人敲門(mén)。不是隨便的敲,而是有點(diǎn)急切的那種。然后我去開(kāi)門(mén),門(mén)口站著一個(gè)年輕的學(xué)生。他說(shuō)他整個(gè)夏天都在炸薯?xiàng)l,但他更愿意在我的實(shí)驗(yàn)室工作。我說(shuō),你為什么不預(yù)約一下,我們?cè)僬務(wù)??然?Ilya 說(shuō),「現(xiàn)在談怎么樣?」這就是 Ilya 的性格。
我們聊了一會(huì)兒,我給了他一篇論文,那是發(fā)表在 Nature 上的反向傳播的論文。我們又安排了一周后的另一次會(huì)議。他回來(lái)說(shuō)他沒(méi)理解,我非常失望。我以為他看起來(lái)是個(gè)聰明人。我給他的論文只涉及鏈?zhǔn)椒▌t,不難理解。結(jié)果他說(shuō),「不,我理解了那部分。我只是不明白你為什么不把梯度給一個(gè)合理的函數(shù)優(yōu)化器」。這個(gè)問(wèn)題讓我們思考了好幾年。Ilya 就是這樣,他有很好的直覺(jué),他的想法總是很好。
Hellermark:你認(rèn)為是什么讓 Ilya 有了那些直覺(jué)?
Hinton:我不知道。他總是自己思考。他從小就對(duì) AI 感興趣,還擅長(zhǎng)數(shù)學(xué)。
Hellermark:你們兩個(gè)之間是怎么合作的?你扮演了什么角色,Ilya 扮演了什么角色?
Hinton:跟他合作非常有趣。我記得有一次我們?cè)噲D用一種復(fù)雜的方法制作數(shù)據(jù)圖,我有一種混合模型,你可以用同樣的一組相似性制作兩張圖。這樣在一張圖上,銀行可能離綠地很近,在另一張圖上,銀行可能離河流很近。因?yàn)樵谝粡垐D上,你不能讓它同時(shí)離兩者都很近,對(duì)吧?因?yàn)楹恿骱途G地距離很遠(yuǎn)。
我們用 MATLAB 做這件事,這涉及到大量的代碼重組,以進(jìn)行正確的矩陣乘法。然后他厭煩了。所以有一天,他說(shuō),「我要去為 MATLAB 寫(xiě)一個(gè)接口。我要用這種不同的語(yǔ)言編程,我有一些東西可以將其轉(zhuǎn)換為 MATLAB?!刮艺f(shuō),「不,Ilya,那將花費(fèi)你一個(gè)月的時(shí)間。我們必須繼續(xù)這個(gè)項(xiàng)目。不要被那個(gè)事情分散注意力?!笽lya 說(shuō),「沒(méi)關(guān)系,我今天早上就做好了?!?/p>
Hellermark:太不可思議了。在那些年里,最大的轉(zhuǎn)變不僅僅是算法,還有規(guī)模(scale)。這些年來(lái)你是如何看待 scale 的?
Hinton:Ilya 很早就有了那種直覺(jué)。所以 Ilya 總是說(shuō),你只要把它做得更大,效果就會(huì)更好。我總覺(jué)得這有點(diǎn)逃避現(xiàn)實(shí),你也得有新想法。結(jié)果,他的直覺(jué)基本上是正確的。新的想法有幫助。Transformer 之類的東西幫了大忙,但真正的問(wèn)題在于數(shù)據(jù)的規(guī)模和計(jì)算的規(guī)模。那時(shí),我們根本不知道計(jì)算機(jī)會(huì)快上 10 億倍。我們以為也許會(huì)快上 100 倍。我們?cè)噲D通過(guò)提出一些聰明的想法來(lái)解決問(wèn)題,但如果我們有更大的數(shù)據(jù)和計(jì)算規(guī)模,這些問(wèn)題就會(huì)迎刃而解。
大約 2011 年,Ilya、我和另一個(gè)名叫 James Martins 的研究生,發(fā)表了一篇使用字符級(jí)預(yù)測(cè)的論文。我們利用維基百科,嘗試預(yù)測(cè)下一個(gè) HTML 字符。結(jié)果效果非常好。我們一直對(duì)它的效果感到驚訝。那是在 GPU 上使用了一個(gè)花哨的優(yōu)化器,我們永遠(yuǎn)無(wú)法相信它能理解任何東西,但它看起來(lái)好像能理解,這看起來(lái)簡(jiǎn)直不可思議。
「預(yù)測(cè)下一個(gè)詞」也需要推理
Hellermark:這些模型是如何預(yù)測(cè)下一個(gè)詞的?為什么這是一種錯(cuò)誤的思考它們的方式?
Hinton:我并不認(rèn)為這是錯(cuò)誤的方式。事實(shí)上,我認(rèn)為我制作了第一個(gè)使用嵌入和反向傳播的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型。數(shù)據(jù)非常簡(jiǎn)單,只是三元組,它將每個(gè)符號(hào)轉(zhuǎn)換為嵌入,然后讓嵌入相互作用以預(yù)測(cè)下一個(gè)符號(hào)的嵌入,然后從那預(yù)測(cè)下一個(gè)符號(hào),然后它通過(guò)整個(gè)過(guò)程進(jìn)行反向傳播來(lái)學(xué)習(xí)這些三元組。我展示了它可以泛化.
大約 10 年后,Yoshua Bengio 使用了一個(gè)非常類似的網(wǎng)絡(luò),并證明它可以處理真實(shí)文本。此后大約 10 年,語(yǔ)言學(xué)家們開(kāi)始相信嵌入。這是一個(gè)緩慢的過(guò)程。
我之所以認(rèn)為它不僅僅是預(yù)測(cè)下一個(gè)符號(hào),是因?yàn)槿绻銌?wèn),預(yù)測(cè)下一個(gè)符號(hào)需要什么?具體來(lái)說(shuō),如果你問(wèn)我一個(gè)問(wèn)題,然后答案的第一個(gè)詞就是下一個(gè)符號(hào),你就必須理解這個(gè)問(wèn)題。因此,我認(rèn)為預(yù)測(cè)下一個(gè)符號(hào)與老式的自動(dòng)補(bǔ)全功能很不一樣。在老式的自動(dòng)補(bǔ)全功能中,你需要存儲(chǔ)三元組單詞。然后,如果你看到一對(duì)單詞,你會(huì)看到不同單詞出現(xiàn)在第三位的頻率,這樣你就能預(yù)測(cè)下一個(gè)符號(hào)。這就是大多數(shù)人認(rèn)為的自動(dòng)補(bǔ)全功能?,F(xiàn)在已經(jīng)完全不是這樣了。
為了預(yù)測(cè)下一個(gè)符號(hào),你必須理解所說(shuō)的話。所以我認(rèn)為,通過(guò)讓它預(yù)測(cè)下一個(gè)符號(hào),你正在迫使它去理解。我認(rèn)為這和我們的理解方式是一樣的。很多人會(huì)告訴你這些東西不像我們,它們只是預(yù)測(cè)下一個(gè)符號(hào),不像我們那樣進(jìn)行推理。但實(shí)際上,為了預(yù)測(cè)下一個(gè)符號(hào),它必須進(jìn)行一些推理。我們現(xiàn)在已經(jīng)看到了,即使你不加入任何特殊的推理元素,僅僅是制造出大的模型,它們也已經(jīng)可以進(jìn)行一些推理了。我想,當(dāng)你把它們做得更大時(shí),它們就能進(jìn)行更多的推理。
Hellermark:在你看來(lái),我現(xiàn)在除了預(yù)測(cè)下一個(gè)符號(hào)之外還在做什么?
Hinton:我認(rèn)為那就是你的學(xué)習(xí)方式。你在預(yù)測(cè)下一個(gè)視頻幀,你在預(yù)測(cè)下一個(gè)聲音。但我認(rèn)為這是一個(gè)相當(dāng)合理的大腦學(xué)習(xí)理論。
Hellermark:是什么讓這些模型可以學(xué)到如此廣闊的領(lǐng)域?
Hinton:這些大型語(yǔ)言模型所做的是尋找共同的結(jié)構(gòu)。它們可以使用共同的結(jié)構(gòu)來(lái)編碼事物,這樣更有效率。
舉個(gè)例子,如果你問(wèn) GPT-4,為什么堆肥堆像原子彈?大多數(shù)人回答不出來(lái)。大多數(shù)人沒(méi)有想過(guò),他們會(huì)認(rèn)為原子彈和堆肥堆是非常不同的東西。但 GPT-4 會(huì)告訴你,它們的能量規(guī)模非常不同,時(shí)間規(guī)模非常不同。但它們的共同點(diǎn)是,當(dāng)堆肥堆變得更熱時(shí),它產(chǎn)生熱量的速度更快;當(dāng)原子彈產(chǎn)生更多的中子時(shí),它產(chǎn)生中子的速度也更快。所以這就得到了連鎖反應(yīng)的概念。我相信它理解這兩種連鎖反應(yīng),它使用這種理解將所有這些信息壓縮到它的權(quán)重中。如果它確實(shí)在這樣做,那么它將會(huì)對(duì)我們還沒(méi)有看到的所有事物進(jìn)行同樣的操作。這就是創(chuàng)造力的來(lái)源 —— 看到這些表面上截然不同的事物之間的類比關(guān)系。
所以我認(rèn)為,當(dāng) GPT-4 變得更大時(shí),它最終會(huì)變得非常有創(chuàng)造力。那種認(rèn)為它只是在重復(fù)學(xué)習(xí)過(guò)的東西,只是把已經(jīng)學(xué)過(guò)的內(nèi)容粘貼在一起的想法,是完全錯(cuò)誤的。它會(huì)比人類更有創(chuàng)造力。
Hellermark:你說(shuō)它不僅僅會(huì)重復(fù)我們迄今為止所開(kāi)發(fā)的人類知識(shí),還可能取得更大的進(jìn)步。我認(rèn)為我們目前還沒(méi)有充分看到這一點(diǎn)。我們已經(jīng)開(kāi)始看到一些例子,但在更大范圍內(nèi),它還停留在當(dāng)前的科學(xué)水平。你認(rèn)為怎樣才能讓它超越這個(gè)水平?
Hinton:我們?cè)诟邢薜那闆r下看到過(guò)這種情況。比如在 AlphaGo 和李世石的那場(chǎng)著名比賽中,在第 37 步,AlphaGo 下了一步所有專家都認(rèn)為肯定是錯(cuò)誤的棋,但后來(lái)他們意識(shí)到這是一步絕妙的棋。這就是在有限領(lǐng)域內(nèi)的創(chuàng)造性。我認(rèn)為隨著模型規(guī)模的擴(kuò)大,我們會(huì)看到更多這樣的情況。
Hellermark:AlphaGo 的不同之處在于它使用了強(qiáng)化學(xué)習(xí),這使它能夠超越當(dāng)前狀態(tài)。它從模仿學(xué)習(xí)開(kāi)始,觀察人類如何下棋,然后通過(guò)自我對(duì)弈,發(fā)展得遠(yuǎn)遠(yuǎn)超出了那個(gè)水平。你認(rèn)為這是標(biāo)準(zhǔn)組件缺失的部分嗎?
Hinton:我認(rèn)為這可能是缺失的部分。AlphaGo 和 AlphaZero 中的自我對(duì)弈是它們能夠做出這些創(chuàng)造性舉動(dòng)的很大一部分原因。但我不認(rèn)為這是完全必要的。
有一個(gè)很久以前的實(shí)驗(yàn),你訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別手寫(xiě)數(shù)字。我非常喜歡這個(gè)例子。你給它的訓(xùn)練數(shù)據(jù)中有一半的標(biāo)簽是錯(cuò)誤的。問(wèn)題是它能學(xué)得多好?而且這些錯(cuò)誤標(biāo)簽是固定的,每次看到特定樣本時(shí)它都與相同的錯(cuò)誤標(biāo)簽配對(duì),所以它不能通過(guò)多次看到相同樣本但標(biāo)簽有時(shí)正確有時(shí)錯(cuò)誤來(lái)平均化這些錯(cuò)誤。訓(xùn)練數(shù)據(jù)中有 50% 的錯(cuò)誤標(biāo)簽,但如果你用反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò),它的錯(cuò)誤率可以降到 5% 以下。換句話說(shuō),即使從標(biāo)注錯(cuò)誤的數(shù)據(jù)中,它也能得到更好的結(jié)果。它能夠識(shí)別出訓(xùn)練數(shù)據(jù)中的錯(cuò)誤。這就像聰明的學(xué)生比他們的導(dǎo)師更聰明。導(dǎo)師告訴他們很多東西,但有一半的信息是錯(cuò)誤的,學(xué)生能分辨出哪些是錯(cuò)的,只聽(tīng)正確的那一半,最后比導(dǎo)師更聰明。所以這些大規(guī)模神經(jīng)網(wǎng)絡(luò)實(shí)際上能夠做到的比它們的訓(xùn)練數(shù)據(jù)更好,大多數(shù)人并沒(méi)有意識(shí)到這一點(diǎn)。
Hellermark:那么你認(rèn)為這些模型將如何將推理融入其中呢?我的意思是,一種方法是在模型之上添加啟發(fā)式方法,現(xiàn)在很多研究都在這樣做,你可以在模型中加入一些思考,將推理反饋給模型本身。另一種方式是擴(kuò)大模型規(guī)模。你的直覺(jué)是怎么做?
Hinton:我的直覺(jué)是,隨著我們擴(kuò)大這些模型的規(guī)模,它們會(huì)變得更擅長(zhǎng)推理。如果你問(wèn)人們是如何工作的,大致說(shuō)來(lái),我們有這些直覺(jué),我們可以使用推理,我們使用推理來(lái)糾正我們的直覺(jué)。當(dāng)然,在推理過(guò)程中我們也會(huì)用到直覺(jué)。但如果推理的結(jié)論與我們的直覺(jué)沖突,我們會(huì)意識(shí)到需要改變直覺(jué)。這很像在 AlphaGo 或 AlphaZero 中,你有一個(gè)評(píng)估函數(shù),它只是看著棋盤(pán)說(shuō),這對(duì)我有多好?但當(dāng)你進(jìn)行蒙特卡洛模擬時(shí),你就會(huì)得到一個(gè)更準(zhǔn)確的想法,從而修正你的評(píng)估函數(shù)。所以你可以訓(xùn)練它,讓它同意推理的結(jié)果。
我認(rèn)為這些大型語(yǔ)言模型必須開(kāi)始這樣做。它們必須開(kāi)始訓(xùn)練自己的原始直覺(jué),通過(guò)推理來(lái)判斷下一步應(yīng)該做什么,并意識(shí)到這是不對(duì)的。這樣,它們就能獲得更多的訓(xùn)練數(shù)據(jù),而不僅僅是模仿人們的行為。這正是 AlphaGo 能夠構(gòu)想出這個(gè)創(chuàng)造性的第 37 步的原因。它有更多的訓(xùn)練數(shù)據(jù),因?yàn)樗峭ㄟ^(guò)推理來(lái)確定下一步應(yīng)該怎么走的。
模型能從語(yǔ)言中學(xué)到很多,但從多模態(tài)中學(xué)習(xí)會(huì)更容易
Hellermark:你如何看待多模態(tài)?當(dāng)我們引入圖像、視頻和聲音時(shí),你認(rèn)為這將如何改變模型?
Hinton:我認(rèn)為這會(huì)有很大的改變。我認(rèn)為這會(huì)讓模型在理解空間事物方面做得更好。例如,僅從語(yǔ)言來(lái)理解一些空間事物相當(dāng)困難,盡管令人驚訝的是,即使在成為多模態(tài)模型之前,GPT-4 也能做到這一點(diǎn)。但是當(dāng) GPT-4 成為多模態(tài)模型時(shí),如果你同時(shí)讓它做視覺(jué)和觸覺(jué),伸手去抓取東西,它會(huì)更了解物體。
所以盡管你可以從語(yǔ)言中學(xué)到很多東西,但如果是多模態(tài),學(xué)習(xí)會(huì)更容易。實(shí)際上,你需要的語(yǔ)言就更少了。例如,有很多 YouTube 視頻可以預(yù)測(cè)下一個(gè)畫(huà)面。所以我認(rèn)為多模態(tài)模型顯然會(huì)占據(jù)主導(dǎo)地位。這可以獲得更多數(shù)據(jù),需要的語(yǔ)言會(huì)更少。所以這是一個(gè)哲學(xué)觀點(diǎn),你可以僅從語(yǔ)言中學(xué)到一個(gè)很好的模型,但從多模態(tài)系統(tǒng)中學(xué)到它要容易得多。
Hellermark:你認(rèn)為這將如何影響模型的推理?
Hinton:我認(rèn)為這會(huì)讓模型在空間推理方面做得更好。例如,關(guān)于如果拿起物體會(huì)發(fā)生什么的推理。如果真的嘗試拿起物體,你會(huì)得到各種各樣的訓(xùn)練數(shù)據(jù)。
關(guān)于「認(rèn)知」的三種觀點(diǎn)
Hellermark:你認(rèn)為人類大腦進(jìn)化到能夠很好地使用語(yǔ)言,還是語(yǔ)言進(jìn)化到能夠很好地與人類大腦配合?
Hinton:關(guān)于語(yǔ)言是否進(jìn)化到與大腦配合,或者大腦是否進(jìn)化到與語(yǔ)言配合的問(wèn)題,我認(rèn)為這是一個(gè)非常好的問(wèn)題。我認(rèn)為兩者都發(fā)生了。
我曾經(jīng)認(rèn)為我們會(huì)在根本不需要語(yǔ)言的情況下進(jìn)行很多認(rèn)知活動(dòng),但現(xiàn)在我改變主意了。我舉三種關(guān)于語(yǔ)言以及它與認(rèn)知的關(guān)系的觀點(diǎn)。
第一種,老式象征性觀點(diǎn),即認(rèn)知由一些清理過(guò)的邏輯語(yǔ)言中的符號(hào)字符串組成,沒(méi)有歧義,且應(yīng)用推理規(guī)則。因此認(rèn)知只是對(duì)像語(yǔ)言符號(hào)字符串這樣的東西進(jìn)行符號(hào)操作。這是一種極端觀點(diǎn)。
另一種極端觀點(diǎn)是:一旦進(jìn)入大腦內(nèi)部,一切都是向量。符號(hào)進(jìn)來(lái),你將這些符號(hào)轉(zhuǎn)換為大型向量,所有的洞察都是用大型向量完成的。如果你想產(chǎn)生輸出,你將再次產(chǎn)生符號(hào)。所以在 2014 年的機(jī)器翻譯中有一個(gè)時(shí)刻,人們使用循環(huán)神經(jīng)網(wǎng)絡(luò),單詞會(huì)不斷進(jìn)來(lái),它們會(huì)有一個(gè)隱藏狀態(tài),并在這個(gè)隱藏狀態(tài)中不斷累積信息。所以當(dāng)?shù)竭_(dá)句子的結(jié)尾時(shí),就有一個(gè)大的隱藏向量,捕捉了句子的含義。然后它可以用來(lái)產(chǎn)生另一種語(yǔ)言中的單詞,這被稱為思維向量。這是關(guān)于語(yǔ)言的第二種觀點(diǎn)。
還有第三種觀點(diǎn),也是我現(xiàn)在相信的,即大腦將這些符號(hào)轉(zhuǎn)換為嵌入,并使用多層嵌入。所以你將得到非常豐富的嵌入。但嵌入仍然與符號(hào)相關(guān)聯(lián),從這個(gè)意義上講,符號(hào)有其對(duì)應(yīng)的大向量。這些向量相互作用產(chǎn)生下一個(gè)詞的符號(hào)的向量。因此理解是指知道如何將符號(hào)轉(zhuǎn)換為向量,以及向量的元素如何相互作用以預(yù)測(cè)下一個(gè)符號(hào)的向量。這就是大型語(yǔ)言模型以及我們的大腦中的理解方式。你保留符號(hào),但將其解釋為大向量。所有的工作以及所有的知識(shí)都在于使用哪些向量以及這些向量的元素如何相互作用,而不是在符號(hào)規(guī)則中。但這并不是說(shuō)你完全擺脫了符號(hào),而是說(shuō)將符號(hào)轉(zhuǎn)換為大向量,但保留符號(hào)的表面結(jié)構(gòu)。這就是大型語(yǔ)言模型的運(yùn)作方式?,F(xiàn)在我認(rèn)為這似乎也是人類思維一個(gè)更合理的模型。
「黃仁勛送了我一塊 GPU」
Hellermark:您是最早想到使用 GPU 的人之一。我知道 Jensen(黃仁勛)因此而愛(ài)您。早在 2009 年,您就提到您告訴 Jensen,使用 GPU 對(duì)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)可能是一個(gè)非常好的主意。
Hinton:實(shí)際上,2006 年左右,我有一個(gè)名叫 Richard Szeliski 的研究生。他是一個(gè)非常優(yōu)秀的計(jì)算機(jī)視覺(jué)專家。我在一次會(huì)議上和他討論,他說(shuō)應(yīng)該考慮使用圖形處理單元,因?yàn)樗鼈兎浅I瞄L(zhǎng)矩陣乘法,而您所做的事情基本上就是矩陣乘法。
所以我思考了一段時(shí)間。然后我們了解到 Tesla 系統(tǒng)配有四個(gè) GPU。最初我們嘗試使用游戲 GPU,發(fā)現(xiàn)它們使運(yùn)行速度快了 30 倍。然后我們買(mǎi)了一個(gè)帶有四個(gè) GPU 的 Tesla 系統(tǒng),我們?cè)谒厦孀隽苏Z(yǔ)音處理,效果非常好。
然后在 2009 年,我在 NIPS 上做了一個(gè)演講,我告訴 1000 名機(jī)器學(xué)習(xí)研究人員,你們都應(yīng)該去買(mǎi)英偉達(dá)的 GPU。GPU 是未來(lái)。你們需要 GPU 來(lái)進(jìn)行機(jī)器學(xué)習(xí)。然后我實(shí)際上給英偉達(dá)發(fā)了郵件,說(shuō)我告訴了 1000 名機(jī)器學(xué)習(xí)研究人員去買(mǎi)你們的產(chǎn)品,你們能免費(fèi)送我一個(gè)嗎?他們沒(méi)有說(shuō)不。實(shí)際上,他們沒(méi)有回復(fù)。但后來(lái)當(dāng)我告訴 Jensen 這個(gè)故事時(shí),他免費(fèi)送給我一個(gè)。
數(shù)字系統(tǒng)有人類無(wú)法比擬的優(yōu)勢(shì)
Hellermark:那太好了。我認(rèn)為有趣的是 GPU 的演變與這個(gè)領(lǐng)域的發(fā)展是同步的。你認(rèn)為我們接下來(lái)在計(jì)算方面應(yīng)該走向何方?
Hinton:我在谷歌的最后幾年,我一直在思考如何嘗試進(jìn)行模擬計(jì)算。即不是使用像一兆瓦這樣龐大的電力,而是使用像大腦一樣的 30 瓦電力,就可以在模擬硬件中運(yùn)行大型語(yǔ)言模型。
這一點(diǎn)我從未實(shí)現(xiàn)過(guò)。但我開(kāi)始真正欣賞數(shù)字計(jì)算。如果你要使用低功耗模擬計(jì)算,每個(gè)硬件都會(huì)有所不同,要利用硬件的特定屬性。這就是發(fā)生在人類身上的事情。我們所有人的大腦都不同,所以我們不能把你大腦中的權(quán)重拿出來(lái)放進(jìn)我的大腦。硬件是不同的。單個(gè)神經(jīng)元的確切屬性是不同的。
當(dāng)我們?nèi)ナ篮?,我們的知識(shí)和經(jīng)驗(yàn)大部分會(huì)隨之消失,因?yàn)槿祟悅鬟f知識(shí)的方式通常涉及語(yǔ)言交流,這種方式相對(duì)效率較低。然而,數(shù)字系統(tǒng)則不同,它們可以通過(guò)共享權(quán)重(即學(xué)習(xí)過(guò)的數(shù)據(jù)和參數(shù))來(lái)傳遞知識(shí)。一旦一個(gè)數(shù)字系統(tǒng)學(xué)習(xí)了某些知識(shí),這些權(quán)重就可以被保存并在其他任何相同配置的系統(tǒng)中重用。這種方式不僅保證了知識(shí)的精確復(fù)制,還極大提高了學(xué)習(xí)和知識(shí)共享的效率。因此,數(shù)字系統(tǒng)在共享和擴(kuò)散知識(shí)方面,具有遠(yuǎn)超人類的能力。
需要得到重視的快速權(quán)重
Hellermark:很多已經(jīng)在實(shí)際應(yīng)用中部署的人工智能系統(tǒng)的理念源于早期的神經(jīng)科學(xué)理論,這些理念已經(jīng)存在了很長(zhǎng)時(shí)間?,F(xiàn)在的問(wèn)題是,還有哪些未被充分利用的神經(jīng)科學(xué)理論可以應(yīng)用到我們開(kāi)發(fā)的系統(tǒng)中?這需要我們探索神經(jīng)科學(xué)中的未被充分挖掘的理論,將它們轉(zhuǎn)化為技術(shù),以推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。
Hinton:在人工智能與神經(jīng)科學(xué)的對(duì)比中,一個(gè)我們?nèi)孕枳汾s的重要方面是變化的時(shí)間尺度。在幾乎所有的神經(jīng)網(wǎng)絡(luò)中,都存在快速時(shí)間尺度的活動(dòng)變化 —— 輸入數(shù)據(jù)后,嵌入向量會(huì)發(fā)生變化。而另一種是慢速時(shí)間尺度,即權(quán)重的變化,這關(guān)系到長(zhǎng)期學(xué)習(xí)。在大腦中也有這兩個(gè)時(shí)間尺度。
例如,如果我突然說(shuō)出一個(gè)意外的詞,比如黃瓜,五分鐘后你戴上耳機(jī),在嘈雜的環(huán)境中,如果有很輕微的話語(yǔ)聲,你會(huì)更容易識(shí)別出黃瓜這個(gè)詞,因?yàn)槲椅宸昼娗罢f(shuō)過(guò)它了。那么這個(gè)知識(shí)存儲(chǔ)在哪里呢?在大腦中。這種認(rèn)知顯然是暫時(shí)性的突觸改變所保存的,而不是特定的神經(jīng)元來(lái)保存 —— 我們的大腦中并沒(méi)有足夠多的神經(jīng)元來(lái)做這種事。這種暫時(shí)性的權(quán)重改變,我稱之為快速權(quán)重,在我們目前的神經(jīng)模型中并沒(méi)有應(yīng)用。
我們之所以沒(méi)有在模型中使用快速權(quán)重,是因?yàn)槿绻麢?quán)重的暫時(shí)性變化依賴于輸入數(shù)據(jù),那么我們就無(wú)法同時(shí)處理多種不同的情況。目前,我們通常會(huì)將多種不同的數(shù)據(jù)批量堆疊在一起,并行處理,因?yàn)檫@樣可以進(jìn)行矩陣乘法,效率更高。正是這種效率的需求阻礙了我們使用快速權(quán)重。然而,大腦明顯利用快速權(quán)重來(lái)進(jìn)行臨時(shí)記憶存儲(chǔ),并且可以通過(guò)這種方式實(shí)現(xiàn)許多我們目前未能做到的功能。
我曾對(duì)像 GraphCore(一家英國(guó)半導(dǎo)體公司,開(kāi)發(fā)人工智能和機(jī)器學(xué)習(xí)加速器,它引入了大規(guī)模并行智能處理單元,在處理器內(nèi)保存完整的機(jī)器學(xué)習(xí)模型)這樣的技術(shù)抱有很大希望,如果它們采取序列方式并只進(jìn)行在線學(xué)習(xí),那么它們就能使用快速權(quán)重。但這種方法尚未取得成功。我認(rèn)為,當(dāng)人們開(kāi)始使用導(dǎo)電性(conductances)作為權(quán)重時(shí),這種方法最終會(huì)取得成功。
喬姆斯基的部分理論是無(wú)稽之談
Hellermark:了解這些模型的工作原理以及大腦的工作原理對(duì)你的思考方式有何影響?
Hinton:我認(rèn)為有很大的影響,這是一個(gè)相當(dāng)抽象的水平。一直以來(lái),在 AI 領(lǐng)域,曾經(jīng)有一個(gè)廣泛的觀點(diǎn)認(rèn)為,僅僅依賴大量訓(xùn)練數(shù)據(jù)讓一個(gè)龐大的隨機(jī)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)復(fù)雜事物是不可能的。如果你和統(tǒng)計(jì)學(xué)家、語(yǔ)言學(xué)家或大多數(shù)人工智能領(lǐng)域的人交流,他們會(huì)說(shuō)這只是一個(gè)白日夢(mèng),認(rèn)為沒(méi)有大規(guī)模的架構(gòu),就無(wú)法學(xué)習(xí)到真正復(fù)雜的知識(shí)。
但實(shí)際情況完全顛覆了這種觀點(diǎn)。事實(shí)證明,你可以通過(guò)大量數(shù)據(jù)訓(xùn)練一個(gè)龐大的隨機(jī)神經(jīng)網(wǎng)絡(luò),利用隨機(jī)梯度下降方法不斷調(diào)整權(quán)重,從而學(xué)習(xí)到復(fù)雜的事物。這一發(fā)現(xiàn)對(duì)我們理解大腦的結(jié)構(gòu)具有重要意義,表明大腦并不需要天生就具有所有的結(jié)構(gòu)性知識(shí)。當(dāng)然,大腦確實(shí)具有許多先天結(jié)構(gòu),但它顯然不需要依賴這些結(jié)構(gòu)來(lái)學(xué)習(xí)那些容易獲得的知識(shí)。
這種觀點(diǎn)也挑戰(zhàn)了喬姆斯基的語(yǔ)言學(xué)理論,即復(fù)雜的語(yǔ)言學(xué)習(xí)必須依賴于先天就編織在大腦中的結(jié)構(gòu),并且要等待這種結(jié)構(gòu)成熟。這種想法現(xiàn)在顯然是無(wú)稽之談。
Hellermark:我相信喬姆斯基會(huì)感謝你稱他的觀點(diǎn)為無(wú)稽之談。
智能系統(tǒng)也能擁有情感
Hellermark:你認(rèn)為要使這些模型更有效地模擬人類的意識(shí),需要做些什么?
Hinton:我認(rèn)為它們也可以出現(xiàn)情感(feeling)。我們常常傾向于使用「內(nèi)部劇場(chǎng)模型」來(lái)解釋感知(perception)和情感。比如我說(shuō)我想打 Gary 的鼻子,讓我們?cè)囍阉鼜膬?nèi)部劇場(chǎng)模型的概念中抽象出來(lái)。這通常被解釋為一種內(nèi)部情感體驗(yàn)。然而,這種模型可能并不準(zhǔn)確。實(shí)際上,當(dāng)我表達(dá)這種情感時(shí),我的真實(shí)意圖是,如果不是因?yàn)槲业那邦~葉的抑制作用,我可能真的會(huì)采取這樣的行動(dòng)。因此,所謂的情感,實(shí)際上是我們?cè)跊](méi)有限制的情況下可能會(huì)采取的行動(dòng)。
事實(shí)上,這些感覺(jué)并非人類獨(dú)有,機(jī)器人或其他智能系統(tǒng)也有可能體驗(yàn)情感。例如,1973 年在愛(ài)丁堡,我見(jiàn)過(guò)一個(gè)機(jī)器人表現(xiàn)出情感。這個(gè)機(jī)器人有兩個(gè)抓手,可以在綠色毛氈上組裝玩具汽車,只要將零件分開(kāi)放置。但如果你把零件堆在一起,由于它的視覺(jué)系統(tǒng)不夠好,無(wú)法分辨情況,它會(huì)顯得困惑并將零件擊散,然后再進(jìn)行組裝。如果這種行為發(fā)生在人類身上,我們可能會(huì)認(rèn)為他因?yàn)椴焕斫馇闆r而感到惱怒,并因此摧毀了它。
Hellermark:這讓人印象深刻。你之前說(shuō)過(guò),你將人類和大型語(yǔ)言模型描述為類比機(jī)器(analogy machines)。你認(rèn)為你一生中發(fā)現(xiàn)的最有力的類比是什么?
Hinton:在我的一生中,一個(gè)對(duì)我影響很大的、雖然有些牽強(qiáng)的類比是宗教信仰與符號(hào)處理之間的相似性。我出生在一個(gè)無(wú)神論家庭,當(dāng)我還很小的時(shí)候,上學(xué)時(shí)首次接觸到宗教信仰,對(duì)我來(lái)說(shuō)那完全是無(wú)稽之談,直到現(xiàn)在我仍然這么認(rèn)為。當(dāng)我了解到符號(hào)處理被用來(lái)解釋人們的行為時(shí),我覺(jué)得這和宗教信仰一樣荒謬。但現(xiàn)在我不再認(rèn)為它完全是無(wú)稽之談,因?yàn)槲掖_實(shí)認(rèn)為我們進(jìn)行了符號(hào)處理,只不過(guò)我們是通過(guò)為這些符號(hào)賦予嵌入向量來(lái)處理的。但我們實(shí)際上是在進(jìn)行符號(hào)處理,只是方式與人們?cè)鞠胂蟮耐耆煌?。人們?cè)J(rèn)為符號(hào)處理只是簡(jiǎn)單地匹配符號(hào),一個(gè)符號(hào)只有一個(gè)屬性:要么與另一個(gè)符號(hào)相同,要么不相同。我們根本不是這樣做的。我們利用上下文為符號(hào)提供嵌入向量,然后利用這些嵌入向量的組件之間的相互作用來(lái)進(jìn)行思考。
但谷歌有一位非常優(yōu)秀的研究人員,名叫 Fernando Pereira,他曾表示我們確實(shí)有符號(hào)推理。我們擁有的唯一符號(hào)是自然語(yǔ)言。自然語(yǔ)言是一種符號(hào)語(yǔ)言,我們用它進(jìn)行推理。我現(xiàn)在相信了。
對(duì)于問(wèn)題保持懷疑,然后證明它
Hellermark:你已經(jīng)完成了計(jì)算機(jī)科學(xué)史上一些最有意義的研究。能否向我們介紹一下,例如,如何挑選正確的問(wèn)題進(jìn)行研究?
Hinton:我和我的學(xué)生做了很多最有意義的事情。這主要?dú)w功于與學(xué)生的良好合作以及我挑選優(yōu)秀學(xué)生的能力。這是因?yàn)樵谏鲜兰o(jì) 70 年代、80 年代、90 年代以及進(jìn)入 21 世紀(jì),很少有人研究神經(jīng)網(wǎng)絡(luò)。所以從事神經(jīng)網(wǎng)絡(luò)研究的少數(shù)人能夠挑選到最優(yōu)秀的學(xué)生,還需要依靠一點(diǎn)運(yùn)氣。
但我挑選研究問(wèn)題的方式基本上是這樣的:你知道,當(dāng)科學(xué)家談?wù)撍麄兊墓ぷ鞣绞綍r(shí),他們會(huì)有一些關(guān)于工作方式的理論,這些理論可能與事實(shí)并無(wú)太大關(guān)聯(lián)。但我的理論是,我會(huì)尋找一個(gè)大家都認(rèn)同的觀點(diǎn),但感覺(jué)上似乎有些不對(duì)勁的地方。通常是有一種微妙的直覺(jué),覺(jué)得某處有問(wèn)題,只是有一點(diǎn)點(diǎn)感覺(jué)不對(duì)勁。然后我就會(huì)研究這個(gè)問(wèn)題,試圖詳細(xì)解釋為什么它是錯(cuò)誤的。也許我能用一個(gè)小型計(jì)算機(jī)程序做一個(gè)小演示,顯示它的工作方式并不像你可能預(yù)期的那樣。
讓我舉一個(gè)例子。大多數(shù)人認(rèn)為,如果你給神經(jīng)網(wǎng)絡(luò)添加噪聲,它的效果會(huì)變差。實(shí)際上,我們知道如果這樣做,它的泛化能力會(huì)更好。這可以通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)證明,這就是計(jì)算機(jī)模擬的好處。你可以展示你原先的想法 —— 添加噪聲會(huì)使效果變差,讓一半的神經(jīng)元停止工作會(huì)使其效果變差 —— 在短期內(nèi)確實(shí)如此。但如果你像這樣訓(xùn)練它,最終它的效果會(huì)更好。你可以通過(guò)一個(gè)小型計(jì)算機(jī)程序來(lái)演示這一點(diǎn),然后你可以仔細(xì)思考為什么會(huì)這樣。這就是我的工作方法:找到一個(gè)聽(tīng)起來(lái)可疑的東西,然后研究它,看看你是否能用一個(gè)簡(jiǎn)單的演示來(lái)說(shuō)明它為什么是錯(cuò)誤的。
Hinton 想繼續(xù)研究的未解之謎:大腦運(yùn)作方式
Hellermark:最近,什么東西引起了你的懷疑?
Hinton:我們不使用快速權(quán)重,這看起來(lái)有些問(wèn)題。我們只有這兩種時(shí)間尺度,這顯然是錯(cuò)誤的。這與大腦的運(yùn)作方式完全不同。從長(zhǎng)遠(yuǎn)來(lái)看,我認(rèn)為我們將需要更多的時(shí)間尺度。
Hellermark:如果你現(xiàn)在帶領(lǐng)一組學(xué)生,他們來(lái)找你,說(shuō)到我們之前討論過(guò)的問(wèn)題,你所在的領(lǐng)域中最重要的問(wèn)題是什么?你會(huì)建議他們接下來(lái)研究并工作什么?我們談到了推理的時(shí)間尺度。你建議的最優(yōu)先的問(wèn)題是什么?
Hinton:對(duì)我來(lái)說(shuō),現(xiàn)在的問(wèn)題和我過(guò)去大約 30 年一直關(guān)注的問(wèn)題相同,那就是大腦是否進(jìn)行反向傳播?我相信大腦在獲取梯度。如果你沒(méi)有獲取到梯度,你的學(xué)習(xí)效果會(huì)比獲取到梯度時(shí)差很多。但大腦是如何獲取梯度的?它是否在實(shí)現(xiàn)某種近似版本的反向傳播,或者是采用了一種完全不同的技術(shù)?這是一個(gè)很大的未解之謎。如果我繼續(xù)從事研究,這就是我將要研究的內(nèi)容。
Hellermark:當(dāng)你現(xiàn)在回顧你的職業(yè)生涯時(shí),你在很多事情上都是正確的。但假如當(dāng)時(shí)用很少的時(shí)間來(lái)決定的方向后來(lái)被證明是錯(cuò)誤的?
Hinton:這里有兩個(gè)單獨(dú)的問(wèn)題。1、你做錯(cuò)了什么?2、你希望自己少花點(diǎn)時(shí)間嗎?我認(rèn)為我對(duì)玻爾茲曼機(jī)的看法是錯(cuò)誤的,我很高興我在它上面花了很長(zhǎng)時(shí)間。關(guān)于如何獲得梯度,有比反向傳播更美麗的理論,它只是普通且合理的,它只是一個(gè)章節(jié)。這兩個(gè)機(jī)制都很聰明,這是一種非常有趣的獲取梯度的方法。我希望大腦是這樣運(yùn)作的,但我認(rèn)為事實(shí)并非如此。
Hellermark:您是否花了很多時(shí)間想象系統(tǒng)開(kāi)發(fā)后會(huì)發(fā)生什么?如果我們能讓這些系統(tǒng)運(yùn)行得很好,我們就可以實(shí)現(xiàn)教育的民主化,我們可以讓知識(shí)更容易獲得,我們可以解決醫(yī)學(xué)上的一些棘手問(wèn)題?;蛘邔?duì)你來(lái)說(shuō)更重要的是了解大腦運(yùn)行的機(jī)制?
Hinton:是的,我確實(shí)覺(jué)得科學(xué)家應(yīng)該做那些能幫助社會(huì)的事情。但實(shí)際上,當(dāng)你的研究被好奇心驅(qū)動(dòng)時(shí),你做不到最好的研究。你只需要理解一些事情。更近地,我意識(shí)到這些東西可能會(huì)造成很多傷害,也會(huì)帶來(lái)很多好處。我變得更加關(guān)注它們對(duì)社會(huì)的影響。但這不是動(dòng)機(jī)。我只想知道大腦是如何學(xué)會(huì)做事的?那就是我想知道的。而我在試錯(cuò)的過(guò)程中,我們得到了一些不錯(cuò)的工程結(jié)果。
Hellermark:是的,這對(duì)世界來(lái)說(shuō)是一個(gè)有益的失敗。如果從可能帶來(lái)巨大正面影響的角度來(lái)看,你認(rèn)為最有前景的應(yīng)用是什么?
Hinton:我認(rèn)為醫(yī)療保健顯然是一個(gè)大領(lǐng)域。在醫(yī)療方面,社會(huì)可以吸收的數(shù)量幾乎沒(méi)有限制。對(duì)一個(gè)老人來(lái)說(shuō),他們可能需要全職的五位醫(yī)生。所以當(dāng) AI 在做事上比人類更好時(shí),你會(huì)希望你在這些領(lǐng)域出現(xiàn)更多的資源 —— 如果每個(gè)人都有三位醫(yī)生,那就太好了。我們將達(dá)到那個(gè)地步。
還有新的工程,開(kāi)發(fā)新材料,例如更好的太陽(yáng)能電池板、室溫超導(dǎo)或僅僅是理解身體的工作原理。這些都會(huì)有很大的影響力。我擔(dān)心的是壞人利用它們做壞事。
Hellermark:你有沒(méi)有擔(dān)心過(guò),放慢這個(gè)領(lǐng)域的發(fā)展速度也可能會(huì)放慢積極的一面?
Hinton:當(dāng)然。我認(rèn)為這個(gè)領(lǐng)域不太可能放慢速度,部分原因是它是國(guó)際性的。如果一個(gè)國(guó)家放慢速度,其他國(guó)家不會(huì)放慢速度。之前有一個(gè)提議說(shuō)我們應(yīng)該暫停大模型研究六個(gè)月。我沒(méi)有簽名,因?yàn)槲艺J(rèn)為這永遠(yuǎn)不會(huì)發(fā)生。我可能應(yīng)該簽字,因?yàn)榧词顾肋h(yuǎn)不會(huì)發(fā)生,它也表明了一個(gè)觀點(diǎn)。有時(shí)為了表明立場(chǎng)而使用它也是好事。但我不認(rèn)為我們會(huì)放慢速度。
Hellermark:你認(rèn)為擁有(ChatGPT)這樣的助手將如何影響 AI 研究過(guò)程?
Hinton:我認(rèn)為它將使 AI 研究變得更加高效。當(dāng)你有這些助手來(lái)幫助你編程,也幫助你思考問(wèn)題,可能會(huì)在方程式上幫助你很多。
挑選學(xué)生,更看重直覺(jué)
Hellermark:你有沒(méi)有深思熟慮過(guò)選擇人才的過(guò)程?這對(duì)你來(lái)說(shuō)大多是憑直覺(jué)的嗎?就像當(dāng) Ilya Sutskever 出現(xiàn)在門(mén)口時(shí),你會(huì)覺(jué)得「這是一個(gè)聰明人,讓我們一起工作吧」。
Hinton:對(duì)于選擇人才,有時(shí)候是很明顯的。在交談后不久,你就能看出他非常聰明。進(jìn)一步交談你會(huì)發(fā)現(xiàn),他顯然非常聰明,并且在數(shù)學(xué)上有很好的直覺(jué)。所以這是輕而易舉的。
還有一次我在 NIPS 會(huì)議上,我們有一個(gè) Poster,有人走過(guò)來(lái)問(wèn)我們關(guān)于 Poster 的問(wèn)題。他問(wèn)的每個(gè)問(wèn)題都是對(duì)我們做錯(cuò)了什么的深刻洞察。五分鐘后,我給了他一個(gè)博士后職位。那個(gè)人是 David McKay,他非常聰明。他去世了,這非常令人難過(guò),但他顯然是你想要的那種人。
其他時(shí)候就不那么明顯了。我學(xué)到的一件事是,人是不同的。不僅僅有一種類型的好學(xué)生。有些學(xué)生可能不那么有創(chuàng)造力,但從技術(shù)角度來(lái)看非常強(qiáng)大,可以讓任何事情都運(yùn)轉(zhuǎn)起來(lái)。還有一些學(xué)生技術(shù)上不那么強(qiáng),但非常有創(chuàng)造力。當(dāng)然,你想要的是兩者兼?zhèn)涞娜?,但你并不總是能得到。但我認(rèn)為實(shí)際上在實(shí)驗(yàn)室里,你需要各種不同類型的研究生。但我還是跟著我的直覺(jué)走,有時(shí)你和某人交談,他們真的非常聰明,他們就是能跟得上思路,那就是你想要的人。
Hellermark:你認(rèn)為你對(duì)有些人有更好的直覺(jué)的原因是什么?或者說(shuō)你如何培養(yǎng)你的直覺(jué)?
Hinton:我認(rèn)為部分原因是,他們不會(huì)接受無(wú)意義的東西。有個(gè)獲得糟糕直覺(jué)的方法,那就是相信你被告知的一切,那太致命了。你必須能夠... 我認(rèn)為有些人是這樣做的,他們對(duì)理解現(xiàn)實(shí)有一個(gè)完整的框架。當(dāng)有人告訴他們某些事情時(shí),他們會(huì)試圖弄清楚這如何適應(yīng)他們的框架。如果不適合,他們就拒絕它。這是一個(gè)非常好的策略。
試圖吸收他們被告知的一切的人最終會(huì)得到一個(gè)非常模糊的框架。他們可以相信一切,那是沒(méi)有用的。所以我認(rèn)為實(shí)際上擁有一個(gè)對(duì)世界的堅(jiān)定觀點(diǎn),并試圖整合輸入的事實(shí)以適應(yīng)你的觀點(diǎn),這可能會(huì)導(dǎo)致深刻的宗教信仰和致命的缺陷等等,像我對(duì)玻爾茲曼機(jī)的信念,但我認(rèn)為這是正確的。
如果你有可靠的好直覺(jué),你應(yīng)該信任它們。如果你的直覺(jué)不好,怎么做都沒(méi)用了。所以你不妨信任它們。
全力以赴,用多模態(tài)數(shù)據(jù)訓(xùn)練更大的模型
Hellermark:這是一個(gè)非常好的觀點(diǎn)。當(dāng)你看正在進(jìn)行的研究類型時(shí),你認(rèn)為我們是不是在把所有的雞蛋放在一個(gè)籃子里。我們是否應(yīng)該在領(lǐng)域內(nèi)更多樣化我們的想法?還是說(shuō)你認(rèn)為這是最有希望的方向,所以我們應(yīng)該全力以赴?
Hinton:我認(rèn)為擁有大型模型并在多模態(tài)數(shù)據(jù)上訓(xùn)練它們,即使只是為了預(yù)測(cè)下一個(gè)詞,這是一個(gè)非常有希望的方法,我們應(yīng)該全力以赴。顯然,現(xiàn)在有很多人在做這件事,還有很多人在做一些看似瘋狂的事情,這是好事。但我認(rèn)為讓大多數(shù)人走這條路是沒(méi)問(wèn)題的,因?yàn)樗\(yùn)作得非常好。
Hellermark:你認(rèn)為學(xué)習(xí)算法真的那么重要嗎,還是說(shuō)規(guī)模更重要?是否有數(shù)百萬(wàn)種方法可以讓我們達(dá)到人類級(jí)別的智能,還是有一些我們需要發(fā)現(xiàn)的特定方法?
Hinton:是的,關(guān)于特定的學(xué)習(xí)算法是否非常重要,是否有很多學(xué)習(xí)算法可以完成這項(xiàng)工作,我不知道答案。但在我看來(lái),反向傳播在某種意義上是正確的事情。獲得梯度,這樣你就可以改變參數(shù)讓它工作得更好,這似乎是正確的事情,而且它取得了驚人的成功??赡苓€有其他的學(xué)習(xí)算法,它們以不同的方式獲得相同的梯度,并且也能工作。我認(rèn)為這都是開(kāi)放的,并且是一個(gè)非常有趣的問(wèn)題,即是否有其他你可以試圖最大化的東西,會(huì)給你好的系統(tǒng)。也許大腦正在這樣做,因?yàn)樗苋菀住7聪騻鞑ピ谀撤N意義上是正確的事情,我們知道這樣做非常有效。
一生最自豪的成就:玻爾茲曼機(jī)的學(xué)習(xí)算法
Hellermark:最后一個(gè)問(wèn)題。回顧你幾十年的研究,你最自豪的是什么?是學(xué)生?還是研究?
Hinton:玻爾茲曼機(jī)的學(xué)習(xí)算法。它非常優(yōu)雅,可能在實(shí)踐中沒(méi)有希望,但這是我最享受的事情,我與 Terry 一起開(kāi)發(fā)了它,這是我最自豪的,即使它是錯(cuò)誤的。
論文鏈接:https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf
Hellermark:你現(xiàn)在花最多時(shí)間思考的問(wèn)題是什么?
Hinton:在 Netflix 上下個(gè)劇該看什么。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
原文鏈接:??https://mp.weixin.qq.com/s/OydltjpVwsQ7hNBH6hq_Og??
