直接壓縮一切!OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)
近日,OpenAI 首席科學(xué)家 Ilya Sutskever 在專注于計(jì)算理論研究的 Simons Institute 作了一次講座,一句話總結(jié)就是我們可以通過壓縮的視角來看待無監(jiān)督學(xué)習(xí)。此外他還分享了不少其它有趣的見解。機(jī)器之心整理了該演講的大體內(nèi)容,希望借此幫助讀者更深入地理解無監(jiān)督學(xué)習(xí)。
Sutskever 首先談到了自己的研究方向的變化,他說:「不久前,我將全部的研究重心都轉(zhuǎn)移到了 AI 對齊研究上。」這說的是 OpenAI 前段時(shí)間成立的「Superalignment(超級對齊)」團(tuán)隊(duì),由他與 Jan Leike 共同領(lǐng)導(dǎo)。Sutskever 表示他們已經(jīng)在 AI 對齊方面取得了一些研究成果,但這并非這次演講關(guān)注的話題。對此感興趣的讀者可參閱《用 AI 對齊 AI?超級對齊團(tuán)隊(duì)領(lǐng)導(dǎo)人詳解 OpenAI 對齊超級智能四年計(jì)劃》。
這次演講的主題為「An observation on Generalization(對泛化的一種觀察)」,而 Ilya Sutskever 具體談?wù)摰闹攸c(diǎn)是一種解釋無監(jiān)督學(xué)習(xí)的理論。
首先,Ilya Sutskever 提出了一連串有關(guān)「學(xué)習(xí)」的廣義問題:學(xué)習(xí)究竟是什么?為什么學(xué)習(xí)有用?為什么學(xué)習(xí)應(yīng)該有用?計(jì)算機(jī)為什么應(yīng)該具備學(xué)習(xí)能力?為什么神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)?為什么機(jī)器學(xué)習(xí)模型可以學(xué)習(xí)到數(shù)據(jù)的規(guī)律?我們能否用數(shù)學(xué)形式來描述學(xué)習(xí)?
監(jiān)督學(xué)習(xí)
Sutskever 先從監(jiān)督學(xué)習(xí)談起。他表示,監(jiān)督學(xué)習(xí)方面已經(jīng)有了重要的形式化工作,這是多位研究者在多年前得到的成果;這些成果通常被稱為統(tǒng)計(jì)學(xué)習(xí)理論。
監(jiān)督學(xué)習(xí)的優(yōu)勢在于能提供一個(gè)學(xué)習(xí)必定成功的精確數(shù)學(xué)條件。也就是說,如果你有一些來自某數(shù)據(jù)分布的數(shù)據(jù),然后你能成功實(shí)現(xiàn)較低的訓(xùn)練損失并且你的訓(xùn)練數(shù)據(jù)足夠多(多于數(shù)據(jù)分布的自由度),那么你的測試誤差必定很低。
從數(shù)學(xué)上講,如果能在一類函數(shù)中找到能實(shí)現(xiàn)較低訓(xùn)練損失的函數(shù),那么學(xué)習(xí)就必定成功。也因此,監(jiān)督學(xué)習(xí)非常簡單。
研究者在相關(guān)研究中已經(jīng)發(fā)現(xiàn)了一些定理,如下便是一例。Sutskever 表示解釋這個(gè)定理大概需要五分鐘,但很顯然他的演講時(shí)間有限。
總而言之,這個(gè)定理很「優(yōu)雅」,只用三行數(shù)學(xué)推導(dǎo)便能證明監(jiān)督學(xué)習(xí)過程。
所以相對而言,監(jiān)督學(xué)習(xí)已經(jīng)得到很好的理解。我們知道其必定會成功的原因 —— 只要我們能收集到大規(guī)模的監(jiān)督學(xué)習(xí)數(shù)據(jù)集,那么就完全可以相信模型必定越來越好。當(dāng)然另一點(diǎn)也很重要,也就是保證測試分布和訓(xùn)練分布一致;只有這樣,監(jiān)督學(xué)習(xí)理論才是有效的。
所以監(jiān)督學(xué)習(xí)的概念是很簡單的。我們也已經(jīng)有了監(jiān)督學(xué)習(xí)為什么有效的答案 —— 我們知道語音識別和圖像分類為什么可以實(shí)現(xiàn),因?yàn)樗鼈兌蓟谟行矣袛?shù)學(xué)保證的監(jiān)督學(xué)習(xí)。
這里 Ilya Sutskever 順帶提了提 VC 維度。他提到很多統(tǒng)計(jì)學(xué)習(xí)理論的研究者都認(rèn)為 VC 維度是一大關(guān)鍵組件,但 VC 維度被發(fā)明出來的目的是為了讓模型有能力處理有無限精度的參數(shù)。
舉個(gè)例子,如果你的線性分類器的每個(gè)參數(shù)都有無限精度,而現(xiàn)實(shí)中的浮點(diǎn)數(shù)的精度都是有限的,而且精度會收縮,那么你可以通過 VC 維度實(shí)現(xiàn)一些函數(shù),將這個(gè)線性分類器歸約成前面公式描述的監(jiān)督學(xué)習(xí)形式。
無監(jiān)督學(xué)習(xí)是什么?
接下來看無監(jiān)督學(xué)習(xí)。首先什么是無監(jiān)督學(xué)習(xí)?Ilya Sutskever 表示他目前還沒看到令人滿意的對無監(jiān)督學(xué)習(xí)的闡釋,我們也不知道如何從數(shù)學(xué)上推理它 —— 最多只能在直覺上做點(diǎn)推斷。
無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域長久以來的夢想。Sutskever 認(rèn)為這個(gè)目標(biāo)已經(jīng)在實(shí)驗(yàn)研究中達(dá)成,即模型在不被告知數(shù)據(jù)內(nèi)容的前提下觀察數(shù)據(jù)并發(fā)現(xiàn)其中存在的真實(shí)有用的隱藏結(jié)構(gòu)。
這是怎么發(fā)生的?我們能確保這一定會發(fā)生嗎?Sutskever 表示我們不能,畢竟我們在無監(jiān)督學(xué)習(xí)方面沒有在監(jiān)督學(xué)習(xí)方面那樣的理論保證。
人們早在上世紀(jì) 80 年代就在探究無監(jiān)督學(xué)習(xí)了,當(dāng)時(shí)使用的術(shù)語也是類似。在實(shí)驗(yàn)中,人們觀察到,當(dāng)數(shù)據(jù)量較小時(shí),不會出現(xiàn)無監(jiān)督學(xué)習(xí)現(xiàn)象,但是一些現(xiàn)在流行的開發(fā)思路已經(jīng)出現(xiàn)了,比如 BERT、擴(kuò)散模型、老式的語言模型等。當(dāng)時(shí)的無監(jiān)督學(xué)習(xí)也能生成一些很酷的樣本,但當(dāng)然是比不上現(xiàn)在的技術(shù)。
但因?yàn)槲覀儾恢罒o監(jiān)督學(xué)習(xí)的工作方式,所以它一直都讓人困惑。
比如當(dāng)你針對某個(gè)目標(biāo)(比如圖像重建或預(yù)測下一個(gè)詞)進(jìn)行優(yōu)化時(shí),你可能也在意另一個(gè)目標(biāo)(比如圖像分類或文檔分類),而模型可能在這個(gè)未經(jīng)優(yōu)化的目標(biāo)上也能取得不錯(cuò)的表現(xiàn)。但為什么會這樣呢?不知道,實(shí)驗(yàn)結(jié)果就是如此。Sutskever 說這就像是魔法。
難道我們就要放棄理論,在實(shí)證主義上一路走下去嗎?
我們知道無監(jiān)督學(xué)習(xí)是學(xué)習(xí)輸入分布中的結(jié)構(gòu),然后從中獲得有助于實(shí)現(xiàn)目標(biāo)的東西。但如果輸入分布是均勻分布(uniform distribution)呢?這時(shí)候各種無監(jiān)督學(xué)習(xí)算法都會失效。我們應(yīng)該怎么看待這種現(xiàn)象呢?Sutskever 表示我們需要做些假設(shè)。
一種無監(jiān)督學(xué)習(xí)方法:分布匹配
接下來,Sutskever 展示了一種思考無監(jiān)督學(xué)習(xí)的潛在方式。他說這種無監(jiān)督學(xué)習(xí)方式一直沒有成為主流,但卻非常有趣。它有與監(jiān)督學(xué)習(xí)類似的特征,也就是必然有效。為什么會這樣?這涉及到一種名為分布匹配(distribution matching)的無監(jiān)督學(xué)習(xí)流程。
接下來簡單說明一下。假設(shè)有兩個(gè)數(shù)據(jù)源 X 和 Y,它們之間并無對應(yīng)關(guān)系;模型的目標(biāo)是找到函數(shù) F,使得 F (X) 的分布與 Y 的分布近似 —— 這是對 F 的約束(constraint)。
對于機(jī)器翻譯和語音識別等許多應(yīng)用場景,這個(gè)約束可能是有意義的。舉個(gè)例子,如果有一個(gè)英語句子的分布,使用函數(shù) F 后,可以得到接近法語句子分布的分布,那么就可以說我們得到了 F 的真實(shí)約束。
如果 X 和 Y 的維度都足夠高,那么 F 可能就有大量約束。事實(shí)上,你甚至有可能從那些約束中恢復(fù)完整的 F。這是無監(jiān)督學(xué)習(xí)的監(jiān)督學(xué)習(xí)(supervised learning of unsupervised learning)的一個(gè)示例,它必定有效,就像監(jiān)督學(xué)習(xí)必定有效一樣。
此外,替代密碼(subsitution cipher)也符合這一框架。
Sutskever 表示自己在 2015 年時(shí)獨(dú)立發(fā)現(xiàn)了這一現(xiàn)象。這讓他不禁思考:也許我們能用某種有意義的數(shù)學(xué)形式來描述無監(jiān)督學(xué)習(xí)。
當(dāng)然,上面描述的機(jī)器翻譯場景是簡化過的人工場景,并不符合真實(shí)的應(yīng)用情況,對應(yīng)的無監(jiān)督學(xué)習(xí)場景自然也是如此。
接下來,Sutskever 將闡述他提出的方法 —— 其能從數(shù)學(xué)上為無監(jiān)督學(xué)習(xí)提供說明以及確保無監(jiān)督學(xué)習(xí)的結(jié)果優(yōu)良。
眾所周知,壓縮就是一種預(yù)測,每個(gè)壓縮器都可以轉(zhuǎn)換為一個(gè)預(yù)測器,反之亦然。全體壓縮器與全體預(yù)測器之間存在一一對應(yīng)關(guān)系。
Sutskever 指出,為了能更清晰地說明對無監(jiān)督學(xué)習(xí)的思考,使用壓縮方面的論述方式更具優(yōu)勢。
基于此,他給出了一個(gè)思想實(shí)驗(yàn)。
假設(shè)你有兩個(gè)數(shù)據(jù)集 X 和 Y,它們是你的硬盤上的兩個(gè)文件;然后你有一個(gè)很棒的壓縮算法 C。再假設(shè)你對 X 和 Y 進(jìn)行聯(lián)合壓縮,也就是先將它們連接起來,然后將其饋送給壓縮器。
現(xiàn)在的重要問題是:一個(gè)足夠好的壓縮器會做什么?
Sutskever 給出了一個(gè)非常直覺式的答案:壓縮器會使用 X 中存在的模式來幫助壓縮 Y;反之亦然。
他表示,預(yù)測任務(wù)場景其實(shí)也存在類似的現(xiàn)象,但在壓縮語境中說起來似乎就更直觀一點(diǎn)。
如果你的壓縮器足夠好,那么對連接后文件的壓縮結(jié)果應(yīng)該不會差于分開壓縮的結(jié)果。
因此,通過連接所獲得的進(jìn)一步壓縮效果是你的壓縮器注意到的某種共有的結(jié)構(gòu)。壓縮器越好,其能提取出的共有結(jié)構(gòu)就越多。
兩種壓縮結(jié)果之間的差就是共有結(jié)構(gòu),即算法互信息(algorithmic mutual information)。
對應(yīng)地,可以把 Y 視為監(jiān)督任務(wù)的數(shù)據(jù),X 視為無監(jiān)督任務(wù)的數(shù)據(jù),而你對這些信息有某種形式的數(shù)學(xué)推理 —— 可以使用 X 中的模式來幫助 Y 任務(wù)。
也要注意其如何實(shí)現(xiàn)了對分布匹配的泛化。如果是在分布匹配情況下,假如 X 是語言 1,Y 是語言 2,并且存在某個(gè)簡單函數(shù) F 可從一個(gè)分布轉(zhuǎn)換到另一個(gè)分布;那么優(yōu)良的壓縮器也能注意到這一點(diǎn)并將其利用起來,甚至可能在內(nèi)部恢復(fù)出該函數(shù)。
這樣一來,閉環(huán)就形成了。那么我們?nèi)绾斡脭?shù)學(xué)形式描述無監(jiān)督學(xué)習(xí)呢?
無監(jiān)督學(xué)習(xí)的數(shù)學(xué)形式化
注意這一部分的描述會交替使用壓縮場景和預(yù)測場景的描述。
首先假設(shè)我們有一個(gè)機(jī)器學(xué)習(xí)算法 A,其作用是壓縮 Y。算法 A 能夠訪問 X。令 X 為 1 號文件,Y 為 2 號文件。我們希望我們的機(jī)器學(xué)習(xí)算法 / 壓縮器能對 Y 進(jìn)行壓縮并且其能在合適的時(shí)候使用 X。目標(biāo)是盡可能地壓縮 Y。
那么我們要問自己:使用這個(gè)算法最大的遺憾(regret)是什么?
Sutskever 解釋說:「如果我很好地完成了工作并且我的遺憾很低,就意味著我已經(jīng)從這未標(biāo)注的數(shù)據(jù)中獲得了所有盡可能的幫助。這些未標(biāo)注數(shù)據(jù)已經(jīng)盡可能地幫助了我。我對此毫無遺憾?!挂簿褪钦f已經(jīng)沒有更好的預(yù)測值可供更好的壓縮算法使用了。「我已經(jīng)從我的未標(biāo)注數(shù)據(jù)中獲得了最大收益?!?/span>
Sutskever 認(rèn)為這是向思考無監(jiān)督學(xué)習(xí)所邁出的重要一步。你不知道你的無監(jiān)督數(shù)據(jù)集是否真的有用,但如果你在監(jiān)督學(xué)習(xí)算法上的遺憾很低,那么不管有沒有用,你都已經(jīng)得到了最佳結(jié)果,不可能會有更好的結(jié)果了。
現(xiàn)在進(jìn)入有些晦澀難懂的理論領(lǐng)域。
將 Kolmogorov 復(fù)雜度用作終極壓縮器能為我們提供超低遺憾的算法,但這其實(shí)并不是算法,因?yàn)樗豢捎?jì)算。
先簡單解釋一下 Kolmogorov 復(fù)雜度:就好比你給我一些數(shù)據(jù),為了壓縮它,我給你提供一個(gè)可能存在的最短的程序。Kolmogorov 復(fù)雜度就等于這個(gè)最短程序的長度。
令 C 是一個(gè)可計(jì)算的壓縮器,那么對于所有 X,Kolmogorov 壓縮器的復(fù)雜度小于壓縮器 C 的任意輸出加上實(shí)現(xiàn)該壓縮器所需的代碼字符數(shù)。
我們可以使用模擬論證(simulation argument)來證明這一點(diǎn)。假設(shè)有一個(gè)非常棒的壓縮器 C,那么它可能是一個(gè)計(jì)算機(jī)程序,如果將這個(gè)計(jì)算機(jī)程序交給 K 來運(yùn)行,那么 K 所需的成本就是這個(gè)程序的長度。Kolmogorov 壓縮器可以模擬其它計(jì)算機(jī)程序和其它壓縮器,也因此它是不可計(jì)算的。它就像是一個(gè)能夠模擬所有計(jì)算機(jī)程序的自由程序,但它也是有可能存在的最好的壓縮器。
現(xiàn)在我們泛化 Kolmogorov 壓縮器,使其可以使用其它信息。我們知道 Kolmogorov 壓縮器是不可計(jì)算的,不可判定的,而像是搜索所有程序。這就像是使用神經(jīng)網(wǎng)絡(luò)通過 SGD(隨機(jī)梯度下降)調(diào)整參數(shù)來搜索程序。這個(gè)過程運(yùn)行在有一定資源(內(nèi)存、 步驟數(shù))的計(jì)算機(jī)上,這就像是非常微小的 Kolmogorov 壓縮器。這兩者存在相似之處。
神經(jīng)網(wǎng)絡(luò)可以模擬小程序,它們是小小的計(jì)算機(jī),有回路 / 電路。我們可以使用 SGD 訓(xùn)練這些計(jì)算機(jī),從數(shù)據(jù)中找到它的「電路」。
模擬論證在這里也適用。如果你想設(shè)計(jì)一個(gè)更好的神經(jīng)網(wǎng)絡(luò)架構(gòu),你會發(fā)現(xiàn)這很困難,因?yàn)樵鎏砘蛐薷倪B接這些操作雖然可以被其它神經(jīng)網(wǎng)絡(luò)架構(gòu)模擬,但實(shí)際卻難以做到。因?yàn)檫@些是能帶來巨大提升的罕見情況。正如從 RNN 到 Transformer 轉(zhuǎn)變。RNN 有一個(gè)瓶頸:隱藏狀態(tài)。但如果我們能找到一種方法,讓 RNN 可以擁有非常大的隱藏狀態(tài),那么它的性能表現(xiàn)可能會重新趕上 Transformer。
所以我們可以把條件 Kolmogorov 復(fù)雜度作為無監(jiān)督學(xué)習(xí)的解,如下所示:
其中 C 是一個(gè)可計(jì)算的壓縮器,K (Y|X) 是如果能使用 X,能輸出 Y 的最短程序的長度。
這是無監(jiān)督學(xué)習(xí)的超低遺憾的解,只不過它是不可計(jì)算的,但卻能提供一個(gè)有用的框架。
直接壓縮一切!
Sutskever 又進(jìn)一步提到「直接壓縮一切」也是可行的。
條件 Kolmogorov 復(fù)雜度 K (Y|X) 在機(jī)器學(xué)習(xí)語境中是不自然的,因?yàn)樗腔?X 來壓縮 Y,而至少就目前而言,以大型數(shù)據(jù)集為條件還是基本無法辦到的。我們可以擬合大型數(shù)據(jù)集,但很難以其為條件。
而上式是表示:如果你想要對你監(jiān)督的東西 Y 進(jìn)行預(yù)測,使用壓縮 X 和 Y 連接數(shù)據(jù)的常規(guī) Kolmogorov 壓縮器的表現(xiàn)與條件壓縮器一樣好。當(dāng)然實(shí)際細(xì)節(jié)還有更多微妙之處,但這其實(shí)就是表示我們可以使用常規(guī) Kolmogorov 壓縮器來求解無監(jiān)督學(xué)習(xí) —— 就是將你的所有數(shù)據(jù)連接起來,然后執(zhí)行壓縮,這樣就能在你關(guān)心的監(jiān)督任務(wù)上得到很好的結(jié)果。
對此的證明要更復(fù)雜一些,這里就不再繼續(xù)深入了。
重點(diǎn)的結(jié)論是常規(guī) Kolmogorov 壓縮(無需以某個(gè)數(shù)據(jù)集為條件)是「以最好的可能方式使用」無標(biāo)注數(shù)據(jù)。這就是無監(jiān)督學(xué)習(xí)的解。
聯(lián)合壓縮就是最大似然
Sutskever 在演講中談到的最后一點(diǎn)是:這種聯(lián)合壓縮就是最大似然,只要沒有過擬合。
如果你有一個(gè)數(shù)據(jù)集,那么給定參數(shù)的似然之和就是壓縮該數(shù)據(jù)集的成本。你還需要支付壓縮參數(shù)的成本。而如果你想壓縮兩個(gè)數(shù)據(jù)集,也沒有問題,只需向你的數(shù)據(jù)集添加數(shù)據(jù)點(diǎn)即可,也就是向上面的求和運(yùn)算 sum 添加更多項(xiàng)。
所以通過連接數(shù)據(jù)來進(jìn)行聯(lián)合壓縮在機(jī)器學(xué)習(xí)語境中是非常自然的做法。相比而言,通過條件 Kolmogorov 復(fù)雜度就麻煩多了。
我們甚至可以將其用于解釋神經(jīng)網(wǎng)絡(luò)的工作方式。我們可以將用于大型神經(jīng)網(wǎng)絡(luò)的 SGD 用作我們的大型程序搜索器。神經(jīng)網(wǎng)絡(luò)越大,就能更好地近似常規(guī) Kolmogorov 壓縮器。Sutskever 評價(jià)說:「也許這就是我們喜歡大型神經(jīng)網(wǎng)絡(luò)的原因,因?yàn)槲覀兛梢砸源私撇豢蓪?shí)現(xiàn)的無遺憾常規(guī) Kolmogorov 壓縮器思想。隨著我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)越來越大,遺憾會越來越低。」
此理論也適用于 GPT 模型嗎?
Sutskever 對此的答案是肯定的,不過解釋 GPT 模型的行為時(shí),無需引述有關(guān)壓縮或監(jiān)督學(xué)習(xí)的說明,你可以說 GPT 的「理論」可以通過對文本的條件分布進(jìn)行推理而得到。
那么,我們能找到其它的直接驗(yàn)證方法來驗(yàn)證這一理論嗎?我們能用視覺等其它領(lǐng)域來解釋嗎?如果我們在像素?cái)?shù)據(jù)上這樣操作,我們能得到優(yōu)良的無監(jiān)督學(xué)習(xí)嗎?
Sutskever 表示他們已經(jīng)在 2020 年做過這樣的研究,即 iGPT。當(dāng)然,這主要是一個(gè)驗(yàn)證概念的研究,離實(shí)踐應(yīng)用還有很大距離,詳見論文《Generative Pretraining from Pixels》。
該論文表明:如果你能做出很棒的下一步預(yù)測器,那么就能收獲很棒的無監(jiān)督學(xué)習(xí)效果。這篇論文在圖像領(lǐng)域證明了該論斷。
簡單來說,先將圖片轉(zhuǎn)換成像素序列,每個(gè)像素都有一個(gè)離散的密度值。要做的就是使用同樣的 Transformer 來預(yù)測下一個(gè)像素。這不同于 BERT,就是預(yù)測下一個(gè) token,因?yàn)檫@是最大化壓縮的似然。
下面來看看結(jié)果:
如圖所示,這是不同大小的 iGPT 模型在 CIFAR-10 上的線性探查準(zhǔn)確度,也就是在無監(jiān)督學(xué)習(xí)的像素預(yù)測任務(wù)上的下一步預(yù)測準(zhǔn)確度??梢钥闯?,預(yù)測下一個(gè)像素就和預(yù)測下一個(gè)詞一樣有效。當(dāng)模型規(guī)模更大時(shí),無監(jiān)督學(xué)習(xí)的效果也更好。
他們進(jìn)行了實(shí)驗(yàn)研究,結(jié)果發(fā)現(xiàn)在 ImageNet 上,經(jīng)過多方面擴(kuò)展的 iGPT 的表現(xiàn)可以接近當(dāng)今最佳的監(jiān)督學(xué)習(xí),但依然還有些差距。
不過 Sutskever 認(rèn)為這就是個(gè)計(jì)算問題,因?yàn)?SimCLR 等監(jiān)督學(xué)習(xí)方式使用的是高分辨率的大圖,他們?yōu)榫扌?Transformer(68 億參數(shù))提供的是 64×64 的小圖。這就像是基于一個(gè)大型數(shù)據(jù)集以無監(jiān)督的方式預(yù)測下一個(gè)像素,然后在 ImageNet 上擬合線性探針,得到很好的結(jié)果。
而在 CIFAR-10 上,有 13.6 億參數(shù)的 iGPT-L 取得了準(zhǔn)確度 99% 的好成績,如下圖所示。
線性表征
演講最后,Sutskever 表示他想談?wù)劸€性表征。
他說:「我喜歡壓縮理論,因?yàn)樵诖酥斑€沒有以嚴(yán)格方式思考無監(jiān)督學(xué)習(xí)的方法?!苟F(xiàn)在我們能在一定程度上做到這一點(diǎn)了。但壓縮理論不能直接解釋為什么表征是線性可分的,也無法解釋應(yīng)該有線性探針。線性表征是無處不在的,它們形成的原因必定很深刻。Sutskever 相信我們能在未來清晰地闡釋它。
他覺得另一個(gè)有趣的地方是自回歸模型在線性表征方面的表現(xiàn)優(yōu)于 BERT。但目前人們還不清楚其中的緣由。
不過 Sutskever 倒是給出了自己的推測:在根據(jù)之前所有的像素預(yù)測下一個(gè)像素時(shí),模型需要觀察數(shù)據(jù)的長程結(jié)構(gòu)。BERT 在處理向量時(shí)會丟棄一些像素 token,通過兼顧地考慮一點(diǎn)過去和一點(diǎn)未來,模型實(shí)際上能得到相當(dāng)好的預(yù)測結(jié)果。這樣一來就去除了所有困難任務(wù),任務(wù)的難度就下降了很多。預(yù)測下一個(gè)像素中最困難的預(yù)測任務(wù)比 BERT 預(yù)測情況中最困難的預(yù)測任務(wù)難多了。