自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="j1l5p"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

直接壓縮一切！OpenAI首席科學(xué)家Ilya Sutskever這么看無監(jiān)督學(xué)習(xí)

作者：機(jī)器之心 2023-08-21 12:05:09

人工智能新聞

Sutskever 先從監(jiān)督學(xué)習(xí)談起。他表示，監(jiān)督學(xué)習(xí)方面已經(jīng)有了重要的形式化工作，這是多位研究者在多年前得到的成果；這些成果通常被稱為統(tǒng)計(jì)學(xué)習(xí)理論。

近日，OpenAI 首席科學(xué)家 Ilya Sutskever 在專注于計(jì)算理論研究的 Simons Institute 作了一次講座，一句話總結(jié)就是我們可以通過壓縮的視角來看待無監(jiān)督學(xué)習(xí)。此外他還分享了不少其它有趣的見解。機(jī)器之心整理了該演講的大體內(nèi)容，希望借此幫助讀者更深入地理解無監(jiān)督學(xué)習(xí)。

Sutskever 首先談到了自己的研究方向的變化，他說：「不久前，我將全部的研究重心都轉(zhuǎn)移到了 AI 對齊研究上。」這說的是 OpenAI 前段時(shí)間成立的「Superalignment（超級對齊）」團(tuán)隊(duì)，由他與 Jan Leike 共同領(lǐng)導(dǎo)。Sutskever 表示他們已經(jīng)在 AI 對齊方面取得了一些研究成果，但這并非這次演講關(guān)注的話題。對此感興趣的讀者可參閱《用 AI 對齊 AI？超級對齊團(tuán)隊(duì)領(lǐng)導(dǎo)人詳解 OpenAI 對齊超級智能四年計(jì)劃》。

這次演講的主題為「An observation on Generalization（對泛化的一種觀察）」，而 Ilya Sutskever 具體談?wù)摰闹攸c(diǎn)是一種解釋無監(jiān)督學(xué)習(xí)的理論。

首先，Ilya Sutskever 提出了一連串有關(guān)「學(xué)習(xí)」的廣義問題：學(xué)習(xí)究竟是什么？為什么學(xué)習(xí)有用？為什么學(xué)習(xí)應(yīng)該有用？計(jì)算機(jī)為什么應(yīng)該具備學(xué)習(xí)能力？為什么神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)？為什么機(jī)器學(xué)習(xí)模型可以學(xué)習(xí)到數(shù)據(jù)的規(guī)律？我們能否用數(shù)學(xué)形式來描述學(xué)習(xí)？

監(jiān)督學(xué)習(xí)

Sutskever 先從監(jiān)督學(xué)習(xí)談起。他表示，監(jiān)督學(xué)習(xí)方面已經(jīng)有了重要的形式化工作，這是多位研究者在多年前得到的成果；這些成果通常被稱為統(tǒng)計(jì)學(xué)習(xí)理論。

監(jiān)督學(xué)習(xí)的優(yōu)勢在于能提供一個(gè)學(xué)習(xí)必定成功的精確數(shù)學(xué)條件。也就是說，如果你有一些來自某數(shù)據(jù)分布的數(shù)據(jù)，然后你能成功實(shí)現(xiàn)較低的訓(xùn)練損失并且你的訓(xùn)練數(shù)據(jù)足夠多（多于數(shù)據(jù)分布的自由度），那么你的測試誤差必定很低。

從數(shù)學(xué)上講，如果能在一類函數(shù)中找到能實(shí)現(xiàn)較低訓(xùn)練損失的函數(shù)，那么學(xué)習(xí)就必定成功。也因此，監(jiān)督學(xué)習(xí)非常簡單。

研究者在相關(guān)研究中已經(jīng)發(fā)現(xiàn)了一些定理，如下便是一例。Sutskever 表示解釋這個(gè)定理大概需要五分鐘，但很顯然他的演講時(shí)間有限。

總而言之，這個(gè)定理很「優(yōu)雅」，只用三行數(shù)學(xué)推導(dǎo)便能證明監(jiān)督學(xué)習(xí)過程。

所以相對而言，監(jiān)督學(xué)習(xí)已經(jīng)得到很好的理解。我們知道其必定會成功的原因 —— 只要我們能收集到大規(guī)模的監(jiān)督學(xué)習(xí)數(shù)據(jù)集，那么就完全可以相信模型必定越來越好。當(dāng)然另一點(diǎn)也很重要，也就是保證測試分布和訓(xùn)練分布一致；只有這樣，監(jiān)督學(xué)習(xí)理論才是有效的。

所以監(jiān)督學(xué)習(xí)的概念是很簡單的。我們也已經(jīng)有了監(jiān)督學(xué)習(xí)為什么有效的答案 —— 我們知道語音識別和圖像分類為什么可以實(shí)現(xiàn)，因?yàn)樗鼈兌蓟谟行矣袛?shù)學(xué)保證的監(jiān)督學(xué)習(xí)。

這里 Ilya Sutskever 順帶提了提 VC 維度。他提到很多統(tǒng)計(jì)學(xué)習(xí)理論的研究者都認(rèn)為 VC 維度是一大關(guān)鍵組件，但 VC 維度被發(fā)明出來的目的是為了讓模型有能力處理有無限精度的參數(shù)。

舉個(gè)例子，如果你的線性分類器的每個(gè)參數(shù)都有無限精度，而現(xiàn)實(shí)中的浮點(diǎn)數(shù)的精度都是有限的，而且精度會收縮，那么你可以通過 VC 維度實(shí)現(xiàn)一些函數(shù)，將這個(gè)線性分類器歸約成前面公式描述的監(jiān)督學(xué)習(xí)形式。

無監(jiān)督學(xué)習(xí)是什么？

接下來看無監(jiān)督學(xué)習(xí)。首先什么是無監(jiān)督學(xué)習(xí)？Ilya Sutskever 表示他目前還沒看到令人滿意的對無監(jiān)督學(xué)習(xí)的闡釋，我們也不知道如何從數(shù)學(xué)上推理它 —— 最多只能在直覺上做點(diǎn)推斷。

無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域長久以來的夢想。Sutskever 認(rèn)為這個(gè)目標(biāo)已經(jīng)在實(shí)驗(yàn)研究中達(dá)成，即模型在不被告知數(shù)據(jù)內(nèi)容的前提下觀察數(shù)據(jù)并發(fā)現(xiàn)其中存在的真實(shí)有用的隱藏結(jié)構(gòu)。

這是怎么發(fā)生的？我們能確保這一定會發(fā)生嗎？Sutskever 表示我們不能，畢竟我們在無監(jiān)督學(xué)習(xí)方面沒有在監(jiān)督學(xué)習(xí)方面那樣的理論保證。

人們早在上世紀(jì) 80 年代就在探究無監(jiān)督學(xué)習(xí)了，當(dāng)時(shí)使用的術(shù)語也是類似。在實(shí)驗(yàn)中，人們觀察到，當(dāng)數(shù)據(jù)量較小時(shí)，不會出現(xiàn)無監(jiān)督學(xué)習(xí)現(xiàn)象，但是一些現(xiàn)在流行的開發(fā)思路已經(jīng)出現(xiàn)了，比如 BERT、擴(kuò)散模型、老式的語言模型等。當(dāng)時(shí)的無監(jiān)督學(xué)習(xí)也能生成一些很酷的樣本，但當(dāng)然是比不上現(xiàn)在的技術(shù)。

但因?yàn)槲覀儾恢罒o監(jiān)督學(xué)習(xí)的工作方式，所以它一直都讓人困惑。

比如當(dāng)你針對某個(gè)目標(biāo)（比如圖像重建或預(yù)測下一個(gè)詞）進(jìn)行優(yōu)化時(shí)，你可能也在意另一個(gè)目標(biāo)（比如圖像分類或文檔分類），而模型可能在這個(gè)未經(jīng)優(yōu)化的目標(biāo)上也能取得不錯(cuò)的表現(xiàn)。但為什么會這樣呢？不知道，實(shí)驗(yàn)結(jié)果就是如此。Sutskever 說這就像是魔法。

難道我們就要放棄理論，在實(shí)證主義上一路走下去嗎？

我們知道無監(jiān)督學(xué)習(xí)是學(xué)習(xí)輸入分布中的結(jié)構(gòu)，然后從中獲得有助于實(shí)現(xiàn)目標(biāo)的東西。但如果輸入分布是均勻分布（uniform distribution）呢？這時(shí)候各種無監(jiān)督學(xué)習(xí)算法都會失效。我們應(yīng)該怎么看待這種現(xiàn)象呢？Sutskever 表示我們需要做些假設(shè)。

一種無監(jiān)督學(xué)習(xí)方法：分布匹配

接下來，Sutskever 展示了一種思考無監(jiān)督學(xué)習(xí)的潛在方式。他說這種無監(jiān)督學(xué)習(xí)方式一直沒有成為主流，但卻非常有趣。它有與監(jiān)督學(xué)習(xí)類似的特征，也就是必然有效。為什么會這樣？這涉及到一種名為分布匹配（distribution matching）的無監(jiān)督學(xué)習(xí)流程。

接下來簡單說明一下。假設(shè)有兩個(gè)數(shù)據(jù)源 X 和 Y，它們之間并無對應(yīng)關(guān)系；模型的目標(biāo)是找到函數(shù) F，使得 F (X) 的分布與 Y 的分布近似 —— 這是對 F 的約束（constraint）。

對于機(jī)器翻譯和語音識別等許多應(yīng)用場景，這個(gè)約束可能是有意義的。舉個(gè)例子，如果有一個(gè)英語句子的分布，使用函數(shù) F 后，可以得到接近法語句子分布的分布，那么就可以說我們得到了 F 的真實(shí)約束。

如果 X 和 Y 的維度都足夠高，那么 F 可能就有大量約束。事實(shí)上，你甚至有可能從那些約束中恢復(fù)完整的 F。這是無監(jiān)督學(xué)習(xí)的監(jiān)督學(xué)習(xí)（supervised learning of unsupervised learning）的一個(gè)示例，它必定有效，就像監(jiān)督學(xué)習(xí)必定有效一樣。

此外，替代密碼（subsitution cipher）也符合這一框架。

Sutskever 表示自己在 2015 年時(shí)獨(dú)立發(fā)現(xiàn)了這一現(xiàn)象。這讓他不禁思考：也許我們能用某種有意義的數(shù)學(xué)形式來描述無監(jiān)督學(xué)習(xí)。

當(dāng)然，上面描述的機(jī)器翻譯場景是簡化過的人工場景，并不符合真實(shí)的應(yīng)用情況，對應(yīng)的無監(jiān)督學(xué)習(xí)場景自然也是如此。

接下來，Sutskever 將闡述他提出的方法 —— 其能從數(shù)學(xué)上為無監(jiān)督學(xué)習(xí)提供說明以及確保無監(jiān)督學(xué)習(xí)的結(jié)果優(yōu)良。

眾所周知，壓縮就是一種預(yù)測，每個(gè)壓縮器都可以轉(zhuǎn)換為一個(gè)預(yù)測器，反之亦然。全體壓縮器與全體預(yù)測器之間存在一一對應(yīng)關(guān)系。

Sutskever 指出，為了能更清晰地說明對無監(jiān)督學(xué)習(xí)的思考，使用壓縮方面的論述方式更具優(yōu)勢。

基于此，他給出了一個(gè)思想實(shí)驗(yàn)。

假設(shè)你有兩個(gè)數(shù)據(jù)集 X 和 Y，它們是你的硬盤上的兩個(gè)文件；然后你有一個(gè)很棒的壓縮算法 C。再假設(shè)你對 X 和 Y 進(jìn)行聯(lián)合壓縮，也就是先將它們連接起來，然后將其饋送給壓縮器。

現(xiàn)在的重要問題是：一個(gè)足夠好的壓縮器會做什么？

Sutskever 給出了一個(gè)非常直覺式的答案：壓縮器會使用 X 中存在的模式來幫助壓縮 Y；反之亦然。

他表示，預(yù)測任務(wù)場景其實(shí)也存在類似的現(xiàn)象，但在壓縮語境中說起來似乎就更直觀一點(diǎn)。

如果你的壓縮器足夠好，那么對連接后文件的壓縮結(jié)果應(yīng)該不會差于分開壓縮的結(jié)果。

因此，通過連接所獲得的進(jìn)一步壓縮效果是你的壓縮器注意到的某種共有的結(jié)構(gòu)。壓縮器越好，其能提取出的共有結(jié)構(gòu)就越多。

兩種壓縮結(jié)果之間的差就是共有結(jié)構(gòu)，即算法互信息（algorithmic mutual information）。

對應(yīng)地，可以把 Y 視為監(jiān)督任務(wù)的數(shù)據(jù)，X 視為無監(jiān)督任務(wù)的數(shù)據(jù)，而你對這些信息有某種形式的數(shù)學(xué)推理 —— 可以使用 X 中的模式來幫助 Y 任務(wù)。

也要注意其如何實(shí)現(xiàn)了對分布匹配的泛化。如果是在分布匹配情況下，假如 X 是語言 1，Y 是語言 2，并且存在某個(gè)簡單函數(shù) F 可從一個(gè)分布轉(zhuǎn)換到另一個(gè)分布；那么優(yōu)良的壓縮器也能注意到這一點(diǎn)并將其利用起來，甚至可能在內(nèi)部恢復(fù)出該函數(shù)。

這樣一來，閉環(huán)就形成了。那么我們?nèi)绾斡脭?shù)學(xué)形式描述無監(jiān)督學(xué)習(xí)呢？

無監(jiān)督學(xué)習(xí)的數(shù)學(xué)形式化

注意這一部分的描述會交替使用壓縮場景和預(yù)測場景的描述。

首先假設(shè)我們有一個(gè)機(jī)器學(xué)習(xí)算法 A，其作用是壓縮 Y。算法 A 能夠訪問 X。令 X 為 1 號文件，Y 為 2 號文件。我們希望我們的機(jī)器學(xué)習(xí)算法 / 壓縮器能對 Y 進(jìn)行壓縮并且其能在合適的時(shí)候使用 X。目標(biāo)是盡可能地壓縮 Y。

那么我們要問自己：使用這個(gè)算法最大的遺憾（regret）是什么？

Sutskever 解釋說：「如果我很好地完成了工作并且我的遺憾很低，就意味著我已經(jīng)從這未標(biāo)注的數(shù)據(jù)中獲得了所有盡可能的幫助。這些未標(biāo)注數(shù)據(jù)已經(jīng)盡可能地幫助了我。我對此毫無遺憾?！挂簿褪钦f已經(jīng)沒有更好的預(yù)測值可供更好的壓縮算法使用了。「我已經(jīng)從我的未標(biāo)注數(shù)據(jù)中獲得了最大收益?！?/span>

Sutskever 認(rèn)為這是向思考無監(jiān)督學(xué)習(xí)所邁出的重要一步。你不知道你的無監(jiān)督數(shù)據(jù)集是否真的有用，但如果你在監(jiān)督學(xué)習(xí)算法上的遺憾很低，那么不管有沒有用，你都已經(jīng)得到了最佳結(jié)果，不可能會有更好的結(jié)果了。

現(xiàn)在進(jìn)入有些晦澀難懂的理論領(lǐng)域。

將 Kolmogorov 復(fù)雜度用作終極壓縮器能為我們提供超低遺憾的算法，但這其實(shí)并不是算法，因?yàn)樗豢捎?jì)算。

先簡單解釋一下 Kolmogorov 復(fù)雜度：就好比你給我一些數(shù)據(jù)，為了壓縮它，我給你提供一個(gè)可能存在的最短的程序。Kolmogorov 復(fù)雜度就等于這個(gè)最短程序的長度。

令 C 是一個(gè)可計(jì)算的壓縮器，那么對于所有 X，Kolmogorov 壓縮器的復(fù)雜度小于壓縮器 C 的任意輸出加上實(shí)現(xiàn)該壓縮器所需的代碼字符數(shù)。

我們可以使用模擬論證（simulation argument）來證明這一點(diǎn)。假設(shè)有一個(gè)非常棒的壓縮器 C，那么它可能是一個(gè)計(jì)算機(jī)程序，如果將這個(gè)計(jì)算機(jī)程序交給 K 來運(yùn)行，那么 K 所需的成本就是這個(gè)程序的長度。Kolmogorov 壓縮器可以模擬其它計(jì)算機(jī)程序和其它壓縮器，也因此它是不可計(jì)算的。它就像是一個(gè)能夠模擬所有計(jì)算機(jī)程序的自由程序，但它也是有可能存在的最好的壓縮器。

現(xiàn)在我們泛化 Kolmogorov 壓縮器，使其可以使用其它信息。我們知道 Kolmogorov 壓縮器是不可計(jì)算的，不可判定的，而像是搜索所有程序。這就像是使用神經(jīng)網(wǎng)絡(luò)通過 SGD（隨機(jī)梯度下降）調(diào)整參數(shù)來搜索程序。這個(gè)過程運(yùn)行在有一定資源（內(nèi)存、步驟數(shù)）的計(jì)算機(jī)上，這就像是非常微小的 Kolmogorov 壓縮器。這兩者存在相似之處。

神經(jīng)網(wǎng)絡(luò)可以模擬小程序，它們是小小的計(jì)算機(jī)，有回路 / 電路。我們可以使用 SGD 訓(xùn)練這些計(jì)算機(jī)，從數(shù)據(jù)中找到它的「電路」。

模擬論證在這里也適用。如果你想設(shè)計(jì)一個(gè)更好的神經(jīng)網(wǎng)絡(luò)架構(gòu)，你會發(fā)現(xiàn)這很困難，因?yàn)樵鎏砘蛐薷倪B接這些操作雖然可以被其它神經(jīng)網(wǎng)絡(luò)架構(gòu)模擬，但實(shí)際卻難以做到。因?yàn)檫@些是能帶來巨大提升的罕見情況。正如從 RNN 到 Transformer 轉(zhuǎn)變。RNN 有一個(gè)瓶頸：隱藏狀態(tài)。但如果我們能找到一種方法，讓 RNN 可以擁有非常大的隱藏狀態(tài)，那么它的性能表現(xiàn)可能會重新趕上 Transformer。

所以我們可以把條件 Kolmogorov 復(fù)雜度作為無監(jiān)督學(xué)習(xí)的解，如下所示：

其中 C 是一個(gè)可計(jì)算的壓縮器，K (Y|X) 是如果能使用 X，能輸出 Y 的最短程序的長度。

這是無監(jiān)督學(xué)習(xí)的超低遺憾的解，只不過它是不可計(jì)算的，但卻能提供一個(gè)有用的框架。

直接壓縮一切！

Sutskever 又進(jìn)一步提到「直接壓縮一切」也是可行的。

條件 Kolmogorov 復(fù)雜度 K (Y|X) 在機(jī)器學(xué)習(xí)語境中是不自然的，因?yàn)樗腔?X 來壓縮 Y，而至少就目前而言，以大型數(shù)據(jù)集為條件還是基本無法辦到的。我們可以擬合大型數(shù)據(jù)集，但很難以其為條件。

而上式是表示：如果你想要對你監(jiān)督的東西 Y 進(jìn)行預(yù)測，使用壓縮 X 和 Y 連接數(shù)據(jù)的常規(guī) Kolmogorov 壓縮器的表現(xiàn)與條件壓縮器一樣好。當(dāng)然實(shí)際細(xì)節(jié)還有更多微妙之處，但這其實(shí)就是表示我們可以使用常規(guī) Kolmogorov 壓縮器來求解無監(jiān)督學(xué)習(xí) —— 就是將你的所有數(shù)據(jù)連接起來，然后執(zhí)行壓縮，這樣就能在你關(guān)心的監(jiān)督任務(wù)上得到很好的結(jié)果。

對此的證明要更復(fù)雜一些，這里就不再繼續(xù)深入了。

重點(diǎn)的結(jié)論是常規(guī) Kolmogorov 壓縮（無需以某個(gè)數(shù)據(jù)集為條件）是「以最好的可能方式使用」無標(biāo)注數(shù)據(jù)。這就是無監(jiān)督學(xué)習(xí)的解。

聯(lián)合壓縮就是最大似然

Sutskever 在演講中談到的最后一點(diǎn)是：這種聯(lián)合壓縮就是最大似然，只要沒有過擬合。

如果你有一個(gè)數(shù)據(jù)集，那么給定參數(shù)的似然之和就是壓縮該數(shù)據(jù)集的成本。你還需要支付壓縮參數(shù)的成本。而如果你想壓縮兩個(gè)數(shù)據(jù)集，也沒有問題，只需向你的數(shù)據(jù)集添加數(shù)據(jù)點(diǎn)即可，也就是向上面的求和運(yùn)算 sum 添加更多項(xiàng)。

所以通過連接數(shù)據(jù)來進(jìn)行聯(lián)合壓縮在機(jī)器學(xué)習(xí)語境中是非常自然的做法。相比而言，通過條件 Kolmogorov 復(fù)雜度就麻煩多了。

我們甚至可以將其用于解釋神經(jīng)網(wǎng)絡(luò)的工作方式。我們可以將用于大型神經(jīng)網(wǎng)絡(luò)的 SGD 用作我們的大型程序搜索器。神經(jīng)網(wǎng)絡(luò)越大，就能更好地近似常規(guī) Kolmogorov 壓縮器。Sutskever 評價(jià)說：「也許這就是我們喜歡大型神經(jīng)網(wǎng)絡(luò)的原因，因?yàn)槲覀兛梢砸源私撇豢蓪?shí)現(xiàn)的無遺憾常規(guī) Kolmogorov 壓縮器思想。隨著我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò)越來越大，遺憾會越來越低。」

此理論也適用于 GPT 模型嗎？

Sutskever 對此的答案是肯定的，不過解釋 GPT 模型的行為時(shí)，無需引述有關(guān)壓縮或監(jiān)督學(xué)習(xí)的說明，你可以說 GPT 的「理論」可以通過對文本的條件分布進(jìn)行推理而得到。

那么，我們能找到其它的直接驗(yàn)證方法來驗(yàn)證這一理論嗎？我們能用視覺等其它領(lǐng)域來解釋嗎？如果我們在像素?cái)?shù)據(jù)上這樣操作，我們能得到優(yōu)良的無監(jiān)督學(xué)習(xí)嗎？

Sutskever 表示他們已經(jīng)在 2020 年做過這樣的研究，即 iGPT。當(dāng)然，這主要是一個(gè)驗(yàn)證概念的研究，離實(shí)踐應(yīng)用還有很大距離，詳見論文《Generative Pretraining from Pixels》。

該論文表明：如果你能做出很棒的下一步預(yù)測器，那么就能收獲很棒的無監(jiān)督學(xué)習(xí)效果。這篇論文在圖像領(lǐng)域證明了該論斷。

簡單來說，先將圖片轉(zhuǎn)換成像素序列，每個(gè)像素都有一個(gè)離散的密度值。要做的就是使用同樣的 Transformer 來預(yù)測下一個(gè)像素。這不同于 BERT，就是預(yù)測下一個(gè) token，因?yàn)檫@是最大化壓縮的似然。

下面來看看結(jié)果：

如圖所示，這是不同大小的 iGPT 模型在 CIFAR-10 上的線性探查準(zhǔn)確度，也就是在無監(jiān)督學(xué)習(xí)的像素預(yù)測任務(wù)上的下一步預(yù)測準(zhǔn)確度?？梢钥闯?，預(yù)測下一個(gè)像素就和預(yù)測下一個(gè)詞一樣有效。當(dāng)模型規(guī)模更大時(shí)，無監(jiān)督學(xué)習(xí)的效果也更好。

他們進(jìn)行了實(shí)驗(yàn)研究，結(jié)果發(fā)現(xiàn)在 ImageNet 上，經(jīng)過多方面擴(kuò)展的 iGPT 的表現(xiàn)可以接近當(dāng)今最佳的監(jiān)督學(xué)習(xí)，但依然還有些差距。

不過 Sutskever 認(rèn)為這就是個(gè)計(jì)算問題，因?yàn)?SimCLR 等監(jiān)督學(xué)習(xí)方式使用的是高分辨率的大圖，他們?yōu)榫扌?Transformer（68 億參數(shù)）提供的是 64×64 的小圖。這就像是基于一個(gè)大型數(shù)據(jù)集以無監(jiān)督的方式預(yù)測下一個(gè)像素，然后在 ImageNet 上擬合線性探針，得到很好的結(jié)果。

而在 CIFAR-10 上，有 13.6 億參數(shù)的 iGPT-L 取得了準(zhǔn)確度 99% 的好成績，如下圖所示。

線性表征

演講最后，Sutskever 表示他想談?wù)劸€性表征。

他說：「我喜歡壓縮理論，因?yàn)樵诖酥斑€沒有以嚴(yán)格方式思考無監(jiān)督學(xué)習(xí)的方法?！苟F(xiàn)在我們能在一定程度上做到這一點(diǎn)了。但壓縮理論不能直接解釋為什么表征是線性可分的，也無法解釋應(yīng)該有線性探針。線性表征是無處不在的，它們形成的原因必定很深刻。Sutskever 相信我們能在未來清晰地闡釋它。

他覺得另一個(gè)有趣的地方是自回歸模型在線性表征方面的表現(xiàn)優(yōu)于 BERT。但目前人們還不清楚其中的緣由。

不過 Sutskever 倒是給出了自己的推測：在根據(jù)之前所有的像素預(yù)測下一個(gè)像素時(shí)，模型需要觀察數(shù)據(jù)的長程結(jié)構(gòu)。BERT 在處理向量時(shí)會丟棄一些像素 token，通過兼顧地考慮一點(diǎn)過去和一點(diǎn)未來，模型實(shí)際上能得到相當(dāng)好的預(yù)測結(jié)果。這樣一來就去除了所有困難任務(wù)，任務(wù)的難度就下降了很多。預(yù)測下一個(gè)像素中最困難的預(yù)測任務(wù)比 BERT 預(yù)測情況中最困難的預(yù)測任務(wù)難多了。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營