「GPT-4只是在壓縮數(shù)據(jù)」,馬毅團(tuán)隊(duì)造出白盒Transformer,可解釋的大模型要來(lái)了嗎?
AGI 到底離我們還有多遠(yuǎn)?
在 ChatGPT 引發(fā)的新一輪 AI 爆發(fā)之后,一部分研究者指出,大語(yǔ)言模型具備通過(guò)觀察進(jìn)行因果歸納的能力,但缺乏自己主動(dòng)推理新的因果場(chǎng)景的能力。相比于持樂(lè)觀預(yù)測(cè)的觀點(diǎn),這意味著 AGI 仍然是一個(gè)復(fù)雜而遙遠(yuǎn)的目標(biāo)。
一直以來(lái),AI 社區(qū)內(nèi)有一種觀點(diǎn):神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程可能就只是對(duì)數(shù)據(jù)集的壓縮。
近日,伯克利和香港大學(xué)的馬毅教授領(lǐng)導(dǎo)的一個(gè)研究團(tuán)隊(duì)給出了自己的最新研究結(jié)果:包括 GPT-4 在內(nèi)的當(dāng)前 AI 系統(tǒng)所做的正是壓縮。
通過(guò)新提出的深度網(wǎng)絡(luò)架構(gòu) CRATE,他們通過(guò)數(shù)學(xué)方式驗(yàn)證了這一點(diǎn)。
而更值得注意的是,CRATE 是一種白盒 Transformer,其不僅能在幾乎所有任務(wù)上與黑盒 Transformer 相媲美,而且還具備非常出色的可解釋性。
基于此,馬毅教授還在 Twitter 上分享了一個(gè)有趣的見(jiàn)解:既然當(dāng)前的 AI 只是在壓縮數(shù)據(jù),那么就只能學(xué)習(xí)到數(shù)據(jù)中的相關(guān)性 / 分布,所以就并不真正具備因果或邏輯推理或抽象思考能力。因此,當(dāng)今的 AI 還算不是 AGI,即便近年來(lái)在處理和建模大量高維和多模態(tài)數(shù)據(jù)方面,深度學(xué)習(xí)在實(shí)驗(yàn)中取得了巨大的成功。
但很大程度上,這種成功可以歸功于深度網(wǎng)絡(luò)能有效學(xué)習(xí)數(shù)據(jù)分布中可壓縮的低維結(jié)構(gòu),并將該分布轉(zhuǎn)換為簡(jiǎn)約的(即緊湊且結(jié)構(gòu)化的)表征。這樣的表征可用于幫助許多下游任務(wù),比如視覺(jué)、分類(lèi)、識(shí)別和分割、生成。
表征學(xué)習(xí)是通過(guò)壓縮式編碼和解碼實(shí)現(xiàn)的
為了更形式化地表述這些實(shí)踐背后的共同問(wèn)題,我們可以將給定數(shù)據(jù)集的樣本看作是高維空間 ?^D 中的隨機(jī)向量 x。
通常來(lái)說(shuō),x 的分布具有比所在空間低得多的內(nèi)在維度。一般來(lái)說(shuō),學(xué)習(xí)某個(gè)表征通常是指學(xué)習(xí)一個(gè)連續(xù)的映射關(guān)系,如 f (?),其可將 x 變換成另一個(gè)空間 ?^d(通常是低維空間)中的所謂特征向量 z。人們希望通過(guò)這樣一種映射:
能以一種緊湊且結(jié)構(gòu)化的方式找到 x 的低維內(nèi)在結(jié)構(gòu)并使用 z 來(lái)表示它,然后借此幫助分類(lèi)或生成等后續(xù)任務(wù)。特征 z 可被視為原始數(shù)據(jù) x 的(學(xué)習(xí)到的)緊湊編碼,因此映射 f 也稱(chēng)為編碼器。
這樣一來(lái),表征學(xué)習(xí)的基礎(chǔ)問(wèn)題(也即這份研究關(guān)注的核心問(wèn)題)便成了:
為了衡量表征的優(yōu)劣,有什么有數(shù)學(xué)原理保證且有效的衡量方法?
從概念上講,表征 z 的質(zhì)量取決于它為后續(xù)任務(wù)找到 x 的最相關(guān)和充分信息的程度以及它表示該信息的效率。
長(zhǎng)期以來(lái),人們都相信:所學(xué)習(xí)到的特征的「充分性」和「優(yōu)良度」應(yīng)當(dāng)根據(jù)具體任務(wù)而定義。舉個(gè)例子,在分類(lèi)問(wèn)題中,z 只需足以用于預(yù)測(cè)類(lèi)別標(biāo)簽 y 即可。
為了理解深度學(xué)習(xí)或深度網(wǎng)絡(luò)在這種類(lèi)型的表征學(xué)習(xí)中的作用,Tishby and Zaslavsky (2015) 在論文《Deep learning and the information bottleneck principle》中提出了信息瓶頸框架,其提出:衡量特征優(yōu)良度的一種方法是最大化 z 和 y 之間的互信息,同時(shí)最小化 z 和 x 之間的互信息。
然而,近年來(lái)普遍通行的做法是首先預(yù)訓(xùn)練一個(gè)大型深度神經(jīng)網(wǎng)絡(luò)(有些時(shí)候也被稱(chēng)為基礎(chǔ)模型)來(lái)學(xué)習(xí)與任務(wù)無(wú)關(guān)的表征。之后再針對(duì)多個(gè)具體任務(wù)對(duì)學(xué)習(xí)到的表征進(jìn)行微調(diào)。研究表明這種方法能有效且高效地處理許多不同數(shù)據(jù)模態(tài)的實(shí)踐任務(wù)。
請(qǐng)注意,這里的表征學(xué)習(xí)與針對(duì)特定任務(wù)的表征學(xué)習(xí)非常不同。對(duì)于針對(duì)特定任務(wù)的表征學(xué)習(xí),z 只需能預(yù)測(cè)出特定的 y 就足夠了。在與任務(wù)無(wú)關(guān)的情況下,所學(xué)到的表征 z 需要編碼幾乎所有與數(shù)據(jù) x 的分布有關(guān)的關(guān)鍵信息。也就是說(shuō),所學(xué)習(xí)到的表征 z 不僅是 x 的內(nèi)在結(jié)構(gòu)的更緊湊和結(jié)構(gòu)化表征,而且還能以一定的可信度恢復(fù)出 x。
因此,在與任務(wù)無(wú)關(guān)的情況下,人們自然會(huì)問(wèn):對(duì)于學(xué)習(xí)到的(特征)表征,一個(gè)衡量其優(yōu)良度的有原理保證的度量應(yīng)該是什么?
研究者認(rèn)為,一種有效方法(可能是唯一方法)是:為了驗(yàn)證表征 z 是否已經(jīng)編碼了有關(guān) x 的足夠信息,可以看通過(guò)如下(逆)映射(也被稱(chēng)為解碼器或生成器)能從 z 多好地恢復(fù)出 x:
由于編碼器 f 通常是有損壓縮,因此我們不應(yīng)期望其逆映射能精確地恢復(fù)出 x,而是會(huì)恢復(fù)出一個(gè)近似
我們通常會(huì)尋找最優(yōu)的編碼和解碼映射,使得解碼得到的 與 x 最接近 —— 無(wú)論是樣本方面(例如,通過(guò)最小化預(yù)期均方誤差)還是在寬松的分布意義上。
研究者將上述這個(gè)過(guò)程稱(chēng)為壓縮式編碼和解碼或壓縮式自動(dòng)編碼。這一思想與自動(dòng)編碼器的原始目標(biāo)高度兼容,而自動(dòng)編碼器則可被看作是經(jīng)典的主成分分析泛化用于 x 有線性的低維結(jié)構(gòu)的情況。
過(guò)去十一年來(lái),大量實(shí)驗(yàn)已經(jīng)清楚地表明:深度網(wǎng)絡(luò)能夠非常有效地建模非線性編碼和解碼映射。
深度學(xué)習(xí)的幾乎所有應(yīng)用都依賴(lài)于實(shí)現(xiàn)這樣的編碼或解碼方案,其方式是部分或完全地學(xué)習(xí) f 或 g,當(dāng)然它們可以分開(kāi)或一起學(xué)習(xí)。
盡管從概念上講,解碼器 g 應(yīng)該是編碼器 f 的「逆」映射,但在實(shí)踐中,我們一直不清楚編碼器和解碼器的架構(gòu)有何關(guān)聯(lián)。在許多案例中,解碼器的架構(gòu)設(shè)計(jì)與編碼器的關(guān)聯(lián)不大,通常是通過(guò)實(shí)驗(yàn)測(cè)試和消融實(shí)驗(yàn)選取的。
可以想見(jiàn),一個(gè)優(yōu)秀的表征學(xué)習(xí)理論框架應(yīng)能清楚地揭示編碼器和解碼器架構(gòu)之間的關(guān)系。而這正是這項(xiàng)研究希望達(dá)成的目標(biāo)。
研究者總結(jié)了之前提出的相關(guān)方法,并將其分成了以下幾種情況:
- 通過(guò)壓縮打開(kāi)現(xiàn)代深度網(wǎng)絡(luò)的黑盒。
- Transformer 模型和壓縮。
- 去噪擴(kuò)散模型和壓縮。
- 促進(jìn)低維度的度量:稀疏性和率下降。
- 展開(kāi)優(yōu)化:一個(gè)用于網(wǎng)絡(luò)解釋和設(shè)計(jì)的統(tǒng)一范式。
詳情參看原論文。
這項(xiàng)研究的目標(biāo)和貢獻(xiàn)
他們搭建了理論和實(shí)踐之間的橋梁。為此,這項(xiàng)研究提出了一個(gè)更加完整和統(tǒng)一的框架。
一方面,這個(gè)新框架能對(duì)基于深度網(wǎng)絡(luò)的許多看似不同的方法提供統(tǒng)一的理解,包括壓縮式編碼 / 解碼(或自動(dòng)編碼)、率下降和去噪擴(kuò)散。
另一方面,該框架可以指導(dǎo)研究者推導(dǎo)或設(shè)計(jì)深度網(wǎng)絡(luò)架構(gòu),并且這些架構(gòu)不僅在數(shù)學(xué)上是完全可解釋的,而且在大規(guī)?,F(xiàn)實(shí)世界圖像或文本數(shù)據(jù)集上的幾乎所有學(xué)習(xí)任務(wù)上都能獲得頗具競(jìng)爭(zhēng)力的性能。
基于以上觀察,他們提出了一個(gè)白盒深度網(wǎng)絡(luò)理論。更具體而言,他們?yōu)閷W(xué)習(xí)緊湊和結(jié)構(gòu)化的表征提出了一個(gè)統(tǒng)一的目標(biāo),也就是一種有原理保證的優(yōu)良度度量。對(duì)于學(xué)習(xí)到的表征,該目標(biāo)旨在既優(yōu)化其在編碼率下降方面的內(nèi)在復(fù)雜性,也優(yōu)化其在稀疏性方面的外在復(fù)雜性。他們將該目標(biāo)稱(chēng)為稀疏率下降(sparse rate reduction)。圖 3 給出了這一目標(biāo)背后的直觀思想。
為了優(yōu)化這個(gè)目標(biāo),他們提出可以學(xué)習(xí)一個(gè)增量映射序列,其能模擬展開(kāi)目標(biāo)函數(shù)的某些類(lèi)似梯度下降的迭代優(yōu)化方案。這自然地會(huì)得到一個(gè)類(lèi)似 Transformer 的深度網(wǎng)絡(luò)架構(gòu),并且它完全是一個(gè)「白盒」—— 其優(yōu)化目標(biāo)、網(wǎng)絡(luò)算子和學(xué)習(xí)到的表征在數(shù)學(xué)上是完全可解釋的。
他們將這個(gè)白盒深度架構(gòu)命名為 CRATE 或 CRATE-Transformer,這是 Coding-RATE transformer 的縮寫(xiě)。他們還通過(guò)數(shù)學(xué)方式證明這些增量映射在分布的意義上是可逆的,并且它們的逆映射本質(zhì)上由同一類(lèi)數(shù)學(xué)算子構(gòu)成。
因此,可以將幾乎完全一樣的 CRATE 架構(gòu)用于編碼器、解碼器或自動(dòng)編碼器。如圖 4 給出了一個(gè)自動(dòng)編碼過(guò)程,其中每個(gè)編碼層 f^?? 和解碼層 g^{L-??} 是(部分)可逆的。
下圖給出了 CRATE 白盒深度網(wǎng)絡(luò)設(shè)計(jì)的「主循環(huán)」。
在將輸入數(shù)據(jù) X 預(yù)處理為一系列 token Z^1 后,CRATE 會(huì)構(gòu)建一個(gè)深度網(wǎng)絡(luò),其可將數(shù)據(jù)轉(zhuǎn)換為低維子空間的規(guī)范配置,其做法是針對(duì)分布的局部模型進(jìn)行連續(xù)壓縮生成 Z^{?+1/2},以及針對(duì)一個(gè)全局詞典執(zhí)行稀疏化,得到 Z^{?+1}。通過(guò)重復(fù)堆疊這些模塊并使用反向傳播訓(xùn)練模型參數(shù),可以得到強(qiáng)大且可解釋的數(shù)據(jù)表征。
下面則給出了 CRATE 編碼器架構(gòu)的一層。其完整架構(gòu)就是將這些層串連起來(lái),再加上一些初始 token 化器、預(yù)處理頭和最后的針對(duì)具體任務(wù)的頭。
下圖對(duì)比了編碼器層和解碼器層,可以看到兩者是部分可逆的。
更多理論和數(shù)學(xué)描述請(qǐng)參閱原論文。
實(shí)驗(yàn)評(píng)估
為了證明這個(gè)框架確實(shí)能將理論和實(shí)踐串連起來(lái),他們?cè)趫D像和文本數(shù)據(jù)上執(zhí)行了廣泛的實(shí)驗(yàn),在傳統(tǒng) Transformer 擅長(zhǎng)的多種學(xué)習(xí)任務(wù)和設(shè)置上評(píng)估了 CRATE 模型的實(shí)際性能。
下表給出了不同大小的 CRATE 在不同數(shù)據(jù)集上的 Top-1 準(zhǔn)確度。
表 2 給出了 CRATE-Base 模型與 MAE-Base 模型在訓(xùn)練和驗(yàn)證集上的平均重建損失。
令人驚訝的是,盡管其概念和結(jié)構(gòu)很簡(jiǎn)單,但 CRATE 在所有任務(wù)和設(shè)置上都足以與黑盒版的對(duì)應(yīng)方法媲美,這些任務(wù)包括通過(guò)監(jiān)督學(xué)習(xí)進(jìn)行圖像分類(lèi)、圖像和語(yǔ)言的無(wú)監(jiān)督掩碼補(bǔ)全、圖像數(shù)據(jù)的自監(jiān)督特征學(xué)習(xí)、通過(guò)下一詞預(yù)測(cè)的語(yǔ)言建模。
此外,CRATE 模型在實(shí)踐上還有其它優(yōu)勢(shì),每一層和網(wǎng)絡(luò)算子都有統(tǒng)計(jì)和幾何意義、學(xué)習(xí)到的模型的可解釋性顯著優(yōu)于黑盒模型、其特征具有語(yǔ)義含義(即它們可輕松用于將對(duì)象從背景中分割出來(lái)以及將其分成共享部件)。
下圖便給出了在每層 ? 的逐層 token Z^? 表征的可視化。
下圖展示了來(lái)自監(jiān)督式 CRATE 的自注意力圖。
注意由于資源限制,他們?cè)趯?shí)驗(yàn)中沒(méi)有刻意追求當(dāng)前最佳,因?yàn)槟切枰罅抗こ涕_(kāi)發(fā)或微調(diào)。
盡管如此,他們表示這些實(shí)驗(yàn)已經(jīng)令人信服地驗(yàn)證了新提出的白盒深度網(wǎng)絡(luò) CRATE 模型是普遍有效的,并為進(jìn)一步的工程開(kāi)發(fā)和改進(jìn)奠定了堅(jiān)實(shí)的基礎(chǔ)。