「壓縮即智能」得到實(shí)驗(yàn)驗(yàn)證，無需預(yù)訓(xùn)練和大量數(shù)據(jù)就能解決ARC-AGI問題

作者：機(jī)器之心 2025-03-17 08:45:00

他們的研究目的是通過實(shí)驗(yàn)來解答一個(gè)簡單又基本的問題：無損信息壓縮本身能否產(chǎn)生智能行為？

「壓縮即智能」。這并不是一個(gè)新想法，著名 AI 研究科學(xué)家、OpenAI 與 SSI 聯(lián)合創(chuàng)始人 Ilya Sutskever 就曾表達(dá)過類似的觀點(diǎn)。甚至早在 1998 年，計(jì)算機(jī)科學(xué)家 Jose Hernandez-Orallo 就已經(jīng)在論文《A Formal Definition of Intelligence Based on an Intensional Variant of Algorithmic Complexity》中有過相關(guān)的理論論述。

近日，卡內(nèi)基梅隆大學(xué) Albert Gu 領(lǐng)導(dǎo)的一個(gè)團(tuán)隊(duì)進(jìn)一步證明了這一想法。據(jù)介紹，他們的研究目的是通過實(shí)驗(yàn)來解答一個(gè)簡單又基本的問題：無損信息壓縮本身能否產(chǎn)生智能行為？

博客地址：https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html
項(xiàng)目地址：https://github.com/iliao2345/CompressARC

該團(tuán)隊(duì)寫到：「在這項(xiàng)工作中，通過開發(fā)一種純粹基于壓縮的方法，我們的證據(jù)證明：推理期間的無損壓縮足以產(chǎn)生智能行為。」

該方法在 ARC-AGI 上表現(xiàn)優(yōu)良，而 ARC-AGI 是一個(gè)類似智商測試的謎題數(shù)據(jù)集，被測模型需要根據(jù)有限的演示推斷出程序 / 規(guī)則。

基于此，該團(tuán)隊(duì)將這個(gè)方法命名為 CompressARC，其符合以下三個(gè)限制：

無需預(yù)訓(xùn)練；模型在推理期間隨機(jī)初始化和訓(xùn)練。
無需數(shù)據(jù)集；模型僅在目標(biāo) ARC-AGI 謎題上進(jìn)行訓(xùn)練并輸出一個(gè)答案。
無需搜索 —— 只需梯度下降。

盡管存在這些限制，但 CompressARC 還是在訓(xùn)練集上實(shí)現(xiàn)了 34.75% 的準(zhǔn)確度，在評(píng)估集上實(shí)現(xiàn)了 20% 的準(zhǔn)確度。

處理時(shí)間方面，在 RTX 4070 上，處理每個(gè)謎題的時(shí)間大約為 20 分鐘。

該團(tuán)隊(duì)表示：「據(jù)我們所知，這是首個(gè)訓(xùn)練數(shù)據(jù)僅限于目標(biāo)謎題的用于解決 ARC-AGI 的神經(jīng)方法。」

他們特別指出：CompressARC 的智能并非源自預(yù)訓(xùn)練、龐大的數(shù)據(jù)集、詳盡的搜索或大規(guī)模計(jì)算，而是源自壓縮。「對(duì)于依賴大量預(yù)訓(xùn)練和數(shù)據(jù)的傳統(tǒng)，我們發(fā)起了挑戰(zhàn)，并展現(xiàn)了一種未來，即經(jīng)過定制設(shè)計(jì)的壓縮目標(biāo)和高效的推理時(shí)間計(jì)算共同發(fā)力，從而可以從最少的輸入中提取出深度智能。」

ARC-AGI 簡介

ARC-AGI 提出于 2019 年，這個(gè) AI 基準(zhǔn)的目標(biāo)是測試系統(tǒng)從少量示例中歸納總結(jié)出抽象規(guī)則的能力。

該數(shù)據(jù)集中包含一些類似 IQ 測試的謎題：先展示一些演示底層規(guī)則的圖像，然后給出需要補(bǔ)全或應(yīng)用該規(guī)則的測試圖像。下面展示了三個(gè)示例：

每個(gè)謎題都有一個(gè)隱藏規(guī)則，可將每個(gè)輸入網(wǎng)格映射到每個(gè)輸出網(wǎng)格。被測試者將獲得一些輸入映射到輸出的示例，并且有兩次機(jī)會(huì)（Pass@2）猜測給定輸入網(wǎng)格的輸出網(wǎng)格。

如果任何一個(gè)猜測是正確的，那么被測試者將獲得該謎題的 1 分，否則將獲得 0 分。被測試者可以更改輸出網(wǎng)格的大小并選擇每個(gè)像素的顏色。

一般來說，人類通常能合理地找到答案，而機(jī)器目前還較難解決這個(gè)問題。普通人可以解決 76.2% 的訓(xùn)練集，而人類專家可以解決 98.5%。

有 400 個(gè)訓(xùn)練謎題會(huì)比其他謎題更容易，其目的是幫助被測試者學(xué)習(xí)以下模式：

Objectness（事物性）：事物會(huì)持續(xù)存在，不會(huì)無緣無故地出現(xiàn)或消失。物體能否交互取決于具體情況。
目標(biāo)導(dǎo)向性：事物可以是動(dòng)態(tài)的或靜止的。有些物體是「智能體」—— 它們有意圖并會(huì)追求目標(biāo)。
數(shù)字和計(jì)數(shù)：可以使用加法、減法和比較等基本數(shù)學(xué)運(yùn)算，根據(jù)物體的形狀、外觀或運(yùn)動(dòng)對(duì)它們進(jìn)行計(jì)數(shù)或分類。
基本幾何和拓?fù)?/span>：物體可以是矩形、三角形和圓形等形狀，可以執(zhí)行鏡像、旋轉(zhuǎn)、平移、變形、組合、重復(fù)等操作?？梢詸z測到距離差異。

ARC Prize 團(tuán)隊(duì)曾多次發(fā)起解決 ARC-AGI 的競賽，并提供金錢獎(jiǎng)勵(lì)。最近的一次競賽涉及高達(dá) 100 萬美元的潛在獎(jiǎng)金，主要獎(jiǎng)金留給了能夠在受限環(huán)境中使用 12 小時(shí)計(jì)算，在 100 個(gè)謎題的私有測試集上實(shí)現(xiàn) 85% 成功率的方法。

此前，OpenAI 曾宣布 o3 模型在 ARC-AGI 基準(zhǔn)可達(dá)到 87.5% 的水平，被廣泛認(rèn)為是重大的歷史性突破

新提出的解決方案

Albert Gu 領(lǐng)導(dǎo)的團(tuán)隊(duì)提出，無損信息壓縮可以作為解決 ARC-AGI 謎題的有效框架。謎題的一個(gè)更高效（低比特）壓縮就對(duì)應(yīng)于一個(gè)更準(zhǔn)確的解。

為了解答 ARC-AGI 謎題，該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)系統(tǒng)，可以將不完整的謎題轉(zhuǎn)換成完整的（填入答案），方法是尋找一個(gè)緊湊的表示，而當(dāng)對(duì)這個(gè)表示進(jìn)行解壓縮時(shí)，就會(huì)重現(xiàn)有任意解的謎題。這個(gè)方法的關(guān)鍵難題是在沒有答案作為輸入的前提下獲得這種緊湊的表示。

CompressARC 使用了一個(gè)神經(jīng)網(wǎng)絡(luò)作為解碼器。然而，編碼算法卻不是一個(gè)神經(jīng)網(wǎng)絡(luò)——相反，編碼是由梯度下降算法實(shí)現(xiàn)的，該算法在解碼器上執(zhí)行推理時(shí)間訓(xùn)練，同時(shí)保持正確的解碼輸出。

換句話說，運(yùn)行該編碼器就意味著優(yōu)化解碼器的參數(shù)和輸入分布，從而獲得經(jīng)過最大壓縮的謎題表示。

由此得到的優(yōu)化版參數(shù)（例如，權(quán)重和輸入分布設(shè)置）本身將作為經(jīng)過壓縮的比特表示，其編碼了謎題與其答案。

如果用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)術(shù)語來描述：（沒有壓縮領(lǐng)域的術(shù)語，并進(jìn)行了一些簡化）

從推理時(shí)間開始，給出一個(gè)要解決的 ARC-AGI 謎題。（比如下圖）
構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò) f（參見架構(gòu)），該網(wǎng)絡(luò)是針對(duì)該謎題的具體情況（例如，示例數(shù)量、觀察到的顏色）設(shè)計(jì)的。該網(wǎng)絡(luò)采用了隨機(jī)正態(tài)輸入 z～N (μ,Σ)，并在所有網(wǎng)格（包括答案網(wǎng)格（3 個(gè)輸入輸出示例，總共 6 個(gè)網(wǎng)格））輸出每像素顏色的 logit 預(yù)測。重要的是，f_θ 等價(jià)于與常見的增強(qiáng)手段 —— 例如重新排序輸入輸出對(duì)（包括答案對(duì)）、顏色排列和空間旋轉(zhuǎn) / 反射。
初始化網(wǎng)絡(luò)權(quán)重 θ 并為 z 分布設(shè)置參數(shù) μ 和 Σ。
聯(lián)合優(yōu)化 θ、μ 和 Σ，以最小化已知網(wǎng)格（其中 5 個(gè)）的交叉熵總和，同時(shí)忽略答案網(wǎng)格。使用一個(gè) KL 散度懲罰使 N (μ,Σ) 接近 N (0,1)，就像在 VAE 中一樣。
由于 z 中的隨機(jī)性，生成的答案網(wǎng)格是隨機(jī)的，因此需要在整個(gè)訓(xùn)練過程中保存答案網(wǎng)格，并選擇最常出現(xiàn)的網(wǎng)格作為最終預(yù)測。

為什么這種方法是在執(zhí)行壓縮？這里看起來并不那么顯而易見。不過該團(tuán)隊(duì)在文章中通過壓縮 ARC-AGI 推導(dǎo)了它，其中涉及信息論、算法信息論、編碼理論和機(jī)器學(xué)習(xí)領(lǐng)域的知識(shí)，感興趣的讀者可訪問原文了解。

現(xiàn)在，先試試解決上述謎題。下圖展示了 CompressARC 的解題過程：

訓(xùn)練完成后，通過解構(gòu)學(xué)習(xí)到的 z 分布（詳見原文），可以發(fā)現(xiàn)它編碼了顏色方向?qū)?yīng)表和行/列分隔符位置！

架構(gòu)

為了將隱含的 z 解碼為 ARC-AGI 謎題，該團(tuán)隊(duì)設(shè)計(jì)了自己的神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)最重要的特征是它的等變特性 —— 這是一些對(duì)稱規(guī)則，規(guī)定了每當(dāng)輸入 z 發(fā)生變換時(shí)，輸出 ARC-AGI 謎題也必須以相同的方式變換。例子包括：

重新排序輸入/輸出對(duì)
改變顏色
翻轉(zhuǎn)、旋轉(zhuǎn)和網(wǎng)格反射

等變的方式實(shí)在太多了，靠人力窮舉實(shí)難辦到，所以該團(tuán)隊(duì)決定打造一個(gè)完全對(duì)稱的基礎(chǔ)架構(gòu)，并通過添加不對(duì)稱層來逐一打破不必要的對(duì)稱性，使其具有特定的非等變能力。

什么意思呢？假設(shè) z 和 ARC-AGI 謎題都采用形狀為 [n_examples, n_colors, height, width, 2 for input/output] 的張量形式（這實(shí)際上不是數(shù)據(jù)的格式，但它最能表達(dá)這個(gè)思路。）然后，網(wǎng)絡(luò)開始與示例中的索引（顏色、高度和寬度維度）的排列等變。另外，在權(quán)重共享方面必須格外小心，以強(qiáng)制網(wǎng)絡(luò)也與交換寬度和高度維度等變。然后，可以添加一個(gè)涉及寬度和高度維度的滾動(dòng)層，讓網(wǎng)絡(luò)可區(qū)分短距離空間交互，但不區(qū)分長距離空間交互。

穿過各層的實(shí)際數(shù)據(jù)（z、隱藏激活和謎題）采用了所謂的「多張量（multitensor）」格式，其中包含各種形狀的張量。所有等變都可被描述成它們對(duì)這個(gè)多張量的改變。

多張量

目前來說，大多數(shù)機(jī)器學(xué)習(xí)框架操作的都是具有恒定秩的單一類型的張量。比如 LLM 操作的是秩為 3 的張量，其形狀為 [n_batch, n_tokens, n_channels]，而 CNN 操作的則是秩為 4 的張量，其形狀為 [n_batch, n_channels, height, width]。

而新的多張量則是由多個(gè)不同秩構(gòu)成的張量組成的集合，其維度是一個(gè)形狀為 [n_examples, n_colors, n_directions, height, width, n_channels] 的秩為 6 的張量的子集。其中 channel 維度總是會(huì)被保留，因此每個(gè)多張量最多有 32 個(gè)張量。

為了判定張量形狀是否「合法」該團(tuán)隊(duì)還設(shè)定了一些規(guī)則（詳見原文「其它架構(gòu)細(xì)節(jié)」部分）。這樣一來，多張量中張量的數(shù)量就減少到了 18 個(gè)。

那么，多張量是如何存儲(chǔ)數(shù)據(jù)的呢？ARC-AGI 謎題可以表示成 [examples, colors, height, width, channel] 張量，其中 channel 維度可用于選擇是輸入還是輸出網(wǎng)格、width/height 維度指定像素位置、color 維度是一個(gè) one hot 向量（指示了該像素的顏色）。[examples,width,channel] 和 [examples,height,channel] 張量可以用于存儲(chǔ)表示每個(gè)輸入/輸出網(wǎng)格的每個(gè)示例的網(wǎng)格形狀的掩碼。所有這些張量都被包含在單個(gè)多張量中，該多張量由該網(wǎng)絡(luò)計(jì)算，就在最終的線性頭層之前。

當(dāng)操作多張量時(shí)，該團(tuán)隊(duì)默認(rèn)假設(shè)所有非 channel 維度都被視為 batch 維度。除非另有說明，否則將在各個(gè)維度索引上執(zhí)行同樣的操作。這能確保所有對(duì)稱性完好，直到使用旨在破壞特定對(duì)稱性的某個(gè)層。

關(guān)于 channel 維度的最后一點(diǎn)說明：通常在談?wù)搹埩康男螤顣r(shí)，我們甚至不會(huì)提及 channel 維度，因?yàn)樗驯荒J(rèn)包含在內(nèi)。

完整的架構(gòu)由以下層組成，對(duì)它們的詳細(xì)描述見原文附錄：

一開始是 z 分布的參數(shù)
解碼層
4 組：多張量通信層（向上）、Softmax 層、方向 Cummax 層、方向移位層、方向通信層、非線性層、多張量通信層（向下）、歸一化層
線性頭

結(jié)果

那么，CompressARC 的實(shí)驗(yàn)表現(xiàn)如何呢？

首先來看訓(xùn)練集正確率（Pass@2）：34.75%。

驗(yàn)證集正確率則為 20%。

CompressARC 不能解決哪些問題？

該團(tuán)隊(duì)也詳細(xì)分析了 CompressARC 能夠和無法解決的問題。

例如，訓(xùn)練集中的謎題 28e73c20 需要從邊緣向中間擴(kuò)展圖案：

考慮到其網(wǎng)絡(luò)中的層，CompressARC 通常能夠擴(kuò)展短距離的圖案，但不能擴(kuò)展長距離的圖案。因此，它盡力正確地將圖案延伸一小段距離，之后就開始猜測中間是什么：

CompressARC 能夠執(zhí)行的功能包括：

為各個(gè)程序分配單獨(dú)的顏色
填充
裁剪
用線連接點(diǎn)，包括 45 度對(duì)角線
相同顏色檢測
識(shí)別像素鄰接情況
為各個(gè)示例分配單獨(dú)的顏色
識(shí)別形狀的各個(gè)部分
短距離平移

CompressARC 無法執(zhí)行的功能包括：

將兩種顏色相互分配給對(duì)方
多次重復(fù)一系列操作
計(jì)數(shù) / 數(shù)字
平移、旋轉(zhuǎn)、反射、縮放、圖像復(fù)制
檢測拓?fù)鋵傩裕邕B接性
規(guī)劃、模擬智能體的行為
圖案的長距離擴(kuò)展

案例展示：為方框上色

這里通過一個(gè)案例來展示 CompressARC 的執(zhí)行情況，更多案例請見附錄。

問題是這樣的：

在訓(xùn)練過程中，重建誤差下降得非?？?。它的平均水平保持在較低水平，但隔一段時(shí)間就會(huì)急劇上升，導(dǎo)致來自 z 的 KL 在這些時(shí)刻上升。

那么，CompressARC 如何學(xué)會(huì)了解答這個(gè)問題呢？為了找到答案，我們先看看 z 中存儲(chǔ)的表示。

由于 z 是一個(gè)多張量，它包含的每個(gè)張量都會(huì)對(duì) z 的總 KL 產(chǎn)生貢獻(xiàn)。通過查看每個(gè)張量的貢獻(xiàn)，可以確定 z 中的哪些張量編碼了用于表示謎題的信息。下圖展示了存儲(chǔ)在 z 的每個(gè)張量中的信息量，即解碼層使用的 KL 貢獻(xiàn)。

除了四個(gè)張量外，所有張量在訓(xùn)練期間都降至零信息內(nèi)容。在該實(shí)驗(yàn)的一些重復(fù)實(shí)驗(yàn)中，該團(tuán)隊(duì)發(fā)現(xiàn)這四個(gè)必要張量中的一個(gè)降至了零信息內(nèi)容，并且 CompressARC 通常不會(huì)在那之后給出正確答案。

這里展示了一次幸運(yùn)的運(yùn)行，其中 (color,direction,channel) 張量幾乎要沒了但在 200 步時(shí)被拉起來了，這時(shí)模型中的樣本開始在正確的方框中顯示正確的顏色。

為了了解 z 中存儲(chǔ)了哪些信息，可以查看與 z 的各個(gè)張量相對(duì)應(yīng)的解碼層的平均輸出。每個(gè)張量包含一個(gè)維度為 n_channels 的向量，用于該張量的各種索引。對(duì)這些向量進(jìn)行主成分分析（PCA）可以揭示一些激活分量，能讓我們知道該張量編碼了多少信息。