自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「壓縮即智能」得到實(shí)驗(yàn)驗(yàn)證,無需預(yù)訓(xùn)練和大量數(shù)據(jù)就能解決ARC-AGI問題

人工智能 新聞
他們的研究目的是通過實(shí)驗(yàn)來解答一個(gè)簡單又基本的問題:無損信息壓縮本身能否產(chǎn)生智能行為?

「壓縮即智能」。這并不是一個(gè)新想法,著名 AI 研究科學(xué)家、OpenAI 與 SSI 聯(lián)合創(chuàng)始人 Ilya Sutskever 就曾表達(dá)過類似的觀點(diǎn)。甚至早在 1998 年,計(jì)算機(jī)科學(xué)家 Jose Hernandez-Orallo 就已經(jīng)在論文《A Formal Definition of Intelligence Based on an Intensional Variant of Algorithmic Complexity》中有過相關(guān)的理論論述。

圖片

近日,卡內(nèi)基梅隆大學(xué) Albert Gu 領(lǐng)導(dǎo)的一個(gè)團(tuán)隊(duì)進(jìn)一步證明了這一想法。據(jù)介紹,他們的研究目的是通過實(shí)驗(yàn)來解答一個(gè)簡單又基本的問題:無損信息壓縮本身能否產(chǎn)生智能行為?

圖片

  • 博客地址:https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html
  • 項(xiàng)目地址:https://github.com/iliao2345/CompressARC

該團(tuán)隊(duì)寫到:「在這項(xiàng)工作中,通過開發(fā)一種純粹基于壓縮的方法,我們的證據(jù)證明:推理期間的無損壓縮足以產(chǎn)生智能行為。

該方法在 ARC-AGI 上表現(xiàn)優(yōu)良,而 ARC-AGI 是一個(gè)類似智商測試的謎題數(shù)據(jù)集,被測模型需要根據(jù)有限的演示推斷出程序 / 規(guī)則。

基于此,該團(tuán)隊(duì)將這個(gè)方法命名為 CompressARC,其符合以下三個(gè)限制:

  • 無需預(yù)訓(xùn)練;模型在推理期間隨機(jī)初始化和訓(xùn)練。
  • 無需數(shù)據(jù)集;模型僅在目標(biāo) ARC-AGI 謎題上進(jìn)行訓(xùn)練并輸出一個(gè)答案。
  • 無需搜索 —— 只需梯度下降。

盡管存在這些限制,但 CompressARC 還是在訓(xùn)練集上實(shí)現(xiàn)了 34.75% 的準(zhǔn)確度,在評(píng)估集上實(shí)現(xiàn)了 20% 的準(zhǔn)確度。

處理時(shí)間方面,在 RTX 4070 上,處理每個(gè)謎題的時(shí)間大約為 20 分鐘。

該團(tuán)隊(duì)表示:「據(jù)我們所知,這是首個(gè)訓(xùn)練數(shù)據(jù)僅限于目標(biāo)謎題的用于解決 ARC-AGI 的神經(jīng)方法。

他們特別指出:CompressARC 的智能并非源自預(yù)訓(xùn)練、龐大的數(shù)據(jù)集、詳盡的搜索或大規(guī)模計(jì)算,而是源自壓縮。「對(duì)于依賴大量預(yù)訓(xùn)練和數(shù)據(jù)的傳統(tǒng),我們發(fā)起了挑戰(zhàn),并展現(xiàn)了一種未來,即經(jīng)過定制設(shè)計(jì)的壓縮目標(biāo)和高效的推理時(shí)間計(jì)算共同發(fā)力,從而可以從最少的輸入中提取出深度智能。」

ARC-AGI 簡介

ARC-AGI 提出于 2019 年,這個(gè) AI 基準(zhǔn)的目標(biāo)是測試系統(tǒng)從少量示例中歸納總結(jié)出抽象規(guī)則的能力。

該數(shù)據(jù)集中包含一些類似 IQ 測試的謎題:先展示一些演示底層規(guī)則的圖像,然后給出需要補(bǔ)全或應(yīng)用該規(guī)則的測試圖像。下面展示了三個(gè)示例:

圖片

每個(gè)謎題都有一個(gè)隱藏規(guī)則,可將每個(gè)輸入網(wǎng)格映射到每個(gè)輸出網(wǎng)格。被測試者將獲得一些輸入映射到輸出的示例,并且有兩次機(jī)會(huì)(Pass@2)猜測給定輸入網(wǎng)格的輸出網(wǎng)格。

如果任何一個(gè)猜測是正確的,那么被測試者將獲得該謎題的 1 分,否則將獲得 0 分。被測試者可以更改輸出網(wǎng)格的大小并選擇每個(gè)像素的顏色。

一般來說,人類通常能合理地找到答案,而機(jī)器目前還較難解決這個(gè)問題。普通人可以解決 76.2% 的訓(xùn)練集,而人類專家可以解決 98.5%。

有 400 個(gè)訓(xùn)練謎題會(huì)比其他謎題更容易,其目的是幫助被測試者學(xué)習(xí)以下模式:

  • Objectness(事物性):事物會(huì)持續(xù)存在,不會(huì)無緣無故地出現(xiàn)或消失。物體能否交互取決于具體情況。
  • 目標(biāo)導(dǎo)向性:事物可以是動(dòng)態(tài)的或靜止的。有些物體是「智能體」—— 它們有意圖并會(huì)追求目標(biāo)。
  • 數(shù)字和計(jì)數(shù):可以使用加法、減法和比較等基本數(shù)學(xué)運(yùn)算,根據(jù)物體的形狀、外觀或運(yùn)動(dòng)對(duì)它們進(jìn)行計(jì)數(shù)或分類。
  • 基本幾何和拓?fù)?/span>:物體可以是矩形、三角形和圓形等形狀,可以執(zhí)行鏡像、旋轉(zhuǎn)、平移、變形、組合、重復(fù)等操作??梢詸z測到距離差異。

ARC Prize 團(tuán)隊(duì)曾多次發(fā)起解決 ARC-AGI 的競賽,并提供金錢獎(jiǎng)勵(lì)。最近的一次競賽涉及高達(dá) 100 萬美元的潛在獎(jiǎng)金,主要獎(jiǎng)金留給了能夠在受限環(huán)境中使用 12 小時(shí)計(jì)算,在 100 個(gè)謎題的私有測試集上實(shí)現(xiàn) 85% 成功率的方法。

此前,OpenAI 曾宣布 o3 模型在 ARC-AGI 基準(zhǔn)可達(dá)到 87.5% 的水平,被廣泛認(rèn)為是重大的歷史性突破

圖片

新提出的解決方案

Albert Gu 領(lǐng)導(dǎo)的團(tuán)隊(duì)提出,無損信息壓縮可以作為解決 ARC-AGI 謎題的有效框架。謎題的一個(gè)更高效(低比特)壓縮就對(duì)應(yīng)于一個(gè)更準(zhǔn)確的解。

為了解答 ARC-AGI 謎題,該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)系統(tǒng),可以將不完整的謎題轉(zhuǎn)換成完整的(填入答案),方法是尋找一個(gè)緊湊的表示,而當(dāng)對(duì)這個(gè)表示進(jìn)行解壓縮時(shí),就會(huì)重現(xiàn)有任意解的謎題。這個(gè)方法的關(guān)鍵難題是在沒有答案作為輸入的前提下獲得這種緊湊的表示。

CompressARC 使用了一個(gè)神經(jīng)網(wǎng)絡(luò)作為解碼器。然而,編碼算法卻不是一個(gè)神經(jīng)網(wǎng)絡(luò)——相反,編碼是由梯度下降算法實(shí)現(xiàn)的,該算法在解碼器上執(zhí)行推理時(shí)間訓(xùn)練,同時(shí)保持正確的解碼輸出。

換句話說,運(yùn)行該編碼器就意味著優(yōu)化解碼器的參數(shù)和輸入分布,從而獲得經(jīng)過最大壓縮的謎題表示。

由此得到的優(yōu)化版參數(shù)(例如,權(quán)重和輸入分布設(shè)置)本身將作為經(jīng)過壓縮的比特表示,其編碼了謎題與其答案。

如果用標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)術(shù)語來描述:(沒有壓縮領(lǐng)域的術(shù)語,并進(jìn)行了一些簡化)

  1. 從推理時(shí)間開始,給出一個(gè)要解決的 ARC-AGI 謎題。(比如下圖)
  2. 構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò) f(參見架構(gòu)),該網(wǎng)絡(luò)是針對(duì)該謎題的具體情況(例如,示例數(shù)量、觀察到的顏色)設(shè)計(jì)的。該網(wǎng)絡(luò)采用了隨機(jī)正態(tài)輸入 z~N (μ,Σ),并在所有網(wǎng)格(包括答案網(wǎng)格(3 個(gè)輸入輸出示例,總共 6 個(gè)網(wǎng)格))輸出每像素顏色的 logit 預(yù)測。重要的是,f_θ 等價(jià)于與常見的增強(qiáng)手段 —— 例如重新排序輸入輸出對(duì)(包括答案對(duì))、顏色排列和空間旋轉(zhuǎn) / 反射。
  3. 初始化網(wǎng)絡(luò)權(quán)重 θ 并為 z 分布設(shè)置參數(shù) μ 和 Σ。
  4. 聯(lián)合優(yōu)化 θ、μ 和 Σ,以最小化已知網(wǎng)格(其中 5 個(gè))的交叉熵總和,同時(shí)忽略答案網(wǎng)格。使用一個(gè) KL 散度懲罰使 N (μ,Σ) 接近 N (0,1),就像在 VAE 中一樣。
  5. 由于 z 中的隨機(jī)性,生成的答案網(wǎng)格是隨機(jī)的,因此需要在整個(gè)訓(xùn)練過程中保存答案網(wǎng)格,并選擇最常出現(xiàn)的網(wǎng)格作為最終預(yù)測。

圖片

為什么這種方法是在執(zhí)行壓縮?這里看起來并不那么顯而易見。不過該團(tuán)隊(duì)在文章中通過壓縮 ARC-AGI 推導(dǎo)了它,其中涉及信息論、算法信息論、編碼理論和機(jī)器學(xué)習(xí)領(lǐng)域的知識(shí),感興趣的讀者可訪問原文了解。

現(xiàn)在,先試試解決上述謎題。下圖展示了 CompressARC 的解題過程:

圖片

訓(xùn)練完成后,通過解構(gòu)學(xué)習(xí)到的 z 分布(詳見原文),可以發(fā)現(xiàn)它編碼了顏色方向?qū)?yīng)表和行/列分隔符位置!

架構(gòu)

為了將隱含的 z 解碼為 ARC-AGI 謎題,該團(tuán)隊(duì)設(shè)計(jì)了自己的神經(jīng)網(wǎng)絡(luò)架構(gòu)。該架構(gòu)最重要的特征是它的等變特性 —— 這是一些對(duì)稱規(guī)則,規(guī)定了每當(dāng)輸入 z 發(fā)生變換時(shí),輸出 ARC-AGI 謎題也必須以相同的方式變換。例子包括:

  • 重新排序輸入/輸出對(duì)
  • 改變顏色
  • 翻轉(zhuǎn)、旋轉(zhuǎn)和網(wǎng)格反射

等變的方式實(shí)在太多了,靠人力窮舉實(shí)難辦到,所以該團(tuán)隊(duì)決定打造一個(gè)完全對(duì)稱的基礎(chǔ)架構(gòu),并通過添加不對(duì)稱層來逐一打破不必要的對(duì)稱性,使其具有特定的非等變能力。

圖片

什么意思呢?假設(shè) z 和 ARC-AGI 謎題都采用形狀為 [n_examples, n_colors, height, width, 2 for input/output] 的張量形式(這實(shí)際上不是數(shù)據(jù)的格式,但它最能表達(dá)這個(gè)思路。)然后,網(wǎng)絡(luò)開始與示例中的索引(顏色、高度和寬度維度)的排列等變。另外,在權(quán)重共享方面必須格外小心,以強(qiáng)制網(wǎng)絡(luò)也與交換寬度和高度維度等變。然后,可以添加一個(gè)涉及寬度和高度維度的滾動(dòng)層,讓網(wǎng)絡(luò)可區(qū)分短距離空間交互,但不區(qū)分長距離空間交互。

穿過各層的實(shí)際數(shù)據(jù)(z、隱藏激活和謎題)采用了所謂的「多張量(multitensor)」格式,其中包含各種形狀的張量。所有等變都可被描述成它們對(duì)這個(gè)多張量的改變。

多張量

圖片

目前來說,大多數(shù)機(jī)器學(xué)習(xí)框架操作的都是具有恒定秩的單一類型的張量。比如 LLM 操作的是秩為 3 的張量,其形狀為 [n_batch, n_tokens, n_channels],而 CNN 操作的則是秩為 4 的張量,其形狀為 [n_batch, n_channels, height, width]。

而新的多張量則是由多個(gè)不同秩構(gòu)成的張量組成的集合,其維度是一個(gè)形狀為 [n_examples, n_colors, n_directions, height, width, n_channels] 的秩為 6 的張量的子集。其中 channel 維度總是會(huì)被保留,因此每個(gè)多張量最多有 32 個(gè)張量。

為了判定張量形狀是否「合法」該團(tuán)隊(duì)還設(shè)定了一些規(guī)則(詳見原文「其它架構(gòu)細(xì)節(jié)」部分)。這樣一來,多張量中張量的數(shù)量就減少到了 18 個(gè)。

圖片

那么,多張量是如何存儲(chǔ)數(shù)據(jù)的呢?ARC-AGI 謎題可以表示成 [examples, colors, height, width, channel] 張量,其中 channel 維度可用于選擇是輸入還是輸出網(wǎng)格、width/height 維度指定像素位置、color 維度是一個(gè) one hot 向量(指示了該像素的顏色)。[examples,width,channel] 和 [examples,height,channel] 張量可以用于存儲(chǔ)表示每個(gè)輸入/輸出網(wǎng)格的每個(gè)示例的網(wǎng)格形狀的掩碼。所有這些張量都被包含在單個(gè)多張量中,該多張量由該網(wǎng)絡(luò)計(jì)算,就在最終的線性頭層之前。

當(dāng)操作多張量時(shí),該團(tuán)隊(duì)默認(rèn)假設(shè)所有非 channel 維度都被視為 batch 維度。除非另有說明,否則將在各個(gè)維度索引上執(zhí)行同樣的操作。這能確保所有對(duì)稱性完好,直到使用旨在破壞特定對(duì)稱性的某個(gè)層。

關(guān)于 channel 維度的最后一點(diǎn)說明:通常在談?wù)搹埩康男螤顣r(shí),我們甚至不會(huì)提及 channel 維度,因?yàn)樗驯荒J(rèn)包含在內(nèi)。

完整的架構(gòu)由以下層組成,對(duì)它們的詳細(xì)描述見原文附錄:

  • 一開始是 z 分布的參數(shù)
  • 解碼層
  • 4 組:多張量通信層(向上)、Softmax 層、方向 Cummax 層、方向移位層、方向通信層、非線性層、多張量通信層(向下)、歸一化層
  • 線性頭

結(jié)果

那么,CompressARC 的實(shí)驗(yàn)表現(xiàn)如何呢?

首先來看訓(xùn)練集正確率(Pass@2):34.75%。

圖片

圖片

驗(yàn)證集正確率則為 20%。

圖片

圖片

CompressARC 不能解決哪些問題?

該團(tuán)隊(duì)也詳細(xì)分析了 CompressARC 能夠和無法解決的問題。

例如,訓(xùn)練集中的謎題 28e73c20 需要從邊緣向中間擴(kuò)展圖案:

圖片

考慮到其網(wǎng)絡(luò)中的層,CompressARC 通常能夠擴(kuò)展短距離的圖案,但不能擴(kuò)展長距離的圖案。因此,它盡力正確地將圖案延伸一小段距離,之后就開始猜測中間是什么:

圖片


CompressARC 能夠執(zhí)行的功能包括:

  • 為各個(gè)程序分配單獨(dú)的顏色
  • 填充
  • 裁剪
  • 用線連接點(diǎn),包括 45 度對(duì)角線
  • 相同顏色檢測
  • 識(shí)別像素鄰接情況
  • 為各個(gè)示例分配單獨(dú)的顏色
  • 識(shí)別形狀的各個(gè)部分
  • 短距離平移

CompressARC 無法執(zhí)行的功能包括:

  • 將兩種顏色相互分配給對(duì)方
  • 多次重復(fù)一系列操作
  • 計(jì)數(shù) / 數(shù)字
  • 平移、旋轉(zhuǎn)、反射、縮放、圖像復(fù)制
  • 檢測拓?fù)鋵傩裕邕B接性
  • 規(guī)劃、模擬智能體的行為
  • 圖案的長距離擴(kuò)展

案例展示:為方框上色

這里通過一個(gè)案例來展示 CompressARC 的執(zhí)行情況,更多案例請見附錄。

問題是這樣的:

圖片

在訓(xùn)練過程中,重建誤差下降得非???。它的平均水平保持在較低水平,但隔一段時(shí)間就會(huì)急劇上升,導(dǎo)致來自 z 的 KL 在這些時(shí)刻上升。

圖片

那么,CompressARC 如何學(xué)會(huì)了解答這個(gè)問題呢?為了找到答案,我們先看看 z 中存儲(chǔ)的表示。

由于 z 是一個(gè)多張量,它包含的每個(gè)張量都會(huì)對(duì) z 的總 KL 產(chǎn)生貢獻(xiàn)。通過查看每個(gè)張量的貢獻(xiàn),可以確定 z 中的哪些張量編碼了用于表示謎題的信息。下圖展示了存儲(chǔ)在 z 的每個(gè)張量中的信息量,即解碼層使用的 KL 貢獻(xiàn)。

圖片

除了四個(gè)張量外,所有張量在訓(xùn)練期間都降至零信息內(nèi)容。在該實(shí)驗(yàn)的一些重復(fù)實(shí)驗(yàn)中,該團(tuán)隊(duì)發(fā)現(xiàn)這四個(gè)必要張量中的一個(gè)降至了零信息內(nèi)容,并且 CompressARC 通常不會(huì)在那之后給出正確答案。

這里展示了一次幸運(yùn)的運(yùn)行,其中 (color,direction,channel) 張量幾乎要沒了但在 200 步時(shí)被拉起來了,這時(shí)模型中的樣本開始在正確的方框中顯示正確的顏色。

為了了解 z 中存儲(chǔ)了哪些信息,可以查看與 z 的各個(gè)張量相對(duì)應(yīng)的解碼層的平均輸出。每個(gè)張量包含一個(gè)維度為 n_channels 的向量,用于該張量的各種索引。對(duì)這些向量進(jìn)行主成分分析(PCA)可以揭示一些激活分量,能讓我們知道該張量編碼了多少信息。

圖片

該團(tuán)隊(duì)還在原文中分享了更多細(xì)節(jié),并給出了進(jìn)一步的提升空間,感興趣的讀者請?jiān)L問原文。

對(duì)于這項(xiàng)「壓縮即智能」的實(shí)驗(yàn)研究成果,你有什么看法呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-12-26 11:42:56

ARC-AGI大模型人工智能

2023-11-06 11:29:02

機(jī)器人視覺

2021-04-22 10:23:36

人工智能自動(dòng)駕駛芯片

2024-06-20 10:43:15

2025-04-23 11:19:31

2024-01-18 16:19:31

數(shù)據(jù)治理AI疲勞數(shù)據(jù)安全

2023-09-08 00:07:29

2019-09-19 08:22:25

人工智能AI社會(huì)問題

2021-11-15 10:00:22

模型人工智能NLP

2024-12-30 09:30:00

OpenAIAI訓(xùn)練

2013-12-18 10:09:12

SVCHOST進(jìn)程Windows Upd

2020-08-10 15:25:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-04-04 07:51:32

Web框架

2024-04-01 07:00:00

電信行業(yè)人工智能

2022-01-06 09:57:02

數(shù)據(jù)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)

2022-04-14 09:00:00

開發(fā)數(shù)據(jù)庫工具

2023-05-17 15:11:23

2022-04-12 11:35:43

IDE工具OHOS應(yīng)用鴻蒙

2020-07-29 12:16:12

預(yù)訓(xùn)練自訓(xùn)練神經(jīng)網(wǎng)絡(luò)

2021-01-13 10:53:48

人工智能費(fèi)用管理AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)