自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深度思考 | 大模型的能力邊界在哪里?

人工智能 新聞
今天,我給大家介紹一下我在ICML'2023發(fā)表的論文On the Power of Foundation Models,從范疇論的角度給出一個(gè)答案。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

假如我們有無(wú)限的資源,比如有無(wú)窮多的數(shù)據(jù),無(wú)窮大的算力,無(wú)窮大的模型,完美的優(yōu)化算法與泛化表現(xiàn),請(qǐng)問(wèn)由此得到的預(yù)訓(xùn)練模型是否可以用來(lái)解決一切問(wèn)題?

這是一個(gè)大家都非常關(guān)心的問(wèn)題,但已有的機(jī)器學(xué)習(xí)理論卻無(wú)法回答。它與表達(dá)能力理論無(wú)關(guān),因?yàn)槟P蜔o(wú)窮大,表達(dá)能力自然也無(wú)窮大。它與優(yōu)化、泛化理論也無(wú)關(guān),因?yàn)槲覀兗僭O(shè)算法的優(yōu)化、泛化表現(xiàn)完美。換句話說(shuō),之前理論研究的問(wèn)題在這里不存在了!

今天,我給大家介紹一下我在ICML'2023發(fā)表的論文On the Power of Foundation Models,從范疇論的角度給出一個(gè)答案。

范疇論是什么?

倘若不是數(shù)學(xué)專業(yè)的同學(xué),對(duì)范疇論可能比較陌生。范疇論被稱為是數(shù)學(xué)的數(shù)學(xué),為現(xiàn)代數(shù)學(xué)提供了一套基礎(chǔ)語(yǔ)言?,F(xiàn)代幾乎所有的數(shù)學(xué)領(lǐng)域都是用范疇論的語(yǔ)言描述的,例如代數(shù)拓?fù)?、代?shù)幾何、代數(shù)圖論等等。范疇論是一門研究結(jié)構(gòu)與關(guān)系的學(xué)問(wèn),它可以看作是集合論的一種自然延伸:在集合論中,一個(gè)集合包含了若干個(gè)不同的元素;在范疇論中,我們不僅記錄了元素,還記錄了元素與元素之間的關(guān)系。

Martin Kuppe曾經(jīng)畫了一幅數(shù)學(xué)地圖,把范疇論放到了地圖的頂端,照耀著數(shù)學(xué)各個(gè)領(lǐng)域:

關(guān)于范疇論的介紹網(wǎng)上有很多,我們這里簡(jiǎn)單講幾個(gè)基本概念:

監(jiān)督學(xué)習(xí)的范疇論視角

過(guò)去十多年,人們圍繞著監(jiān)督學(xué)習(xí)框架進(jìn)行了大量的研究,得到了很多優(yōu)美的結(jié)論。但是,這一框架也限制了人們對(duì)AI算法的認(rèn)識(shí),讓理解預(yù)訓(xùn)練大模型變得極為困難。例如,已有的泛化理論很難用來(lái)解釋模型的跨模態(tài)學(xué)習(xí)能力。

我們能不能通過(guò)采樣函子的輸入輸出數(shù)據(jù),學(xué)到這個(gè)函子?

注意到,在這個(gè)過(guò)程中我們沒(méi)有考慮兩個(gè)范疇 X,Y 內(nèi)部的結(jié)構(gòu)。實(shí)際上,監(jiān)督學(xué)習(xí)沒(méi)有對(duì)范疇內(nèi)部的結(jié)構(gòu)有任何假設(shè),所以可以認(rèn)為在兩個(gè)范疇內(nèi)部,任何兩個(gè)對(duì)象之間都沒(méi)有關(guān)系。因此,我們完全可以把 X 和 Y 看作是兩個(gè)集合。這個(gè)時(shí)候,泛化理論著名的no free lunch定理告訴我們,假如沒(méi)有額外假設(shè),那么學(xué)好從 X 到 Y 的函子這件事情是不可能的(除非有海量樣本)。

乍看之下,這個(gè)新視角毫無(wú)用處。給范疇加約束也好,給函子加約束也好,似乎沒(méi)什么本質(zhì)區(qū)別。實(shí)際上,新視角更像是傳統(tǒng)框架的閹割版本:它甚至沒(méi)有提及監(jiān)督學(xué)習(xí)中極為重要的損失函數(shù)的概念,也就無(wú)法用于分析訓(xùn)練算法的收斂或泛化性質(zhì)。那么我們應(yīng)該如何理解這個(gè)新視角呢?

我想,范疇論提供了一種鳥(niǎo)瞰視角。它本身不會(huì)也不應(yīng)該替代原有的更具體的監(jiān)督學(xué)習(xí)框架,或者用來(lái)產(chǎn)生更好的監(jiān)督學(xué)習(xí)算法。相反,監(jiān)督學(xué)習(xí)框架是它的“子模塊”,是解決具體問(wèn)題時(shí)可以采用的工具。因此,范疇論不會(huì)在乎損失函數(shù)或者優(yōu)化過(guò)程——這些更像是算法的實(shí)現(xiàn)細(xì)節(jié)。它更關(guān)注范疇與函子的結(jié)構(gòu),并且嘗試?yán)斫饽硞€(gè)函子是否可學(xué)習(xí)。這些問(wèn)題在傳統(tǒng)監(jiān)督學(xué)習(xí)框架中極為困難,但是在范疇視角下變得簡(jiǎn)單。

自監(jiān)督學(xué)習(xí)的范疇論視角

預(yù)訓(xùn)練任務(wù)與范疇

下面我們先明確在預(yù)訓(xùn)練任務(wù)下范疇的定義。實(shí)際上,倘若我們沒(méi)有設(shè)計(jì)任何預(yù)訓(xùn)練任務(wù),那么范疇中的對(duì)象之間就沒(méi)有關(guān)系;但是設(shè)計(jì)了預(yù)訓(xùn)練任務(wù)之后,我們就將人類的先驗(yàn)知識(shí)以任務(wù)的方式,給范疇注入了結(jié)構(gòu)。而這些結(jié)構(gòu)就成為了大模型擁有的知識(shí)。

具體來(lái)說(shuō):

換句話說(shuō),當(dāng)我們?cè)谝粋€(gè)數(shù)據(jù)集上定義了預(yù)訓(xùn)練任務(wù)之后,我們就定義了一個(gè)包含對(duì)應(yīng)關(guān)系結(jié)構(gòu)的范疇。預(yù)訓(xùn)練任務(wù)的學(xué)習(xí)目標(biāo),就是讓模型把這個(gè)范疇學(xué)好。具體來(lái)說(shuō),我們看一下理想模型的概念。

理想模型

在這里,“數(shù)據(jù)無(wú)關(guān)”意味著  是在看到數(shù)據(jù)之前就預(yù)先定義的;但下標(biāo)  f則表示可以通過(guò)黑盒調(diào)用的方式使用 f 和  這兩個(gè)函數(shù)。換句話說(shuō),  是一個(gè)“簡(jiǎn)單”的函數(shù),但可以借助模型 f 的能力來(lái)表示更復(fù)雜的關(guān)系。這一點(diǎn)可能不太好理解,我們用壓縮算法來(lái)打個(gè)比方。壓縮算法本身可能是數(shù)據(jù)相關(guān)的,比如它可能是針對(duì)數(shù)據(jù)分布進(jìn)行了特殊優(yōu)化。然而,作為一個(gè)數(shù)據(jù)無(wú)關(guān)的函數(shù)  ,它無(wú)法訪問(wèn)數(shù)據(jù)分布,但可以調(diào)用壓縮算法來(lái)解壓數(shù)據(jù),因?yàn)椤罢{(diào)用壓縮算法”這一操作是數(shù)據(jù)無(wú)關(guān)的。

針對(duì)不同的預(yù)訓(xùn)練任務(wù),我們可以定義不同的  

因此,我們可以這么說(shuō):預(yù)訓(xùn)練學(xué)習(xí)的過(guò)程,就是在尋找理想模型 f 的過(guò)程。

可是,即使  是確定的,根據(jù)定義,理想模型也并不唯一。理論上說(shuō),模型 f 可能具有超級(jí)智能,即使在不學(xué)習(xí) C 中數(shù)據(jù)的前提下也能做任何事情。在這種情況下,我們無(wú)法對(duì) f 的能力給出有意義的論斷。因此,我們應(yīng)該看看問(wèn)題的另一面:

給定由預(yù)訓(xùn)練任務(wù)定義的范疇 C ,對(duì)于任何一個(gè)理想的 f ,它能解決哪些任務(wù)?

這是我們?cè)诒疚囊婚_(kāi)始就想回答的核心問(wèn)題。我們先介紹一個(gè)重要概念。

米田嵌入

很容易證明,  是能力最弱的理想模型,因?yàn)榻o定其他理想模型 f ,   中的所有關(guān)系也包含在 f 中。同時(shí),它也是沒(méi)有其他額外假設(shè)前提之下,預(yù)訓(xùn)練模型學(xué)習(xí)的最終目標(biāo)。因此,為了回答我們的核心問(wèn)題,我們下面專門考慮 。

提示調(diào)優(yōu)(Prompt tuning): 見(jiàn)多才能識(shí)廣

能否解決某個(gè)任務(wù) T ?要回答這個(gè)問(wèn)題,我們先介紹范疇論中最重要的一個(gè)定理。

米田引理

即, 可以用這兩種表征計(jì)算出 T(X) 。然而,注意到任務(wù)提示 P 必須通過(guò)  而非  發(fā)送,這意味著我們會(huì)得到 (P) 而非 T 作為  的輸入。這引出了范疇論中另一個(gè)重要的定義。

基于這個(gè)定義,我們可以得到如下定理(證明略去)。

定理1與推論

值得一提的是,有些提示調(diào)優(yōu)算法的提示不一定是范疇 C 中的對(duì)象,可能是特征空間中的表征。這種方法有可能支持比可表任務(wù)更復(fù)雜的任務(wù),但增強(qiáng)效果取決于特征空間的表達(dá)能力。下面我們提供定理1的一個(gè)簡(jiǎn)單推論。

推論1. 對(duì)于預(yù)測(cè)圖像旋轉(zhuǎn)角度的預(yù)訓(xùn)練任務(wù)[4],提示調(diào)優(yōu)不能解決分割或分類等復(fù)雜的下游任務(wù)。

證明:預(yù)測(cè)圖像旋轉(zhuǎn)角度的預(yù)訓(xùn)練任務(wù)會(huì)將給定圖像旋轉(zhuǎn)四個(gè)不同的角度:0°, 90°, 180°, 和 270°,并讓模型進(jìn)行預(yù)測(cè)。因此,這個(gè)預(yù)訓(xùn)練任務(wù)定義的范疇將每個(gè)對(duì)象都放入一個(gè)包含4個(gè)元素的群中。顯然,像分割或分類這樣的任務(wù)不能由這樣簡(jiǎn)單的對(duì)象表出。

推論1有點(diǎn)反直覺(jué),因?yàn)樵撐奶岬絒4],使用該方法得到的模型可以部分解決分類或分割等下游任務(wù)。然而,在我們的定義中,解決任務(wù)意味著模型應(yīng)該為每個(gè)輸入生成正確的輸出,因此部分正確并不被視為成功。這也與我們文章開(kāi)頭提到的問(wèn)題相符:在無(wú)限資源的支持下,預(yù)測(cè)圖像旋轉(zhuǎn)角度的預(yù)訓(xùn)練任務(wù)能否用于解決復(fù)雜的下游任務(wù)?推論1給出了否定的答案。

微調(diào)(Fine tuning): 表征不丟信息

提示調(diào)優(yōu)的能力有限,那么微調(diào)算法呢?基于米田函子擴(kuò)展定理(參見(jiàn) [5]中的命題2.7.1),我們可以得到如下定理。

定理2考慮的下游任務(wù)是基于 C 的結(jié)構(gòu),而不是數(shù)據(jù)集中的數(shù)據(jù)內(nèi)容。因此,之前提到的預(yù)測(cè)旋轉(zhuǎn)圖片角度的預(yù)訓(xùn)練任務(wù)定義的范疇仍然具有非常簡(jiǎn)單的群結(jié)構(gòu)。但是根據(jù)定理2,我們可以用它解決更多樣化的任務(wù)。例如,我們可以將所有對(duì)象映射到同一個(gè)輸出,這是無(wú)法通過(guò)提示調(diào)優(yōu)來(lái)實(shí)現(xiàn)的。定理2明確了預(yù)訓(xùn)練任務(wù)的重要性,因?yàn)楦玫念A(yù)訓(xùn)練任務(wù)將創(chuàng)建更強(qiáng)大的范疇 C ,從而進(jìn)一步提高了模型的微調(diào)潛力。

對(duì)于定理2有兩個(gè)常見(jiàn)的誤解。首先,即使范疇 C 包含了大量信息,定理2只提供了一個(gè)粗糙的上界,說(shuō)  記錄了 C 中所有的信息,有潛力解決任何任務(wù),而并沒(méi)有說(shuō)任何微調(diào)算法都可以達(dá)到這個(gè)目的。其次,定理2乍看像是過(guò)參數(shù)化理論。然而,它們分析的是自監(jiān)督學(xué)習(xí)的不同步驟。過(guò)參數(shù)化分析的是預(yù)訓(xùn)練步驟,說(shuō)的是在某些假設(shè)下,只要模型足夠大且學(xué)習(xí)率足夠小,對(duì)于預(yù)訓(xùn)練任務(wù),優(yōu)化和泛化誤差將非常小。而定理2分析的則是預(yù)訓(xùn)練后的微調(diào)步驟,說(shuō)該步驟有很大潛力。

討論與總結(jié)

監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí)。從機(jī)器學(xué)習(xí)的角度來(lái)看,自監(jiān)督學(xué)習(xí)仍然是一種監(jiān)督學(xué)習(xí),只是獲取標(biāo)簽的方式更巧妙一些而已。但是從范疇論的角度來(lái)看,自監(jiān)督學(xué)習(xí)定義了范疇內(nèi)部的結(jié)構(gòu),而監(jiān)督學(xué)習(xí)定義了范疇之間的關(guān)系。因此,它們處于人工智能地圖的不同板塊,在做完全不一樣的事情。

適用場(chǎng)景。由于本文開(kāi)頭考慮了無(wú)限資源的假設(shè),導(dǎo)致很多朋友可能會(huì)認(rèn)為,這些理論只有在虛空之中才會(huì)真正成立。其實(shí)并非如此。在我們真正的推導(dǎo)過(guò)程中,我們只是考慮了理想模型與  這一預(yù)定義的函數(shù)。實(shí)際上,只要  確定了之后,任何一個(gè)預(yù)訓(xùn)練模型 f (哪怕是在隨機(jī)初始化階段)都可以針對(duì)輸入XC 計(jì)算出 f(X) ,從而使用  計(jì)算出兩個(gè)對(duì)象的關(guān)系。換句話說(shuō),只要當(dāng)  確定之后,每個(gè)預(yù)訓(xùn)練模型都對(duì)應(yīng)于一個(gè)范疇,而預(yù)訓(xùn)練的目標(biāo)不過(guò)是將這個(gè)范疇不斷與由預(yù)訓(xùn)練任務(wù)定義的范疇對(duì)齊而已。因此,我們的理論針對(duì)每一個(gè)預(yù)訓(xùn)練模型都成立。

核心公式。很多人說(shuō),如果AI真有一套理論支撐,那么它背后應(yīng)該有一個(gè)或者幾個(gè)簡(jiǎn)潔優(yōu)美的公式。我想,如果需要用一個(gè)范疇論的公式來(lái)描繪大模型能力的話,它應(yīng)該就是我們之前提到的:

對(duì)于大模型比較熟悉的朋友,在深入理解這個(gè)公式的含義之后,可能會(huì)覺(jué)得這個(gè)式子在說(shuō)廢話,不過(guò)是把現(xiàn)在大模型的工作模式用比較復(fù)雜的數(shù)學(xué)式子寫出來(lái)了而已。

但事實(shí)并非如此?,F(xiàn)代科學(xué)基于數(shù)學(xué),現(xiàn)代數(shù)學(xué)基于范疇論,而范疇論中最重要的定理就是米田引理。我寫的這個(gè)式子將米田引理的同構(gòu)式拆開(kāi)變成了不對(duì)稱的版本,卻正好和大模型的打開(kāi)方式完全一致。

我認(rèn)為這一定不是巧合。如果范疇論可以照耀現(xiàn)代數(shù)學(xué)的各個(gè)分支,它也一定可以照亮通用人工智能的前進(jìn)之路。

本文靈感源于與北京智源人工智能研究院千方團(tuán)隊(duì)的長(zhǎng)期緊密合作。

原文鏈接:https://mp.weixin.qq.com/s/bKf3JADjAveeJDjFzcDbkw

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-11-03 07:47:12

機(jī)器資源大模型:

2025-04-17 09:12:00

2023-10-07 08:28:06

語(yǔ)言模型代碼技術(shù)

2018-06-13 10:04:46

2025-04-23 12:09:25

RL大模型進(jìn)化

2024-04-10 08:15:17

模型語(yǔ)言模型GPT

2025-04-02 01:25:00

2024-12-18 08:33:01

2025-03-21 09:35:29

2024-09-20 10:02:12

2010-08-10 13:04:10

2013-07-25 10:50:49

2024-09-13 10:06:21

2023-12-04 14:28:15

模型應(yīng)用設(shè)計(jì)

2025-04-02 08:40:00

人工智能大模型AI

2024-07-22 08:10:00

數(shù)據(jù)模型

2013-07-29 16:08:02

2020-05-13 15:09:41

手機(jī)小廠們手機(jī)市場(chǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)