自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

反轉(zhuǎn)了?在一場(chǎng)新較量中,號(hào)稱(chēng)替代MLP的KAN只贏(yíng)一局

人工智能 新聞
為了探究 KAN 的潛力,有必要在公平的設(shè)置下全面比較 KAN 和 MLP 了。

多層感知器 (Multi-Layer Perceptrons,MLP) ,也被稱(chēng)為全連接前饋神經(jīng)網(wǎng)絡(luò),是當(dāng)今深度學(xué)習(xí)模型的基本組成部分。MLP 的重要性無(wú)論怎樣強(qiáng)調(diào)都不為過(guò),因?yàn)樗菣C(jī)器學(xué)習(xí)中用于逼近非線(xiàn)性函數(shù)的默認(rèn)方法。

然而,MLP 也存在某些局限性,例如難以解釋學(xué)習(xí)到的表示,以及難以靈活地?cái)U(kuò)展網(wǎng)絡(luò)規(guī)模。

KAN(Kolmogorov–Arnold Networks)的出現(xiàn),為傳統(tǒng) MLP 提供了一種創(chuàng)新的替代方案。該方法在準(zhǔn)確性和可解釋性方面優(yōu)于 MLP,而且,它能以非常少的參數(shù)量勝過(guò)以更大參數(shù)量運(yùn)行的 MLP。

那么,問(wèn)題來(lái)了,KAN 、MLP 到底該選哪一種?有人支持 MLP,因?yàn)?KAN 只是一個(gè)普通的 MLP,根本替代不了,但也有人則認(rèn)為 KAN 更勝一籌,而當(dāng)前對(duì)兩者的比較也是局限在不同參數(shù)或 FLOP 下進(jìn)行的,實(shí)驗(yàn)結(jié)果并不公平。

為了探究 KAN 的潛力,有必要在公平的設(shè)置下全面比較 KAN 和 MLP 了。

為此,來(lái)自新加坡國(guó)立大學(xué)的研究者在控制了 KAN 和 MLP 的參數(shù)或 FLOP 的情況下,在不同領(lǐng)域的任務(wù)中對(duì)它們進(jìn)行訓(xùn)練和評(píng)估,包括符號(hào)公式表示、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、NLP 和音頻處理。在這些公平的設(shè)置下,他們發(fā)現(xiàn) KAN 僅在符號(hào)公式表示任務(wù)中優(yōu)于 MLP,而 MLP 通常在其他任務(wù)中優(yōu)于 KAN。

圖片

  • 論文地址:https://arxiv.org/pdf/2407.16674
  • 項(xiàng)目鏈接:https://github.com/yu-rp/KANbeFair
  • 論文標(biāo)題:KAN or MLP: A Fairer Comparison

作者進(jìn)一步發(fā)現(xiàn),KAN 在符號(hào)公式表示方面的優(yōu)勢(shì)源于其使用的 B - 樣條激活函數(shù)。最初,MLP 的整體性能落后于 KAN,但在用 B - 樣條代替 MLP 的激活函數(shù)后,其性能達(dá)到甚至超過(guò)了 KAN。但是,B - 樣條無(wú)法進(jìn)一步提高 MLP 在其他任務(wù)(如計(jì)算機(jī)視覺(jué))上的性能。

作者還發(fā)現(xiàn),KAN 在連續(xù)學(xué)習(xí)任務(wù)中的表現(xiàn)實(shí)際上并不比 MLP 好。最初的 KAN 論文使用一系列一維函數(shù)比較了 KAN 和 MLP 在連續(xù)學(xué)習(xí)任務(wù)中的表現(xiàn),其中每個(gè)后續(xù)函數(shù)都是前一個(gè)函數(shù)沿?cái)?shù)軸的平移。而本文比較了 KAN 和 MLP 在更標(biāo)準(zhǔn)的類(lèi)遞增持續(xù)學(xué)習(xí)設(shè)置中的表現(xiàn)。在固定的訓(xùn)練迭代條件下,他們發(fā)現(xiàn) KAN 的遺忘問(wèn)題比 MLP 更嚴(yán)重。

圖片

KAN、MLP 簡(jiǎn)單介紹

KAN 有兩個(gè)分支,第一個(gè)分支是 B 樣條分支,另一個(gè)分支是 shortcut 分支,即非線(xiàn)性激活與線(xiàn)性變換連接在一起。在官方實(shí)現(xiàn)中,shortcut 分支是一個(gè) SiLU 函數(shù),后面跟著一個(gè)線(xiàn)性變換。令 x 表示一個(gè)樣本的特征向量。那么,KAN 樣條分支的前向方程可以寫(xiě)成:

圖片

在原始 KAN 架構(gòu)中,樣條函數(shù)被選擇為 B 樣條函數(shù)。每個(gè) B 樣條函數(shù)的參數(shù)與其他網(wǎng)絡(luò)參數(shù)一起學(xué)習(xí)。

相應(yīng)的,單層 MLP 的前向方程可以表示為:

圖片

該公式與 KAN 中的 B 樣條分支公式具有相同的形式,只是在非線(xiàn)性函數(shù)中有所不同。因此,拋開(kāi)原論文對(duì) KAN 結(jié)構(gòu)的解讀,KAN 也可以看作是一種全連接層。

因而,KAN 和普通 MLP 的區(qū)別主要有兩點(diǎn):

  1. 激活函數(shù)不同。通常 MLP 中的激活函數(shù)包括 ReLU、GELU 等,沒(méi)有可學(xué)習(xí)的參數(shù),對(duì)所有輸入元素都是統(tǒng)一的,而在 KAN 中,激活函數(shù)是樣條函數(shù),有可學(xué)習(xí)的參數(shù),并且對(duì)于每個(gè)輸入元素都是不一樣的。
  2. 線(xiàn)性和非線(xiàn)性運(yùn)算的順序。一般來(lái)說(shuō),研究者會(huì)把 MLP 概念化為先進(jìn)行線(xiàn)性變換,再進(jìn)行非線(xiàn)性變換,而 KAN 其實(shí)是先進(jìn)行非線(xiàn)性變換,再進(jìn)行線(xiàn)性變換。但在某種程度上,將 MLP 中的全連接層描述為先非線(xiàn)性,后線(xiàn)性也是可行的。

通過(guò)比較 KAN 和 MLP,該研究認(rèn)為兩者之間的差異主要是激活函數(shù)。因而,他們假設(shè)激活函數(shù)的差異使得 KAN 和 MLP 適用于不同的任務(wù),從而導(dǎo)致兩個(gè)模型在功能上存在差異。為了驗(yàn)證這一假設(shè),研究者比較了 KAN 和 MLP 在不同任務(wù)上的表現(xiàn),并描述了每個(gè)模型適合的任務(wù)。為了確保公平比較,該研究首先推導(dǎo)出了計(jì)算 KAN 和 MLP 參數(shù)數(shù)量和 FLOP 的公式。實(shí)驗(yàn)過(guò)程控制相同數(shù)量的參數(shù)或 FLOP 來(lái)比較 KAN 和 MLP 的性能。

KAN 和 MLP 的參數(shù)數(shù)量及FLOP 

控制參數(shù)數(shù)量

KAN 中可學(xué)習(xí)的參數(shù)包括 B 樣條控制點(diǎn)、shortcut 權(quán)重、B 樣條權(quán)重和偏置項(xiàng)??偟目蓪W(xué)習(xí)參數(shù)數(shù)量為:

圖片

其中, d_in 和 d_out 表示神經(jīng)網(wǎng)絡(luò)層的輸入和輸出維度,K 表示樣條的階數(shù),它與官方 nn.Module KANLayer 的參數(shù) k 相對(duì)應(yīng),它是樣條函數(shù)中多項(xiàng)式基礎(chǔ)的階數(shù)。G 表示樣條間隔數(shù),它對(duì)應(yīng)于官方 nn.Module KANLayer 的 num 參數(shù)。它是填充前 B 樣條曲線(xiàn)的間隔數(shù)。在填充之前,它等于控制點(diǎn)的數(shù)量 - 1。在填充后,應(yīng)該有 (K +G) 個(gè)有效控制點(diǎn)。

相應(yīng)的,一個(gè) MLP 層的可學(xué)習(xí)參數(shù)是:

圖片

KAN 和 MLP 的 FLOP

在作者的評(píng)估中,任何算術(shù)操作的 FLOP 被考慮為 1,而布爾操作的 FLOP 被考慮為 0。De Boor-Cox 算法中的 0 階操作可以轉(zhuǎn)換為一系列布爾操作,這些操作不需要進(jìn)行浮點(diǎn)運(yùn)算。因此,從理論上講,其 FLOP 為 0。這與官方 KAN 實(shí)現(xiàn)不同,在官方實(shí)現(xiàn)中,它將布爾數(shù)據(jù)轉(zhuǎn)換回浮點(diǎn)數(shù)據(jù)來(lái)進(jìn)行操作。

在作者的評(píng)估中,F(xiàn)LOP 是針對(duì)一個(gè)樣本計(jì)算的。官方 KAN 代碼中使用 De Boor-Cox 迭代公式實(shí)現(xiàn)的 B 樣條 FLOP 為:

圖片

連同 shortcut 路徑的 FLOP 以及合并兩個(gè)分支的 FLOP,一個(gè) KAN 層的總 FLOP 是:

 圖片

相應(yīng)的,一個(gè) MLP 層的 FLOP 為:

圖片

具有相同輸入維度和輸出維度的 KAN 層與 MLP 層之間的 FLOP 差異可以表示為:

如果 MLP 也首先進(jìn)行非線(xiàn)性操作,那么首項(xiàng)將為零。

 實(shí)驗(yàn)

作者的目標(biāo)是,在參數(shù)數(shù)量或 FLOP 相等的前提下,對(duì)比 KAN 和 MLP 的性能差異。該實(shí)驗(yàn)涵蓋多個(gè)領(lǐng)域,包括機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、音頻處理以及符號(hào)公式表示。所有實(shí)驗(yàn)都采用了 Adam 優(yōu)化器,這些實(shí)驗(yàn)全部在一塊 RTX3090 GPU 上進(jìn)行。

性能比較

機(jī)器學(xué)習(xí)。作者在 8 個(gè)機(jī)器學(xué)習(xí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),使用了具有一到兩個(gè)隱藏層的 KAN 和 MLP,根據(jù)各個(gè)數(shù)據(jù)集的特點(diǎn),他們調(diào)整了神經(jīng)網(wǎng)絡(luò)的輸入和輸出維度。

對(duì)于 MLP,隱藏層寬度設(shè)置為 32、64、128、256、512 或 1024,并采用 GELU 或 ReLU 作為激活函數(shù),同時(shí)在 MLP 中使用了歸一化層。對(duì)于 KAN,隱藏層寬度則為 2、4、8 或 16,B 樣條網(wǎng)格數(shù)為 3、5、10 或 20,B 樣條的度數(shù)(degree)為 2、3 或 5。

由于原始 KAN 架構(gòu)不包括歸一化層,為了平衡 MLP 中歸一化層可能帶來(lái)的優(yōu)勢(shì),作者擴(kuò)大了 KAN 樣條函數(shù)的取值范圍。所有實(shí)驗(yàn)都進(jìn)行了 20 輪訓(xùn)練,實(shí)驗(yàn)記錄了訓(xùn)練過(guò)程中在測(cè)試集上取得的最佳準(zhǔn)確率,如圖 2 和圖 3 所示。

在機(jī)器學(xué)習(xí)數(shù)據(jù)集上,MLP 通常保持優(yōu)勢(shì)。在他們對(duì)八個(gè)數(shù)據(jù)集的實(shí)驗(yàn)中,MLP 在其中的六個(gè)上表現(xiàn)優(yōu)于 KAN。然而,他們也觀(guān)察到在一個(gè)數(shù)據(jù)集上,MLP 和 KAN 的性能幾乎相當(dāng),而在另一個(gè)數(shù)據(jù)集上,KAN 表現(xiàn)則優(yōu)于 MLP。

總體而言,MLP 在機(jī)器學(xué)習(xí)數(shù)據(jù)集上仍然具有普遍優(yōu)勢(shì)。

圖片

圖片

計(jì)算機(jī)視覺(jué)。作者對(duì) 8 個(gè)計(jì)算機(jī)視覺(jué)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。他們使用了具有一到兩個(gè)隱藏層的 KAN 和 MLP,根據(jù)數(shù)據(jù)集的不同,調(diào)整了神經(jīng)網(wǎng)絡(luò)的輸入和輸出維度。

在計(jì)算機(jī)視覺(jué)數(shù)據(jù)集中,KAN 的樣條函數(shù)引入的處理偏差并沒(méi)有起到效果,其性能始終不如具有相同參數(shù)數(shù)量或 FLOP 的 MLP。

圖片


圖片

音頻和自然語(yǔ)言處理。作者在 2 個(gè)音頻分類(lèi)和 2 個(gè)文本分類(lèi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。他們使用了一到兩個(gè)隱藏層的 KAN 和 MLP,并根據(jù)數(shù)據(jù)集的特性,調(diào)整了神經(jīng)網(wǎng)絡(luò)的輸入和輸出維度。

在兩個(gè)音頻數(shù)據(jù)集上,MLP 的表現(xiàn)優(yōu)于 KAN。

在文本分類(lèi)任務(wù)中,MLP 在 AG 新聞數(shù)據(jù)集上保持了優(yōu)勢(shì)。然而,在 CoLA 數(shù)據(jù)集上,MLP 和 KAN 之間的性能沒(méi)有顯著差異。當(dāng)控制參數(shù)數(shù)量相同時(shí),KAN 在 CoLA 數(shù)據(jù)集上似乎有優(yōu)勢(shì)。然而,由于 KAN 的樣條函數(shù)需要較高的 FLOP,這一優(yōu)勢(shì)在控制 FLOP 的實(shí)驗(yàn)中并未持續(xù)顯現(xiàn)。當(dāng)控制 FLOP 時(shí),MLP 似乎更勝一籌。因此,在 CoLA 數(shù)據(jù)集上,并沒(méi)有一個(gè)明確的答案來(lái)說(shuō)明哪種模型更好。

總體而言,MLP 在音頻和文本任務(wù)中仍然是更好的選擇。

圖片

圖片

符號(hào)公式表示。作者在 8 個(gè)符號(hào)公式表示任務(wù)中比較了 KAN 和 MLP 的差異。他們使用了一到四個(gè)隱藏層的 KAN 和 MLP,根據(jù)數(shù)據(jù)集調(diào)整了神經(jīng)網(wǎng)絡(luò)的輸入和輸出維度。

在控制參數(shù)數(shù)量的情況下,KAN 在 8 個(gè)數(shù)據(jù)集中的 7 個(gè)上表現(xiàn)優(yōu)于 MLP。在控制 FLOP 時(shí),由于樣條函數(shù)引入了額外的計(jì)算復(fù)雜性,KAN 的性能大致與 MLP 相當(dāng),在兩個(gè)數(shù)據(jù)集上優(yōu)于 MLP,在另一個(gè)數(shù)據(jù)集上表現(xiàn)不如 MLP。

總體而言,在符號(hào)公式表示任務(wù)中,KAN 的表現(xiàn)優(yōu)于 MLP。

圖片

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-05-07 13:07:18

模型訓(xùn)練

2015-12-24 16:33:42

2023-07-24 16:35:42

容器虛擬機(jī)

2024-05-20 08:35:00

模型定理

2015-10-19 18:32:19

2024-12-05 14:40:01

X86ARMCPU

2009-04-10 08:47:34

戴爾智能手機(jī)移動(dòng)OS

2012-08-27 09:42:42

云計(jì)算云時(shí)代大數(shù)據(jù)

2012-02-13 09:29:22

甲骨文安騰惠普

2021-06-26 14:02:04

Windows操作系統(tǒng)設(shè)計(jì)

2024-07-18 09:29:02

2017-03-20 19:40:29

AndroidSwipeRefres下拉刷新

2012-06-04 11:00:45

大數(shù)據(jù)SQLServer20微軟

2013-01-24 11:03:30

2015-05-26 15:17:44

OpenStack

2011-03-08 11:42:56

2021-08-01 22:42:57

區(qū)塊鏈互聯(lián)網(wǎng)技術(shù)

2021-07-06 12:27:36

混合云多云云計(jì)算

2022-11-06 15:56:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)