自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

替代MLP的KAN,被開(kāi)源項(xiàng)目擴(kuò)展到卷積了

人工智能 新聞
KAN 與 MLP 一樣具有強(qiáng)大的數(shù)學(xué)基礎(chǔ),MLP 基于通用逼近定理,而 KAN 基于 Kolmogorov-Arnold 表示定理。

本月初,來(lái)自 MIT 等機(jī)構(gòu)的研究者提出了一種非常有潛力的 MLP 替代方法 ——KAN。

KAN 在準(zhǔn)確性和可解釋性方面表現(xiàn)優(yōu)于 MLP,而且它能以非常少的參數(shù)量勝過(guò)以更大參數(shù)量運(yùn)行的 MLP。比如,作者表示,他們用 KAN 以更小的網(wǎng)絡(luò)和更高的自動(dòng)化程度重現(xiàn)了 DeepMind 的結(jié)果。具體來(lái)說(shuō),DeepMind 的 MLP 有大約 300000 個(gè)參數(shù),而 KAN 只有大約 200 個(gè)參數(shù)。

KAN 與 MLP 一樣具有強(qiáng)大的數(shù)學(xué)基礎(chǔ),MLP 基于通用逼近定理,而 KAN 基于 Kolmogorov-Arnold 表示定理。

如下圖所示,KAN 在邊上具有激活函數(shù),而 MLP 在節(jié)點(diǎn)上具有激活函數(shù)。KAN 似乎比 MLP 的參數(shù)效率更高,但每個(gè) KAN 層比 MLP 層擁有更多的參數(shù)。

最近,有研究者將 KAN 創(chuàng)新架構(gòu)的理念擴(kuò)展到卷積神經(jīng)網(wǎng)絡(luò),將卷積的經(jīng)典線性變換更改為每個(gè)像素中可學(xué)習(xí)的非線性激活函數(shù),提出并開(kāi)源 KAN 卷積(CKAN)。

圖片

項(xiàng)目地址:https://github.com/AntonioTepsich/Convolutional-KANs

KAN 卷積

KAN 卷積與卷積非常相似,但不是在內(nèi)核和圖像中相應(yīng)像素之間應(yīng)用點(diǎn)積,而是對(duì)每個(gè)元素應(yīng)用可學(xué)習(xí)的非線性激活函數(shù),然后將它們相加。KAN 卷積的內(nèi)核相當(dāng)于 4 個(gè)輸入和 1 個(gè)輸出神經(jīng)元的 KAN 線性層。對(duì)于每個(gè)輸入 i,應(yīng)用 ?_i 可學(xué)習(xí)函數(shù),該卷積步驟的結(jié)果像素是 ?_i (x_i) 的總和。

KAN 卷積中的參數(shù)

假設(shè)有一個(gè) KxK 內(nèi)核,對(duì)于該矩陣的每個(gè)元素,都有一個(gè) ?,其參數(shù)計(jì)數(shù)為:gridsize + 1,? 定義為:

這為激活函數(shù) b 提供了更多的可表達(dá)性,線性層的參數(shù)計(jì)數(shù)為 gridsize + 2。因此,KAN 卷積總共有 K^2(gridsize + 2) 個(gè)參數(shù),而普通卷積只有 K^2。

初步評(píng)估

作者測(cè)試過(guò)的不同架構(gòu)有:

  • 連接到 KAN 線性層的 KAN 卷積層(KKAN)
  • 與 MLP 相連的 KAN 卷積層(CKAN)
  • 在卷積之間進(jìn)行批量歸一化的 CKAN (CKAN_BN)
  • ConvNet(連接到 MLP 的經(jīng)典卷積)(ConvNet)
  • 簡(jiǎn)單 MLP

圖片

作者表示,KAN 卷積的實(shí)現(xiàn)是一個(gè)很有前景的想法,盡管它仍處于早期階段。他們進(jìn)行了一些初步實(shí)驗(yàn),以評(píng)估 KAN 卷積的性能。

值得注意的是,之所以公布這些「初步」結(jié)果,是因?yàn)樗麄兿MM快向外界介紹這一想法,推動(dòng)社區(qū)更廣泛的研究。

圖片

卷積層中列表每個(gè)元素都包含卷積數(shù)和相應(yīng)的內(nèi)核大小。

基于 28x28 MNIST 數(shù)據(jù)集,可以觀察到 KANConv & MLP 模型與 ConvNet(大)相比達(dá)到了可接受的準(zhǔn)確度。然而,不同之處在于 KANConv & MLP 所需的參數(shù)數(shù)量是標(biāo)準(zhǔn) ConvNet 所需的參數(shù)數(shù)量的 7 倍。此外,KKAN 的準(zhǔn)確率比 ConvNet Medium 低 0.04,而參數(shù)數(shù)量(94k 對(duì) 157k)幾乎只有 ConvNet Medium 的一半,這顯示了該架構(gòu)的潛力。我們還需要在更多的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),才能對(duì)此得出結(jié)論。

在接下來(lái)的幾天和幾周里,作者還將徹底調(diào)整模型和用于比較的模型的超參數(shù)。雖然已經(jīng)嘗試了一些超參數(shù)和架構(gòu)的變化,但這只是啟發(fā)式的,并沒(méi)有采用任何精確的方法。由于計(jì)算能力和時(shí)間的原因,他們還沒(méi)有使用大型或更復(fù)雜的數(shù)據(jù)集,并正在努力解決這個(gè)問(wèn)題。

未來(lái),作者將在更復(fù)雜的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),這意味著 KANS 的參數(shù)量將會(huì)增加,因?yàn)樾枰獙?shí)現(xiàn)更多的 KAN 卷積層。

結(jié)論

目前,與傳統(tǒng)卷積網(wǎng)絡(luò)相比,作者表示并沒(méi)有看到 KAN 卷積網(wǎng)絡(luò)的性能有顯著提高。他們分析認(rèn)為,這是由于使用的是簡(jiǎn)單數(shù)據(jù)集和模型,與嘗試過(guò)的最佳架構(gòu)(ConvNet Big,基于規(guī)模因素,這種比較是不公平的)相比,該架構(gòu)的優(yōu)勢(shì)在于它對(duì)參數(shù)的要求要少得多。

在 2 個(gè)相同的卷積層和 KAN 卷積層與最后連接的相同 MLP 之間進(jìn)行的比較顯示,經(jīng)典方法略勝一籌,準(zhǔn)確率提高了 0.06,而 KAN 卷積層和 KAN 線性層的參數(shù)數(shù)量幾乎只有經(jīng)典方法的一半,準(zhǔn)確率卻降低了 0.04。

作者表示,隨著模型和數(shù)據(jù)集復(fù)雜度的增加,KAN 卷積網(wǎng)絡(luò)的性能應(yīng)該會(huì)有所提高。同時(shí),隨著輸入維數(shù)的增加,模型的參數(shù)數(shù)量也會(huì)增長(zhǎng)得更快。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2015-08-13 13:44:21

優(yōu)化多核

2009-02-26 10:50:04

NetApp虛擬化VMware ESX

2024-05-07 13:07:18

模型訓(xùn)練

2024-09-18 08:05:00

機(jī)器學(xué)習(xí)AI網(wǎng)絡(luò)

2009-02-25 16:50:00

2024-07-29 08:37:00

模型數(shù)據(jù)

2020-06-05 14:30:03

CephCPU 線程

2020-06-16 11:12:26

醫(yī)療物聯(lián)網(wǎng)IOT

2024-08-21 13:24:21

2013-02-21 09:41:49

CitusData數(shù)據(jù)庫(kù)Postgres

2021-10-25 15:50:42

區(qū)塊鏈金融科技

2023-07-07 09:55:23

互聯(lián)網(wǎng)論文

2023-01-13 16:08:55

2017-05-26 23:09:47

2022-03-23 16:28:18

微軟NVIDIAGPU

2012-10-31 09:32:41

思科思杰ADC

2023-03-08 14:14:51

微軟ChatGPT

2009-11-12 15:19:54

2009-11-12 15:30:44

2019-04-04 09:59:06

服務(wù)器系統(tǒng)Web
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)