自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究

發(fā)布于 2024-5-6 09:35
瀏覽
0收藏

一種全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN,誕生了!

?

與傳統(tǒng)的MLP架構(gòu)截然不同,且能用更少的參數(shù)在數(shù)學(xué)、物理問(wèn)題上取得更高精度。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

比如,200個(gè)參數(shù)的KANs,就能復(fù)現(xiàn)DeepMind用30萬(wàn)參數(shù)的MLPs發(fā)現(xiàn)數(shù)學(xué)定理研究。

不僅準(zhǔn)確性更高,并且還發(fā)現(xiàn)了新的公式。要知道后者可是登上Nature封面的研究啊~

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在函數(shù)擬合、偏微分方程求解,甚至處理凝聚態(tài)物理方面的任務(wù)都比MLP效果要好。


而在大模型問(wèn)題的解決上,KAN天然就能規(guī)避掉災(zāi)難性遺忘問(wèn)題,并且注入人類(lèi)的習(xí)慣偏差或領(lǐng)域知識(shí)非常容易。


來(lái)自MIT、加州理工學(xué)院、東北大學(xué)等團(tuán)隊(duì)的研究一出,瞬間引爆一整個(gè)科技圈:Yes We KAN!

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)


全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

甚至直接引出關(guān)于能否替代掉Transformer的MLP層的探討,有人已經(jīng)準(zhǔn)備開(kāi)始嘗試……

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)


全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

有網(wǎng)友表示:這看起來(lái)像是機(jī)器學(xué)習(xí)的下一步。

讓機(jī)器學(xué)習(xí)每個(gè)特定神經(jīng)元的最佳激活,而不是由我們?nèi)祟?lèi)決定使用什么激活函數(shù)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

還有人表示:可能正處于某些歷史發(fā)展的中間。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

GitHub上也已經(jīng)開(kāi)源,也就短短兩三天時(shí)間就收獲1.1kStar。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

對(duì)MLP“進(jìn)行一個(gè)簡(jiǎn)單的更改”

跟MLP最大、也是最為直觀的不同就是,MLP激活函數(shù)是在神經(jīng)元上,而KAN把可學(xué)習(xí)的激活函數(shù)放在權(quán)重上。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在作者看來(lái),這是一個(gè)“簡(jiǎn)單的更改”。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

從數(shù)學(xué)定理方面來(lái)看,MLP的靈感來(lái)自于通用近似定理,即對(duì)于任意一個(gè)連續(xù)函數(shù),都可以用一個(gè)足夠深的神經(jīng)網(wǎng)絡(luò)來(lái)近似。


而KAN則是來(lái)自于 Kolmogorov-Arnold 表示定理 (KART),每個(gè)多元連續(xù)函數(shù)都可以表示為單變量連續(xù)函數(shù)的兩層嵌套疊加。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

KAN的名字也由此而來(lái)。


正是受到這一定理的啟發(fā),研究人員用神經(jīng)網(wǎng)絡(luò)將Kolmogorov-Arnold 表示參數(shù)化。


為了紀(jì)念兩位偉大的已故數(shù)學(xué)家Andrey Kolmogorov和Vladimir Arnold,我們稱(chēng)其為科爾莫格羅夫-阿諾德網(wǎng)絡(luò)(KANs)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

而從算法層面上看,MLPs 在神經(jīng)元上具有(通常是固定的)激活函數(shù),而 KANs 在權(quán)重上具有(可學(xué)習(xí)的)激活函數(shù)。這些一維激活函數(shù)被參數(shù)化為樣條曲線。


在實(shí)際應(yīng)用過(guò)程中,KAN可以直觀地可視化,提供MLP無(wú)法提供的可解釋性和交互性。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

不過(guò),KAN的缺點(diǎn)就是訓(xùn)練速度較慢。


對(duì)于訓(xùn)練速度慢的問(wèn)題,MIT博士生一作Ziming Liu解釋道,主要有兩個(gè)方面的原因。

一個(gè)是技術(shù)原因,可學(xué)習(xí)的激活函數(shù)評(píng)估成本比固定激活函數(shù)成本更高。


另一個(gè)則是主觀原因,因?yàn)轶w內(nèi)物理學(xué)家屬性抑制程序員的個(gè)性,因此沒(méi)有去嘗試優(yōu)化效率。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

對(duì)于是否能適配Transformer,他表示:暫時(shí)不知道如何做到這一點(diǎn)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

以及對(duì)GPU友好嗎?他表示:還沒(méi)有,正在努力中。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

天然能解決大模型災(zāi)難性遺忘

再來(lái)看看KAN的具體實(shí)現(xiàn)效果。


神經(jīng)縮放規(guī)律:KAN 的縮放速度比 MLP 快得多。除了數(shù)學(xué)上以Kolmogorov-Arnold 表示定理為基礎(chǔ),KAN縮放指數(shù)也可以通過(guò)經(jīng)驗(yàn)來(lái)實(shí)現(xiàn)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

函數(shù)擬合方面,KAN比MLP更準(zhǔn)確。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

而在偏微分方程求解,比如求解泊松方程,KAN比MLP更準(zhǔn)確。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

研究人員還有個(gè)意外發(fā)現(xiàn),就是KAN不會(huì)像MLP那樣容易災(zāi)難性遺忘,它天然就可以規(guī)避這個(gè)缺陷。


好好好,大模型的遺忘問(wèn)題從源頭就能解決。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

在可解釋方面,KAN能通過(guò)符號(hào)公式揭示合成數(shù)據(jù)集的組成結(jié)構(gòu)和變量依賴(lài)性。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

人類(lèi)用戶(hù)可以與 KANs 交互,使其更具可解釋性。在 KAN 中注入人類(lèi)的歸納偏差或領(lǐng)域知識(shí)非常容易。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

研究人員利用KANs還重新復(fù)現(xiàn)了DeepMind當(dāng)年登上Nature的結(jié)果,并且還找到了Knot理論中新的公式,并以無(wú)監(jiān)督的方式發(fā)現(xiàn)了新的結(jié)不變式關(guān)系。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

△DeepMind登Nature研究成果

Deepmind的MLP大約300000 個(gè)參數(shù),而KAN大約只有200 個(gè)參數(shù)。KAN 可以立即進(jìn)行解釋?zhuān)?MLP 則需要進(jìn)行特征歸因的后期分析。并且準(zhǔn)確性也更高。


對(duì)于計(jì)算要求,團(tuán)隊(duì)表示論文中的所有例子都可以在單個(gè)CPU上10分鐘內(nèi)重現(xiàn)。


雖然KAN所能處理的問(wèn)題規(guī)模比許多機(jī)器學(xué)習(xí)任務(wù)要小,但對(duì)于科學(xué)相關(guān)任務(wù)來(lái)說(shuō)就剛剛好。


比如研究凝固態(tài)物理中的一種相變:安德森局域化。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

好了,那么KAN是否會(huì)取代Transformer中的MLP層呢?


有網(wǎng)友表示,這取決于兩個(gè)因素。


一點(diǎn)是學(xué)習(xí)算法,如 SGD、AdamW、Sophia 等—能否找到適合 KANs 參數(shù)的局部最小值?


另一點(diǎn)則是能否在GPU上高效地實(shí)現(xiàn)KANs層,最好能比MLPs跟快。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

最后,論文中還貼心的給出了“何時(shí)該選用KAN?”的決策樹(shù)。

全新神經(jīng)網(wǎng)絡(luò)架構(gòu)KAN一夜爆火!200參數(shù)頂30萬(wàn),MIT華人一作,輕松復(fù)現(xiàn)Nature封面AI數(shù)學(xué)研究-AI.x社區(qū)

那么,你會(huì)開(kāi)始嘗試用KAN嗎?還是讓子彈再飛一會(huì)兒~


項(xiàng)目鏈接:
???https://kindxiaoming.github.io/pykan/???
論文鏈接:
???https://arxiv.org/abs/2404.19756???


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/5WFJMPJvtaofeGDxFQ9aDw??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦