Transformer要變Kansformer?用了幾十年的MLP迎來挑戰(zhàn)者KAN 精華
多層感知器(MLP),也被稱為全連接前饋神經(jīng)網(wǎng)絡(luò),是當(dāng)今深度學(xué)習(xí)模型的基礎(chǔ)構(gòu)建塊。
MLP 的重要性無論怎樣強調(diào)都不為過,因為它們是機器學(xué)習(xí)中用于逼近非線性函數(shù)的默認(rèn)方法。
然而,MLP 是否就是我們能夠構(gòu)建的最佳非線性回歸器呢?盡管 MLP 被廣泛使用,但它們存在明顯的缺陷。例如,在 Transformer 模型中,MLP 幾乎消耗了所有非嵌入式參數(shù),并且通常在沒有后處理分析工具的情況下,相對于注意力層來說,它們的可解釋性較差。
所以,是否有一種 MLP 的替代選擇?
今天,KAN 出現(xiàn)了。
這是一個靈感來源于 Kolmogorov-Arnold 表示定理的網(wǎng)絡(luò)。
- 鏈接:https://arxiv.org/pdf/2404.19756
- Github:https://github.com/KindXiaoming/pykan
該研究一經(jīng)發(fā)布,就在國外社交平臺引起了廣泛的關(guān)注與討論。
有網(wǎng)友稱,Kolmogorov 早在 1957 年就發(fā)現(xiàn)了多層神經(jīng)網(wǎng)絡(luò),比 Rumerhart、Hinton 和 William 的 1986 年論文發(fā)表的時間要早得多,但他卻被西方忽視了。
也有網(wǎng)友表示,這篇論文發(fā)布意味著深度學(xué)習(xí)的喪鐘已經(jīng)敲響。
有網(wǎng)友思考,該研究是否會像 Transformer 的論文一樣具有顛覆性。
但也有作者表示,他們在 2018-19 年就基于改進的 Kolmogrov-Gabor 技術(shù)做了同樣的事。
接下來,讓我們看下這篇論文講了什么?
論文概覽
本文提出了一種有前景的多層感知器(MLP)的替代方案,稱為 Kolmogorov-Arnold Networks(KAN)。MLP 的設(shè)計靈感來源于通用近似定理,而 KAN 的設(shè)計靈感則來源于 Kolmogorov-Arnold 表示定理。與 MLP 類似,KAN 擁有全連接的結(jié)構(gòu)。然而,MLP 在節(jié)點(神經(jīng)元)上放置固定激活函數(shù),KAN 則在邊(權(quán)重)上放置可學(xué)習(xí)的激活函數(shù),如圖 0.1 所示。因此,KAN 完全沒有線性權(quán)重矩陣:每個權(quán)重參數(shù)都被替換為一個可學(xué)習(xí)的一維函數(shù),參數(shù)化為樣條(spline)。KAN 的節(jié)點僅對傳入信號進行求和,而不應(yīng)用任何非線性變換。
有人可能擔(dān)心 KAN 的成本過高,因為每個 MLP 的權(quán)重參數(shù)都變成了 KAN 的樣條函數(shù)。不過,KAN 允許的計算圖比 MLP 要小得多。例如,研究者展示了 PED 求解:一個兩層寬度為 10 的 KAN 比一個四層寬度為 100 的 MLP 精確 100 倍(MSE 分別為 10^-7 和 10^-5 ),并且在參數(shù)效率上也提高了 100 倍(參數(shù)量分別為 10^2 和 10^4 )。
使用 Kolmogorov-Arnold 表示定理來構(gòu)建神經(jīng)網(wǎng)絡(luò)的可能性已經(jīng)被研究過。不過大多數(shù)工作都停留在原始的深度為 2、寬度為 (2n + 1) 的表示上,并且沒有機會利用更現(xiàn)代的技術(shù)(例如,反向傳播)來訓(xùn)練網(wǎng)絡(luò)。本文的貢獻在于將原始的 Kolmogorov-Arnold 表示泛化到任意寬度和深度,使其在當(dāng)今的深度學(xué)習(xí)領(lǐng)域煥發(fā)新生,同時利用大量的實證實驗來突出其作為「AI + 科學(xué)」基礎(chǔ)模型的潛在作用,這得益于 KAN 的準(zhǔn)確性和可解釋性。
盡管 KAN 數(shù)學(xué)解釋能力不錯,但實際上它們只是樣條和 MLP 的組合,利用了二者的優(yōu)點,避免了缺點的出現(xiàn)。樣條在低維函數(shù)上準(zhǔn)確度高,易于局部調(diào)整,并且能夠在不同分辨率之間切換。然而,由于樣條無法利用組合結(jié)構(gòu),因此它們存在嚴(yán)重 COD 問題。另一方面,MLP 由于其特征學(xué)習(xí)能力,較少受到 COD 的影響,但在低維空間中卻不如樣條準(zhǔn)確,因為它們無法優(yōu)化單變量函數(shù)。
為了準(zhǔn)確學(xué)習(xí)一個函數(shù),模型不僅應(yīng)該學(xué)習(xí)組合結(jié)構(gòu)(外部自由度),還應(yīng)該很好地近似單變量函數(shù)(內(nèi)部自由度)。KAN 就是這樣的模型,因為它們在外部類似于 MLP,在內(nèi)部類似于樣條。結(jié)果,KAN 不僅可以學(xué)習(xí)特征(得益于它們與 MLP 的外部相似性),還可以將這些學(xué)習(xí)到的特征優(yōu)化到很高的精度(得益于它們與樣條的內(nèi)部相似性)。
例如,對于一個高維函數(shù):
當(dāng) N 很大時,樣條會因為 COD 而失??;MLP 雖然有可能學(xué)習(xí)到廣義的加性結(jié)構(gòu),但使用例如 ReLU 激活函數(shù)來近似指數(shù)和正弦函數(shù)卻非常低效。相比之下,KAN 能夠很好地學(xué)習(xí)組合結(jié)構(gòu)和單變量函數(shù),因此以很大的優(yōu)勢超越了 MLP(見圖 3.1)。
在本篇論文中,研究者展示了大量的實驗數(shù)值,體現(xiàn)了 KAN 在準(zhǔn)確性和可解釋性方面對 MLP 的顯著改進。論文的結(jié)構(gòu)如下圖 2.1 所示。代碼可在 https://github.com/KindXiaoming/pykan 獲取,也可以通過 pip install pykan 安裝。
Kolmogorov-Arnold 網(wǎng)絡(luò) (KAN)
Kolmogorov-Arnold 表示定理
Vladimir Arnold 和 Andrey Kolmogorov 證明了,如果 f 是一個在有界域上的多變量連續(xù)函數(shù),那么 f 可以寫成一個單變量連續(xù)函數(shù)和二元加法運算的有限組合。更具體地說,對于一個平滑的函數(shù) f : [0, 1]^n → R,它可以表示為:
其中
以及
在某種意義上,他們展示了唯一的真正多變量函數(shù)是加法,因為所有其他函數(shù)都可以通過單變量函數(shù)和求和來表示。有人可能會認(rèn)為這對機器學(xué)習(xí)是個好消息:學(xué)習(xí)一個高維函數(shù)可以歸結(jié)為學(xué)習(xí)多項式數(shù)量的一維函數(shù)。然而,這些一維函數(shù)可能是非平滑的,甚至是分形的,因此在實踐中可能無法學(xué)習(xí)。因此,Kolmogorov-Arnold 表示定理在機器學(xué)習(xí)中基本上被判處了死刑,被認(rèn)為是理論上正確但實踐中無用的。
然而,研究者對 Kolmogorov-Arnold 定理在機器學(xué)習(xí)中的實用性持更樂觀的態(tài)度。首先,不必堅持原始的方程,它只有兩層非線性和一個隱藏層中的少量項(2n + 1):研究者將將網(wǎng)絡(luò)泛化為任意寬度和深度。其次,科學(xué)和日常生活中的大多數(shù)函數(shù)通常是平滑的,并且具有稀疏的組合結(jié)構(gòu),這可能有助于平滑的 Kolmogorov-Arnold 表示。
KAN 架構(gòu)
假設(shè)有一個監(jiān)督學(xué)習(xí)任務(wù),由輸入輸出對 {x_i , y_i} 組成,研究者希望找到一個函數(shù) f,使得對于所有數(shù)據(jù)點 y_i ≈ f (x_i) 。方程(2.1)意味著,如果能找到適當(dāng)?shù)膯巫兞亢瘮?shù)
和
,那么任務(wù)就完成了。這啟發(fā)研究者設(shè)計一個顯式參數(shù)化方程(2.1)的神經(jīng)網(wǎng)絡(luò)。由于所有要學(xué)習(xí)的函數(shù)都是單變量函數(shù),研究者將每個一維函數(shù)參數(shù)化為 B 樣條曲線,具有可學(xué)習(xí)的局部 B 樣條基函數(shù)的系數(shù)(見圖 2.2 右側(cè))?,F(xiàn)在就有了一個 KAN 的原型,其計算圖完全由方程(2.1)指定,并在圖 0.1(b)中說明(輸入維度 n = 2),它看起來像是一個兩層的神經(jīng)網(wǎng)絡(luò),激活函數(shù)放置在邊而不是節(jié)點上(節(jié)點上執(zhí)行簡單的求和),中間層寬度為 2n + 1。
如前所述,在實踐中,這樣的網(wǎng)絡(luò)被認(rèn)為過于簡單,無法用平滑樣條來任意精確地逼近任何函數(shù)。因此,研究者將 KAN 泛化為更寬和更深的網(wǎng)絡(luò)。由于 Kolmogorov-Arnold 表示對應(yīng)于兩層 KAN,因此如何使 KAN 更深尚不清楚。
突破點在于研究者注意到了 MLP 和 KAN 之間的類比。在 MLP 中,一旦定義了一個層(由線性變換和非線性組成),就可以堆疊更多的層來使網(wǎng)絡(luò)更深。要構(gòu)建深度 KAN,首先應(yīng)該回答:「什么是一個 KAN 層?」研究者發(fā)現(xiàn),一個具有 n_in 維度輸入和 n_out 維度輸出的 KAN 層可以被定義為一個一維函數(shù)矩陣。
其中函數(shù)
具有可訓(xùn)練參數(shù),如下所述。在 Kolmogorov-Arnold 定理中,內(nèi)層函數(shù)形成一個 KAN 層,其中 n_in = n 和 n_out = 2n+1,外層函數(shù)形成一個 KAN 層,其中 n_in = 2n + 1 和 n_out = 1。因此,方程(2.1)中的 Kolmogorov-Arnold 表示僅僅是兩個 KAN 層的組合。現(xiàn)在,擁有更深的 Kolmogorov-Arnold 表示意味著:只需堆疊更多的 KAN 層!
更進一步理解需要引入一些符號,你可以參考圖 2.2(左)來獲得具體示例和直觀理解。KAN 的形狀由一個整數(shù)數(shù)組表示:
其中,n_i 是計算圖第 i 層的節(jié)點數(shù)。這里用 (l, i) 表示第 l 層的第 i 個神經(jīng)元,用 x_l,i 表示 (l, i) 神經(jīng)元的激活值。在第 l 層和第 l + 1 層之間,有 n_l*n_l+1 個激活函數(shù):連接 (l, j) 和 (l + 1, i) 的激活函數(shù)表示為
函數(shù) ?_l,i,j 的預(yù)激活值簡單表示為 x_l,i;?_l,i,j 的后激活值為
≡ ?_l,i,j (x_l,i)。第 (l + 1, j) 神經(jīng)元的激活值是所有傳入后激活值的總和:
用矩陣形式表示如下:
其中,Φ_l 是對應(yīng)于第 l 層 KAN 層的函數(shù)矩陣。一個通用的 KAN 網(wǎng)絡(luò)是 L 層的組合:給定一個輸入向量 x_0 ∈ R^n0,KAN 的輸出是
上述方程也可以寫成類似于方程(2.1)的形勢,假設(shè)輸出維度 n_L = 1,并定義 f (x) ≡ KAN (x):
這樣寫起來相當(dāng)繁瑣。相比之下,研究者對 KAN 層的抽象及其可視化更加簡潔直觀。原始的 Kolmogorov-Arnold 表示公式(2.1)對應(yīng)于形狀為 [n, 2n + 1, 1] 的 2 層 KAN。請注意,所有操作都是可微分的,因此可以用反向傳播來訓(xùn)練 KAN。作為比較,MLP 可以寫成仿射變換 W 和非線性 σ 的交織:
很明顯,MLP 將線性變換和非線性分別處理為 W 和 σ,而 KAN 則將它們一并處理為 Φ。在圖 0.1 (c) 和 (d) 中,研究者展示了三層 MLP 和三層 KAN,以說明它們之間的區(qū)別。
KAN 的準(zhǔn)確性
在論文中,作者還證明了在各種任務(wù)(回歸和偏微分方程求解)中,KAN 在表示函數(shù)方面比 MLP 更有效。而且他們還表明 KAN 可以自然地在持續(xù)學(xué)習(xí)中發(fā)揮作用,而不會出現(xiàn)災(zāi)難性遺忘。
toy 數(shù)據(jù)集
我們在圖 3.1 中繪制了 KAN 和 MLP 的測試 RMSE 作為參數(shù)數(shù)量的函數(shù),展示了 KAN 比 MLP 有更好的縮放曲線,特別是在高維示例中。為了比較,作者繪制了根據(jù)他們的 KAN 理論預(yù)測的線條,為紅色虛線(α = k + 1 = 4),以及根據(jù) Sharma & Kaplan [17] 預(yù)測的線條,為黑色虛線(α = (k + 1)/d = 4/d)。KAN 幾乎可以填滿更陡峭的紅色線條,而 MLP 甚至難以以更慢的黑色線條的速度收斂,并迅速達到平臺期。作者還注意到,對于最后一個示例,2 層 KAN 的表現(xiàn)遠不如 3 層 KAN(形狀為 [4, 2, 2, 1])。這突出了更深的 KAN 有更強的表達能力,對于 MLP 也是如此:更深的 MLP 比更淺的 MLP 具有更強的表達能力。
特殊函數(shù)
我們在這部分展示了以下兩點:
(1) 找到特殊函數(shù)的(近似)緊湊的 KA 表示是可能的,這從 Kolmogorov-Arnold 表示的角度揭示了特殊函數(shù)的新數(shù)學(xué)屬性。
(2) 在表示特殊函數(shù)方面,KAN 比 MLP 更有效、更準(zhǔn)確。
對于每個數(shù)據(jù)集和每個模型族(KAN 或 MLP),作者在參數(shù)數(shù)量和 RMSE 平面上繪制了帕累托邊界,如圖 3.2 所示。
KAN 的性能一致優(yōu)于 MLP,即在相同數(shù)量的參數(shù)下,KAN 能夠?qū)崿F(xiàn)比 MLP 更低的訓(xùn)練 / 測試損失。此外,作者在表 2 中報告了他們自動發(fā)現(xiàn)的特殊函數(shù)的 KAN(出人意料地緊湊)的形狀。一方面,從數(shù)學(xué)上解釋這些緊湊表示的意義是有趣的。另一方面,這些緊湊表示意味著有可能將一個高維查找表分解為幾個一維查找表,這可以潛在地節(jié)省大量內(nèi)存,而在推理時執(zhí)行一些加法運算的開銷(幾乎可以忽略不計)。
Feynman 數(shù)據(jù)集
上上節(jié)的設(shè)置是我們清楚地知道「真實」的 KAN 形狀。上節(jié)的設(shè)置是我們顯然不知道「真實」的 KAN 形狀。這一部分研究了一個中間的設(shè)置:給定數(shù)據(jù)集的結(jié)構(gòu),我們可能手工構(gòu)建 KAN,但我們不確定它們是否最優(yōu)。
對于每種超參數(shù)組合,作者嘗試了 3 個隨機種子。對于每個數(shù)據(jù)集(方程)和每種方法,他們在表 3 中報告了最佳模型(最小 KAN 形狀或最低測試損失)在隨機種子和深度上的結(jié)果。
他們發(fā)現(xiàn) MLP 和 KAN 平均表現(xiàn)相當(dāng)。對于每個數(shù)據(jù)集和每個模型族(KAN 或 MLP),作者在參數(shù)數(shù)量和 RMSE 損失構(gòu)成的平面上繪制了帕累托邊界,如圖 D.1 所示。他們推測費曼數(shù)據(jù)集太簡單,無法讓 KAN 做出進一步改進,在這個意義上,變量依賴通常是平滑的或單調(diào)的,這與特殊函數(shù)的復(fù)雜性形成對比,特殊函數(shù)經(jīng)常表現(xiàn)出振蕩行為。
解決偏微分方程
作者使用相同的超參數(shù),比較了 KAN 與 MLP 架構(gòu)。他們測量了 L^2 norm 和能量(H^1)norm 的誤差,并觀察到 KAN 在使用更小的網(wǎng)絡(luò)和更少的參數(shù)的情況下,實現(xiàn)了更好的 scaling law 和更小的誤差,見圖 3.3。因此,他們推測 KAN 可能有潛力作為偏微分方程(PDE)模型約簡的良好神經(jīng)網(wǎng)絡(luò)表示。
持續(xù)學(xué)習(xí)
作者展示了 KAN 具有局部可塑性,并且可以通過利用 spline 的局部性來避免災(zāi)難性遺忘。這個想法很簡單:由于 spline 基是局部的,一個樣本只會影響少數(shù)附近的 spline 系數(shù),同時保持遠處的系數(shù)不變(這是我們希望的,因為遠處的區(qū)域可能已經(jīng)存儲了我們想要保留的信息)。相比之下,由于 MLP 通常使用全局激活函數(shù),例如 ReLU/Tanh/SiLU 等,任何局部變化都可能無法控制地傳播到遠處的區(qū)域,破壞那里存儲的信息。
作者使用了一個簡單的示例來驗證這種直覺。一個一維回歸任務(wù)由 5 個高斯峰組成。每個峰周圍的數(shù)據(jù)是順序呈現(xiàn)的(而不是一次性全部呈現(xiàn)),如圖 3.4 頂部行所示,這些數(shù)據(jù)分別呈現(xiàn)給 KAN 和 MLP。KAN 和 MLP 在每個訓(xùn)練階段后的預(yù)測結(jié)果分別顯示在中間和底部行。正如預(yù)期的那樣,KAN 只重構(gòu)當(dāng)前階段存在數(shù)據(jù)的區(qū)域,而保持之前的區(qū)域不變。相比之下,MLP 在看到新的數(shù)據(jù)樣本后,會重構(gòu)整個區(qū)域,導(dǎo)致災(zāi)難性遺忘。
KAN 是可解釋的
在文章第 4 章,作者展示了 KAN 由于在第 2.5 節(jié)中開發(fā)的技術(shù)而具有可解釋性和互動性。他們想要測試 KAN 的應(yīng)用,不僅在合成任務(wù)(第 4.1 和 4.2 節(jié))上,而且也在現(xiàn)實生活科學(xué)研究中。他們展示了 KANs 能夠(重新)發(fā)現(xiàn)結(jié)理論中的復(fù)雜關(guān)系(第 4.3 節(jié))和凝聚態(tài)物理學(xué)中的相變邊界(第 4.4 節(jié))。由于其準(zhǔn)確性和可解釋性,KAN 有潛力成為 AI + Science 的基礎(chǔ)模型。
討論
在論文中,作者從數(shù)學(xué)基礎(chǔ)、算法和應(yīng)用的角度討論了 KAN 的局限性和未來的發(fā)展方向。
數(shù)學(xué)方面:盡管作者已經(jīng)對 KAN 進行了初步的數(shù)學(xué)分析(定理 2.1),但對它們的數(shù)學(xué)理解仍然非常有限。Kolmogorov-Arnold 表示定理在數(shù)學(xué)上已經(jīng)被徹底研究,但該定理對應(yīng)的 KAN 形狀為 [n, 2n + 1, 1],這是 KAN 的一個非常受限的子類。在更深的 KAN 上的實證成功是否意味著數(shù)學(xué)上的某些基本原理?一個吸引人的廣義 Kolmogorov-Arnold 定理可以定義超出兩層組合的「更深」的 Kolmogorov-Arnold 表示,并可能將激活函數(shù)的平滑度與深度相關(guān)聯(lián)。假設(shè)存在一些函數(shù),它們不能在原始的(深度為 2)Kolmogorov-Arnold 表示中平滑表示,但可能在深度為 3 或更深時平滑表示。我們能否使用這種「Kolmogorov-Arnold 深度」的概念來表征函數(shù)類?
算法方面,他們討論了以下幾點:
準(zhǔn)確性。在架構(gòu)設(shè)計和訓(xùn)練中存在多種選擇,尚未完全研究,因此可能存在進一步提高準(zhǔn)確性的替代方案。例如,spline 激活函數(shù)可能被徑向基函數(shù)或其他局部核函數(shù)所取代??梢允褂米赃m應(yīng)網(wǎng)格策略。
效率。KAN 運行緩慢的主要原因之一是因為不同的激活函數(shù)不能利用批計算(大量數(shù)據(jù)通過同一個函數(shù))。實際上,我們可以通過將激活函數(shù)分組為多組(「多頭」),在 MLP(所有激活函數(shù)都相同)和 KAN(所有激活函數(shù)都不同)之間進行插值,其中組內(nèi)成員共享相同的激活函數(shù)。
KAN 和 MLP 的混合。與 MLP 相比,KAN 有兩個主要區(qū)別:
- (i) 激活函數(shù)位于邊而不是節(jié)點上;
- (ii) 激活函數(shù)是可學(xué)習(xí)的而不是固定的。
哪種改變更能解釋 KAN 的優(yōu)勢?作者在附錄 B 中展示了他們的初步結(jié)果,他們研究了一個模型,該模型具有 (ii),即激活函數(shù)是可學(xué)習(xí)的(像 KAN 一樣),但沒有 (i),即激活函數(shù)位于節(jié)點上(像 MLP 一樣)。此外,人們還可以構(gòu)建另一個模型,其激活函數(shù)是固定的(像 MLP 一樣),但位于邊上(像 KAN 一樣)。
自適應(yīng)性。由于 spline 基函數(shù)的固有局部性,我們可以在 KAN 的設(shè)計和訓(xùn)練中引入自適應(yīng)性,以提高準(zhǔn)確性和效率:參見 [93, 94] 中的多級訓(xùn)練思想,如多重網(wǎng)格方法,或 [95] 中的領(lǐng)域依賴基函數(shù),如多尺度方法。
應(yīng)用方面:作者已經(jīng)提出了一些初步證據(jù),表明 KAN 在科學(xué)相關(guān)任務(wù)中比 MLP 更有效,例如擬合物理方程和解決 PDE。他們預(yù)計 KAN 在解決 Navier-Stokes 方程、密度泛函理論或任何可以表述為回歸或 PDE 解決的其他任務(wù)方面也可能很有前景。他們還希望將 KAN 應(yīng)用于與機器學(xué)習(xí)相關(guān)的任務(wù),這將需要將 KAN 集成到當(dāng)前的架構(gòu)中,例如 transformer—— 人們可以提出「kansformers」,在 transformer 中用 KAN 替換 MLP。
KAN 作為 AI + Science 的語言模型:大型語言模型之所以具有變革性,是因為它們對任何能夠使用自然語言的人來說都是有用的??茖W(xué)的語言是函數(shù)。KAN 由可解釋的函數(shù)組成,所以當(dāng)一個人類用戶凝視一個 KAN 時,它就像使用函數(shù)語言與它交流一樣。這一段旨在強調(diào) AI - 科學(xué)家合作范式,而不是特定的工具 KAN。就像人們使用不同的語言進行交流一樣,作者預(yù)計在未來 KAN 只是 AI + 科學(xué)的語言之一,盡管 KAN 將是使 AI 和人類能夠交流的第一批語言之一。然而,由于 KAN 的啟用,AI - 科學(xué)家合作范式從未如此簡單方便,這讓我們重新思考我們想要如何接近 AI + 科學(xué):我們想要 AI 科學(xué)家,還是我們想要幫助科學(xué)家的 AI?(完全自動化的)AI 科學(xué)家的內(nèi)在困難在于很難將人類偏好量化,這將把人類偏好編入 AI 目標(biāo)。事實上,不同領(lǐng)域的科學(xué)家可能對哪些函數(shù)是簡單或可解釋的有不同的感覺。因此,科學(xué)家擁有一個能夠使用科學(xué)語言(函數(shù))的 AI,并可以方便地與個別科學(xué)家的歸納偏置互動以適應(yīng)特定科學(xué)領(lǐng)域,是更可取的。
關(guān)鍵問題:用 KAN 還是 MLP?
目前,KAN 的最大瓶頸在于其訓(xùn)練速度慢。在相同數(shù)量的參數(shù)下,KAN 的訓(xùn)練耗時通常是 MLP 的 10 倍。作者表示,誠實地說,他們并沒有努力優(yōu)化 KAN 的效率,所以他們認(rèn)為 KAN 訓(xùn)練速度慢更像是一個未來可以改進的工程問題,而不是一個根本性的限制。如果某人想要快速訓(xùn)練模型,他應(yīng)該使用 MLP。然而,在其他情況下,KAN 應(yīng)該與 MLP 相當(dāng)或更好,這使得它們值得嘗試。圖 6.1 中的決策樹可以幫助決定何時使用 KAN。簡而言之,如果你關(guān)心可解釋性和 / 或準(zhǔn)確性,并且慢速訓(xùn)練不是主要問題,作者建議嘗試 KAN。
更多細節(jié),請閱讀原論文。
本文轉(zhuǎn)自 機器之心 ,作者:機器之心
