CVPR‘24全程滿(mǎn)分+最佳論文候選!上交大港中文等提出神經(jīng)場(chǎng)網(wǎng)格模型三大定理
在CV、ML等領(lǐng)域經(jīng)常用到的神經(jīng)場(chǎng)網(wǎng)格模型,如今有了理論框架描述其訓(xùn)練動(dòng)力學(xué)和泛化性能。
來(lái)自上交大,港中文和酷哇科技的研究人員,對(duì)用來(lái)表示神經(jīng)場(chǎng)的網(wǎng)格模型進(jìn)行了詳盡的理論分析,還提出了新的模型。
該項(xiàng)目不僅在盲審階段獲得了三位審稿人一致的滿(mǎn)分意見(jiàn)(5/5/5), 還獲得了CVPR24最佳論文提名。
作者指出,利用網(wǎng)格模型來(lái)表示神經(jīng)場(chǎng)是一種常見(jiàn)的技術(shù),但對(duì)這些模型的系統(tǒng)分析仍然缺失,阻礙了這些模型的改進(jìn)。
對(duì)此,作者基于正切核理論(GTK)提出了新的框架,促進(jìn)了對(duì)各種基于網(wǎng)格模型的一致和系統(tǒng)的分析。
此外,該框架還激發(fā)了一個(gè)名為乘法傅里葉自適應(yīng)網(wǎng)格(MulFAGrid)的新型模型,具有強(qiáng)大的泛化性能。
本工作也即將在Jittor深度學(xué)習(xí)框架平臺(tái)進(jìn)行實(shí)現(xiàn)和開(kāi)源,接下來(lái)就來(lái)一起了解下。
提出網(wǎng)格模型新理論框架
首先了解一下什么是神經(jīng)場(chǎng)。
神經(jīng)場(chǎng)是基于坐標(biāo)的網(wǎng)絡(luò),表示一個(gè)場(chǎng),實(shí)質(zhì)上是一種連續(xù)參數(shù)化,代表一個(gè)物體或場(chǎng)景的物理量。
神經(jīng)場(chǎng)在計(jì)算機(jī)視覺(jué)和其他研究領(lǐng)域的各種任務(wù)中顯示出了顯著的成功,其典型應(yīng)用如下圖所示:
神經(jīng)場(chǎng)有多種不同的模型類(lèi)型,作者的研究主要針對(duì)其中的網(wǎng)格模型(grid-based models)展開(kāi)。
網(wǎng)格模型在參數(shù)化和功能上與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(如MLP)有根本不同,主要包括:
- MLP往往包含多層非線(xiàn)性神經(jīng)網(wǎng)絡(luò);
- MLP沒(méi)有顯式查詢(xún)的過(guò)程;
- MLP的輸入不一定是位置坐標(biāo)。
而網(wǎng)格模型以查詢(xún)坐標(biāo)為輸入,該坐標(biāo)被發(fā)送到下標(biāo)函數(shù)以從網(wǎng)格中獲取一組特征向量。
然后,模型輸出核函數(shù)和這些特征向量的加權(quán)平均值,該模型需要學(xué)習(xí)參數(shù)的主要是特征向量。
最簡(jiǎn)單的核函數(shù)是不含參數(shù)的插值算法(如最近鄰算法或者雙線(xiàn)性插值算法),核函數(shù)里面也可以包含可學(xué)習(xí)的參數(shù)。
為了更好地理解和增強(qiáng)網(wǎng)格模型,作者通過(guò)三個(gè)主要問(wèn)題進(jìn)行了研究:
- 如何理解網(wǎng)格模型的訓(xùn)練動(dòng)態(tài)?
- 如何衡量網(wǎng)格模型的泛化性能?
- 如何設(shè)計(jì)一個(gè)更好的網(wǎng)格模型?
為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了一個(gè)基于正切核(Tangent Kernels)的理論框架。
正切核這一概念來(lái)自于著名的深度學(xué)習(xí)理論文章神經(jīng)正切核(Neural Tangent Kernels,NTK)。
NTK 是一種核函數(shù),最初由研究者在研究神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程時(shí)提出的。
當(dāng)神經(jīng)網(wǎng)絡(luò)在參數(shù)空間中靠近其初始值時(shí),通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)梯度下降優(yōu)化過(guò)程的分析,發(fā)現(xiàn)網(wǎng)絡(luò)的行為可以用一個(gè)固定的核函數(shù)來(lái)描述,這個(gè)核函數(shù)就是神經(jīng)正切核。比如神經(jīng)網(wǎng)絡(luò)的輸出可以用其參數(shù)的梯度來(lái)表示。
在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)參數(shù)的更新會(huì)導(dǎo)致輸出的變化,而這種變化在參數(shù)空間中的變化速率可以用梯度來(lái)表示。NTK 定義了兩個(gè)輸入數(shù)據(jù)點(diǎn)的輸出變化之間的相似度。
形式上,對(duì)于輸入數(shù)據(jù)點(diǎn)xi和xj,神經(jīng)正切核Θ(xi,xj)可以定義為網(wǎng)絡(luò)輸出對(duì)參數(shù)的梯度的內(nèi)積:
其中,f(x,θ)是神經(jīng)網(wǎng)絡(luò)的輸出,θ是網(wǎng)絡(luò)的參數(shù)。
理論結(jié)果表明,網(wǎng)格模型的近似和泛化性能與網(wǎng)格切線(xiàn)核(GTK)有關(guān)。
GTK被定義為一個(gè)正半定矩陣,它測(cè)量梯度空間中兩個(gè)數(shù)據(jù)點(diǎn)之間的距離。
下面的式子展示了GTK的定義:g是由w(t)參數(shù)化的網(wǎng)格模型,X是一個(gè)數(shù)據(jù)集,其中Xi是第i個(gè)數(shù)據(jù)。GTK可以這樣表示:
注意這個(gè)形式跟神經(jīng)正切核(NTK)的形式是吻合的,因?yàn)樗麄兌际钦泻耍麄兊闹饕獏^(qū)別是適用的模型不同,GTK主要適用于網(wǎng)格模型。
后面可以看出,因?yàn)榫W(wǎng)格模型本質(zhì)上比較簡(jiǎn)單純粹,所以GTK的理論基本不需要近似,但是NTK的理論需要網(wǎng)絡(luò)無(wú)窮寬的假設(shè)才能成立。
研究團(tuán)隊(duì)得到的的定理一(網(wǎng)格模型優(yōu)化定理)說(shuō)明,網(wǎng)格模型的模型參數(shù)根據(jù)微分方程(如下面方程所示)演化。
這里O(t)表示網(wǎng)格模型的輸出,G(t)表示網(wǎng)格模型的GTK,而這里的Y表示數(shù)據(jù)集的標(biāo)簽(向量化,Yi表示第i個(gè)數(shù)據(jù)的標(biāo)簽)。
這里簡(jiǎn)單對(duì)這個(gè)定理進(jìn)行一個(gè)證明,模型的參數(shù)在梯度下降算法下按照下面的公式進(jìn)行迭代:
此時(shí)考慮一個(gè)L2損失函數(shù)L,它的梯度將被運(yùn)用于更新模型參數(shù),因此我有:
結(jié)合上面兩個(gè)方程,可以得到:
這里藍(lán)色方框里就是我們關(guān)心的GTK。這個(gè)定理有什么意義呢?
直觀(guān)地講,有了這個(gè)定理我們就可以預(yù)測(cè)模型的效果,也就是說(shuō)不用親自“煉丹”就能確定模型的好壞。
下面這張圖小結(jié)了定理一的內(nèi)容。
接下來(lái),研究團(tuán)隊(duì)又提出了另一個(gè)定理——GTK不變定理。
定理2指出,網(wǎng)格模型的GTK在訓(xùn)練期間保持不變。這意味著無(wú)論網(wǎng)格模型的大小如何,初始GTK在整個(gè)訓(xùn)練過(guò)程中保持恒定。
這一定理揭示了GTK是由模型和數(shù)據(jù)集決定的一個(gè)內(nèi)在特性,與模型的訓(xùn)練過(guò)程無(wú)關(guān),有了這個(gè)定理,自然也不難理解網(wǎng)格模型的很多性質(zhì)都與GTK有關(guān)了。
定理三則可以描述網(wǎng)格模型的泛化性能。
在理論深度學(xué)習(xí)中,泛化性能的好壞通常由泛化界(generalization bound)來(lái)刻畫(huà)。
該定理揭示了網(wǎng)格模型的泛化界由一個(gè)特定的度量Δ決定,而Δ = Y^T·G^(-1)·Y,與網(wǎng)格模型的GTK和數(shù)據(jù)集的標(biāo)簽有關(guān)。
形式化的說(shuō),該泛化界提供了模型性能的概率保證。該定理說(shuō)明了模型的泛化性能既與GTK有關(guān),也與數(shù)據(jù)集的結(jié)構(gòu)有關(guān)。結(jié)合該定理與GTK的特征值,可以獲得更多關(guān)于泛化性能的信息。
基于GTK的全新網(wǎng)格模型及實(shí)驗(yàn)結(jié)果
GTK理論可以為具有更好訓(xùn)練和泛化性能的網(wǎng)格模型的設(shè)計(jì)賦能,研究團(tuán)隊(duì)也基于該理論審計(jì)了一種新的網(wǎng)格模型,名為MulFAGrid。
該模型使用傅里葉特征來(lái)提升高頻信號(hào)的學(xué)習(xí),并采用乘法濾波器來(lái)為模型提供節(jié)點(diǎn)信息,示意圖如下:
然后,作者基于GTK理論對(duì)MulFAGrid進(jìn)行了一組數(shù)值實(shí)驗(yàn)。
首先,在頻譜分析中,MulFAGrid顯示了比較寬的頻譜,特別是在高頻域。這一特性導(dǎo)致高頻成分的收斂速度更快。
在這個(gè)實(shí)驗(yàn)中,作者構(gòu)建了一個(gè)包含兩個(gè)數(shù)據(jù)點(diǎn)及其對(duì)應(yīng)標(biāo)簽的數(shù)據(jù)集。MulFAGrid對(duì)于大多數(shù)標(biāo)簽值表現(xiàn)出更緊的泛化界,表明其泛化性能更好。
精確度方面,相對(duì)于各種基線(xiàn)方法和作者的誤差圖,MulFAGrid都提供了更準(zhǔn)確的擬合,展示了其優(yōu)越的性能。
下面的誤差圖衡量了預(yù)測(cè)圖像與真實(shí)圖像的差異。
另外,模型在擬合二維圖像和三維符號(hào)距離函數(shù)(SDF)的性能測(cè)試中,MulFAGrid也顯現(xiàn)出了較高的準(zhǔn)確性和效率。
最后,作者探究了MulFAGrid在新視角合成方面的能力。詳細(xì)結(jié)果表明,MulFAGrid在生成高質(zhì)量的新視角方面表現(xiàn)出色,突顯了其實(shí)際應(yīng)用性。
作者簡(jiǎn)介
本文第一作者趙澤林,在上海交通大學(xué)計(jì)算機(jī)系獲得學(xué)士學(xué)位,即將進(jìn)入佐治亞理工學(xué)院攻讀博士學(xué)位。
趙澤林曾在NeuRIPS,ECCV,CVPR,AAAI等頂會(huì)發(fā)表四篇一作論文,引用數(shù)超過(guò)600。
他所在的ReThinklab實(shí)驗(yàn)室由上海交通大學(xué)人工智能學(xué)院與計(jì)算機(jī)系嚴(yán)駿馳教授創(chuàng)立,主要研究方向是機(jī)器學(xué)習(xí)及交叉應(yīng)用。
嚴(yán)駿馳教授帶領(lǐng)實(shí)驗(yàn)室發(fā)表第一/通訊作者CCF-A類(lèi)論文超百篇,谷歌引用過(guò)萬(wàn)次,獲PaperDigest評(píng)選的最具影響力AAAI21、IJCAI23論文榜首。
嚴(yán)駿馳教授長(zhǎng)期任機(jī)器學(xué)習(xí)三大會(huì)議ICML/NeurIPS/ICLR領(lǐng)域主席,模式識(shí)別旗艦期刊TPAMI、PRJ編委。實(shí)驗(yàn)室學(xué)生獲得挑戰(zhàn)杯特等獎(jiǎng)、CCF優(yōu)博/CV新銳獎(jiǎng)、交大學(xué)術(shù)之星等榮譽(yù)和本科生自然科學(xué)基金。
本文通訊作者來(lái)自香港中文大學(xué)數(shù)學(xué)系研究助理教授范鳳磊博士,他所在的Center for Mathematical AI由曾鐵勇教授創(chuàng)立。中心自2018年成立以來(lái),在中心主任曾鐵勇教授的帶領(lǐng)下,先后承擔(dān)科技部國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目等一系列關(guān)鍵項(xiàng)目。
范鳳磊博士于美國(guó)倫斯勒理工學(xué)院(Rensselaer Polytechnic Institute)獲得博士學(xué)位,導(dǎo)師為國(guó)際知名影像專(zhuān)家王革教授,主要研究方向是腦啟發(fā)智能以及神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)理論,在JMLR,TMI,TNNLS,TCI等雜志發(fā)表論文二十余篇,引用數(shù)過(guò)千。曾獲得IBM AI Horizon Scholarship和國(guó)際神經(jīng)網(wǎng)絡(luò)協(xié)會(huì)(INNS)2021年杰出博士論文獎(jiǎng)。
論文地址:https://arxiv.org/abs/2403.20002
項(xiàng)目主頁(yè):https://sites.google.com/view/cvpr24-2034-submission/home