將球面深度學(xué)習(xí)擴(kuò)展到高分辨率輸入數(shù)據(jù)
譯文譯者 | 朱先忠
審校 | 孫淑娟
傳統(tǒng)的球面CNN無(wú)法擴(kuò)展到高分辨率分類任務(wù)。在本文中,我們介紹了球面散射層(spherical scattering layers)——一種新型的球面層,它可以降低輸入數(shù)據(jù)的維數(shù),同時(shí)保留相關(guān)信息,同時(shí)還具有旋轉(zhuǎn)等變的特性。
散射網(wǎng)絡(luò)通過(guò)使用小波分析中預(yù)定義的卷積濾波器進(jìn)行工作,而不是從頭開(kāi)始學(xué)習(xí)卷積濾波器。由于散射層的權(quán)重是專門設(shè)計(jì)的而不是通過(guò)學(xué)習(xí)得到的,因此散射層可以用作一次性預(yù)處理步驟,從而降低輸入數(shù)據(jù)的分辨率。我們以往的經(jīng)驗(yàn)表明,配備初始散射層的球面CNN可以擴(kuò)展到數(shù)千萬(wàn)像素的分辨率,這一壯舉以前在傳統(tǒng)球面CNN層中是難以實(shí)現(xiàn)的。
傳統(tǒng)球面深度學(xué)習(xí)方法需要計(jì)算
球面CNN(文獻(xiàn)1,2,3)對(duì)于解決機(jī)器學(xué)習(xí)中的多種不同類型的問(wèn)題都非常有用,因?yàn)檫@其中許多問(wèn)題的數(shù)據(jù)源不能自然地在平面上表示(有關(guān)這方面的入門性介紹,請(qǐng)參閱我們的前一篇文章,地址是:https://towardsdatascience.com/geometric-deep-learning-for-spherical-data-55612742d05f)。
球面CNN的一個(gè)關(guān)鍵特性是,它們與球面數(shù)據(jù)的旋轉(zhuǎn)是等變的(在本文中,我們重點(diǎn)討論旋轉(zhuǎn)等變方法)。實(shí)際上,這意味著球面CNN具有令人印象深刻的泛化特性,允許它們執(zhí)行諸如分類3D對(duì)象網(wǎng)格之類的操作,而不管它們是如何旋轉(zhuǎn)的(以及它們?cè)谟?xùn)練期間是否看到網(wǎng)格的不同旋轉(zhuǎn))。
我們在最近發(fā)布的文章中描述了Kagenova團(tuán)隊(duì)為提高球面CNN的計(jì)算效率而開(kāi)發(fā)的一系列進(jìn)展成果(參考地址:https://towardsdatascience.com/efficient-generalized-spherical-cnns-1493426362ca)。我們所采用的方法——高效的廣義球面CNN——既保留了傳統(tǒng)球面CNN的等方差特性,同時(shí)又使得計(jì)算效率更高(文獻(xiàn)1)。然而,盡管在計(jì)算效率方面取得了這些進(jìn)步,球面CNN仍然局限于相對(duì)低分辨率的數(shù)據(jù)。這意味著,球面CNN目前還不能應(yīng)用于通常涉及更高分辨率數(shù)據(jù)的激動(dòng)人心的應(yīng)用場(chǎng)景中,例如宇宙學(xué)數(shù)據(jù)分析和虛擬現(xiàn)實(shí)的360度計(jì)算機(jī)視覺(jué)等領(lǐng)域。在最近發(fā)布的一篇文章中,我們介紹了球面散射層網(wǎng)絡(luò),以便靈活調(diào)整高效的通用球面CNN來(lái)提高分辨率(文獻(xiàn)4),在本文中我們將對(duì)該內(nèi)容進(jìn)行一下回顧。
支持高分辨率輸入數(shù)據(jù)的混合方法
在開(kāi)發(fā)高效的通用球面CNN(文獻(xiàn)1)時(shí),我們發(fā)現(xiàn)了一種非常有效的構(gòu)建球面CNN架構(gòu)的混合方法。混合球面CNN可以在同一網(wǎng)絡(luò)中使用不同風(fēng)格的球面CNN層,允許開(kāi)發(fā)人員在不同處理階段獲得不同類型層的好處。
上圖展示了混合球面CNN架構(gòu)示例圖(請(qǐng)注意:這些層不是單一的,而是一些不同風(fēng)格的球面CNN層)。
球面上的散射網(wǎng)絡(luò)繼續(xù)采用這種混合方法,并引入了一種新的球面CNN層,可以插入現(xiàn)有的球面架構(gòu)中。為了將高效的通用球面CNN擴(kuò)展到更高維度,這一新層需要具備如下特征:
- 計(jì)算支持下的可擴(kuò)展性
- 將信息混合到低頻,以允許后續(xù)層以低分辨率運(yùn)行
- 旋轉(zhuǎn)等變
- 提供穩(wěn)定和局部不變的表示(即提供有效的表示空間)
我們確定散射網(wǎng)絡(luò)層具有滿足所有上面列舉的這些特征的潛力。
球面上的散射網(wǎng)絡(luò)
由Mallat(文獻(xiàn)5)在歐幾里德環(huán)境中首次提出的散射網(wǎng)絡(luò)可以被視為具有固定卷積濾波器的CNN,這些濾波器是從小波分析中導(dǎo)出的。散射網(wǎng)絡(luò)已被證明對(duì)傳統(tǒng)(歐氏)計(jì)算機(jī)視覺(jué)非常有用,尤其是在數(shù)據(jù)有限的情況下——而在這種情況下學(xué)習(xí)卷積濾波器是比較困難的。接下來(lái),我們簡(jiǎn)要討論一下散射網(wǎng)絡(luò)層的內(nèi)部工作原理、它們?nèi)绾螡M足上一節(jié)中定義的要求以及如何開(kāi)發(fā)它們用于球面數(shù)據(jù)分析。
散射層內(nèi)的數(shù)據(jù)處理由三個(gè)基本操作執(zhí)行。第一個(gè)構(gòu)建塊是固定小波卷積,它類似于歐氏CNN中使用的正常學(xué)習(xí)卷積。在小波卷積之后,散射網(wǎng)絡(luò)對(duì)結(jié)果表示應(yīng)用模數(shù)非線性方法。最后,散射利用了一個(gè)縮放函數(shù),該函數(shù)執(zhí)行了一種局部平均算法,與普通CNN中的池化層有一些相似之處。重復(fù)應(yīng)用這三個(gè)構(gòu)建塊就會(huì)將輸入數(shù)據(jù)分散到計(jì)算樹(shù)中,并在不同的處理階段將結(jié)果表示(類似于CNN頻道)從樹(shù)中提取出來(lái)。這些操作的簡(jiǎn)略示意圖如下所示。
該圖示意了球面信號(hào)f的球面散射網(wǎng)絡(luò)。信號(hào)通過(guò)級(jí)聯(lián)球面小波變換傳播,并結(jié)合用紅色節(jié)點(diǎn)表示的絕對(duì)值激活函數(shù)。散射網(wǎng)絡(luò)的輸出是通過(guò)將這些信號(hào)投影到球面小波縮放函數(shù)上得到的,從而得到用藍(lán)色節(jié)點(diǎn)表示的散射系數(shù)。
從傳統(tǒng)的深度學(xué)習(xí)觀點(diǎn)來(lái)看,分散網(wǎng)絡(luò)的操作似乎有些模糊。然而,所描述的每種計(jì)算操作都有一個(gè)特定的目的——旨在利用小波分析的可靠的理論結(jié)果。
散射網(wǎng)絡(luò)中的小波卷積是經(jīng)過(guò)仔細(xì)推導(dǎo)的,以便從輸入數(shù)據(jù)中提取相關(guān)信息。例如,對(duì)于自然圖像,小波被定義為專門提取與高頻的邊緣和低頻的物體普通形狀相關(guān)的信息。因此,在平面設(shè)置中,散射網(wǎng)絡(luò)濾波器可能與傳統(tǒng)的CNN濾波器有一些相似之處。這同樣適用于球面設(shè)置,我們使用尺度離散小波(scale-discretised wavelets,詳見(jiàn)文獻(xiàn)4)。
由于小波濾波器是固定的,初始散射層只需要應(yīng)用一次,而不需要在整個(gè)訓(xùn)練過(guò)程中重復(fù)應(yīng)用(如傳統(tǒng)CNN中的初始層)。這使得散射網(wǎng)絡(luò)在計(jì)算上具有可擴(kuò)展性,滿足上面特征1的要求。此外,散射層降低了其輸入數(shù)據(jù)的維數(shù),這意味著在訓(xùn)練下游CNN層時(shí),只需要使用有限的存儲(chǔ)空間來(lái)緩存散射表示。
小波卷積后面采用的是模數(shù)非線性方法。首先,這給神經(jīng)網(wǎng)絡(luò)層注入了非線性特征。其次,模數(shù)運(yùn)算將輸入信號(hào)中的高頻信息混合到低頻數(shù)據(jù)中,滿足上面的要求2。下圖顯示了模數(shù)非線性計(jì)算前后數(shù)據(jù)的小波表示的頻率分布情況。
上圖展示了模運(yùn)算前后不同球面頻率l處小波系數(shù)的分布。輸入信號(hào)中的能量從高頻(左側(cè)面板)移動(dòng)到低頻(右側(cè)面板)。其中,f是輸入信號(hào),Ψ代表縮放j的小波。
應(yīng)用模數(shù)計(jì)算后,將得到的信號(hào)投影到縮放函數(shù)上??s放函數(shù)從表示結(jié)果中提取低頻信息,類似于傳統(tǒng)CNN中的池化函數(shù)操作。
我們對(duì)球面散射網(wǎng)絡(luò)的理論上的等方差特性進(jìn)行了經(jīng)驗(yàn)測(cè)試。測(cè)試是通過(guò)旋轉(zhuǎn)信號(hào)并將其通過(guò)散射網(wǎng)絡(luò)饋送,然后將得到的結(jié)果表示與輸入數(shù)據(jù)通過(guò)散射網(wǎng)絡(luò)后再進(jìn)行旋轉(zhuǎn)計(jì)算的結(jié)果表示進(jìn)行比較。由下表中的數(shù)據(jù)可以證明給定深度的等方差誤差較低,因此滿足上述要求3(通常在實(shí)踐中,一個(gè)路徑深度不會(huì)超過(guò)兩個(gè)路徑的深度,因?yàn)榇蠖鄶?shù)信號(hào)能量已經(jīng)被捕獲)。
不同深度球面散射網(wǎng)絡(luò)的旋轉(zhuǎn)等方差誤差
最后,從理論上證明了歐氏散射網(wǎng)絡(luò)對(duì)小的微分或畸變是穩(wěn)定的(文獻(xiàn)5)。目前,這個(gè)結(jié)果已經(jīng)推廣到緊致黎曼流形上的散射網(wǎng)絡(luò)(文獻(xiàn)6),特別是球面環(huán)境(文獻(xiàn)4)。在實(shí)踐中,對(duì)差異形態(tài)的穩(wěn)定性意味著,如果對(duì)輸入進(jìn)行輕微更改,散射網(wǎng)絡(luò)計(jì)算的表示不會(huì)有顯著差異(關(guān)于穩(wěn)定性在幾何深度學(xué)習(xí)中的作用的討論,請(qǐng)參閱我們之前的帖子,地址是https://towardsdatascience.com/a-brief-introduction-to-geometric-deep-learning-dae114923ddb)。因此,散射網(wǎng)絡(luò)提供了一個(gè)表現(xiàn)良好的表示空間,在該空間上可以有效地進(jìn)行隨后的學(xué)習(xí),滿足上述第4項(xiàng)要求。
可縮放和旋轉(zhuǎn)等變的球面CNN
考慮到引入的散射層滿足我們所有想要的特性,接下來(lái)我們準(zhǔn)備將它們集成到我們的混合球面CNN中。如前所述,散射層可以作為初始預(yù)處理步驟固定到現(xiàn)有架構(gòu)上,以減小后續(xù)球面層處理的表示的大小。
在上圖中,散射層模塊(虛線左側(cè))是一個(gè)設(shè)計(jì)層。這意味著,它不需要訓(xùn)練,而其余層(虛線右側(cè))是可訓(xùn)練的。因此,這意味著散射層可以作為一次性預(yù)處理步驟應(yīng)用,以降低輸入數(shù)據(jù)的維數(shù)。
由于散射網(wǎng)絡(luò)具有給定輸入的固定表示,因此散射網(wǎng)絡(luò)層可以在訓(xùn)練開(kāi)始時(shí)應(yīng)用于整個(gè)數(shù)據(jù)集一次,并緩存生成的低維表示以訓(xùn)練后續(xù)層。幸運(yùn)的是,散射表示具有降低的維度,這意味著存儲(chǔ)它們所需的磁盤空間相對(duì)較低。由于存在這個(gè)新的球面散射層,所以可以把高效的廣義球面CNN擴(kuò)展到高分辨率分類問(wèn)題領(lǐng)域。
宇宙微波背景各向異性的分類
物質(zhì)在整個(gè)宇宙中是如何分布的?這是宇宙學(xué)家的一個(gè)基本研究問(wèn)題,對(duì)我們宇宙的起源和演化的理論模型具有重大意義。宇宙微波背景輻射(CMB)——來(lái)自大爆炸的殘余能量——描繪了宇宙中物質(zhì)的分布。宇宙學(xué)家在天球上觀察CMB,這需要能夠在天球內(nèi)進(jìn)行宇宙學(xué)分析的計(jì)算方法。
宇宙學(xué)家對(duì)分析宇宙微波背景的方法非常感興趣,因?yàn)檫@些方法能夠檢測(cè)宇宙微波背景在整個(gè)空間的分布中的非高斯性,這對(duì)早期宇宙理論具有重要意義。這種分析方法還需要能夠擴(kuò)展到天文分辨率。我們通過(guò)將CMB模擬分為高斯或非高斯,分辨率為L(zhǎng)=1024,證明了我們的散射網(wǎng)絡(luò)能夠滿足這些要求。散射網(wǎng)絡(luò)成功地將這些模擬分類,準(zhǔn)確度為95.3%,比低分辨率傳統(tǒng)球面CNN的53.1%要好得多。
上圖給出高斯和非高斯類CMB的高分辨率模擬示例,用于評(píng)估球面散射網(wǎng)絡(luò)擴(kuò)展到高分辨率的能力。
總結(jié)
在本文中,我們探討了球面散射層能夠壓縮其輸入表示的維度,同時(shí)還保留下游任務(wù)的重要信息。我們已經(jīng)證明,這使得散射層對(duì)于高分辨率的球面分類任務(wù)非常有用。這為以前難以解決的例如宇宙學(xué)數(shù)據(jù)分析和高分辨率360圖像/視頻分類等潛在應(yīng)用打開(kāi)了大門。然而,許多例如分割或深度估計(jì)這樣的需要密集預(yù)測(cè)的計(jì)算機(jī)視覺(jué)問(wèn)題都需要高維輸出和高維輸入。最后,如何開(kāi)發(fā)可控制的既可以增加輸出表示維度同時(shí)又能夠保持等方差的球面CNN層,這是Kagenova開(kāi)發(fā)人員當(dāng)前研究的主題。這些內(nèi)容將在下一篇文章中進(jìn)行介紹。
參考文獻(xiàn)
[1]Cobb, Wallis, Mavor-Parker, Marignier, Price, d’Avezac, McEwen, Efficient Generalised Spherical CNNs, ICLR (2021), arXiv:2010.11661
[2] Cohen, Geiger, Koehler, Welling, Spherical CNNs, ICLR (2018), arXiv:1801.10130
[3] Esteves, Allen-Blanchette, Makadia, Daniilidis, Learning SO(3) Equivariant Representations with Spherical CNNs, ECCV (2018), arXiv:1711.06721
[4] McEwen, Jason, Wallis, Christopher and Mavor-Parker, Augustine N., Scattering Networks on the Sphere for Scalable and Rotationally Equivariant Spherical CNNs, ICLR (2022), arXiv:2102.02828
[5] Bruna, Joan, and Stéphane Mallat, Invariant scattering convolution networks, IEEE Transaction on Pattern Analysis and Machine Intelligence (2013)
[6] Perlmutter, Michael, et al., Geometric wavelet scattering networks on compact Riemannian manifolds, Mathematical and Scientific Machine Learning. PMLR (2020), arXiv:1905.10448
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。
原文標(biāo)題:??Scaling Spherical Deep Learning to High-Resolution Input Data??,作者:Jason McEwen,Augustine Mavor-Parker