ICML 2024 | 信號表征指數(shù)級強(qiáng)、內(nèi)存節(jié)省超35%,量子隱式表征網(wǎng)絡(luò)來了
本文作者是天津大學(xué)智能與計算學(xué)部張鵬教授及其碩士生趙佳銘,博士生喬文博、高琿。該項(xiàng)研究工作受到國家自然科學(xué)基金委、天津大學(xué) - 中科聞歌聯(lián)合實(shí)驗(yàn)室資助。
- 論文標(biāo)題:Quantum Implicit Neural Representations
- 論文作者:Jiaming Zhao, Wenbo Qiao, Peng Zhang*, Hui Gao
- 論文鏈接:https://arxiv.org/abs/2406.03873
引言
天津大學(xué)量子智能與語言理解團(tuán)隊(duì)創(chuàng)新性地將量子計算引入隱式神經(jīng)表征領(lǐng)域,提出了量子隱式表征網(wǎng)絡(luò)(Quantum Implicit Representation Network, QIREN)。與經(jīng)典神經(jīng)網(wǎng)絡(luò)方法相比,該方法在理論上具有指數(shù)級強(qiáng)的信號表征能力。實(shí)驗(yàn)結(jié)果也證實(shí)了 QIREN 的確表現(xiàn)出超越信號表示任務(wù)上 SOTA 模型的優(yōu)異性能,在參數(shù)量更少的情況下,擬合誤差最多減少 35%。圖 1 中展示了本文的核心思想和主要結(jié)論。相關(guān)論文已經(jīng)被機(jī)器學(xué)習(xí)領(lǐng)域最權(quán)威的會議之一 ICML 2024 接收。
圖 1. 經(jīng)典傅立葉神經(jīng)網(wǎng)絡(luò)與量子傅立葉神經(jīng)網(wǎng)絡(luò)。
近年來,隱式神經(jīng)表征作為一種新興的信號表征方式引起了廣泛關(guān)注。與傳統(tǒng)的離散網(wǎng)格表示(例如用像素網(wǎng)格表示的圖像)相比,隱式神經(jīng)表征具有許多獨(dú)特的優(yōu)勢。首先,它具備"無限分辨率"的能力,可以在任意空間分辨率下進(jìn)行采樣。其次,隱式神經(jīng)表征具有出色的存儲空間節(jié)省,為數(shù)據(jù)存儲提供了便利。正因?yàn)檫@些獨(dú)特的優(yōu)勢,隱式神經(jīng)表征迅速成為表示圖像、物體和3D場景等信號的主流范式。大多數(shù)關(guān)于隱式神經(jīng)表征的早期研究都建立在基于ReLU的多層感知器(MLP)之上。然而,基于ReLU的MLP難以精確建模信號的高頻部分,如圖2所示。最近的研究已經(jīng)開始探索使用傅立葉神經(jīng)網(wǎng)絡(luò)(FNN)來克服這一限制。然而,面對現(xiàn)實(shí)應(yīng)用中越來越復(fù)雜的擬合任務(wù),經(jīng)典傅立葉神經(jīng)網(wǎng)絡(luò)也需要越來越多的訓(xùn)練參數(shù),這增加了對計算資源的需求。本文提出的量子隱式神經(jīng)表征利用了量子優(yōu)勢從而能夠減少參數(shù)和計算消耗,這種解決方案能夠給隱式神經(jīng)表征甚至機(jī)器學(xué)習(xí)領(lǐng)域帶來新的啟發(fā)。
圖 2. 真實(shí)圖像的不同頻率分量(頂部)和基于 ReLU 的 MLP 擬合的圖像的不同頻率分量(底部)
模型
圖 3. 模型架構(gòu)
模型整體架構(gòu)
QIREN 的總體架構(gòu)如圖 3 所示,由 N 個混合層和末端的線性層組成。該模型以坐標(biāo)作為輸入并輸出信號值。數(shù)據(jù)最初進(jìn)入混合層,從 Linear 層和 BatchNorm 層開始,得到:
然后被輸入到數(shù)據(jù)重新上傳量子電路 QC 中。在圖 2 (b) 和 (c) 中,我們給出了參數(shù)層和編碼層量子電路的具體實(shí)現(xiàn)。參數(shù)層由 K 個堆疊塊組成。每個塊包含應(yīng)用于每個量子位的旋轉(zhuǎn)門,以及以循環(huán)方式連接的 CNOT 門。編碼層在每個量子位上應(yīng)用門。最后,我們測量了量子態(tài)相對于可觀測量的期望值。量子電路的輸出由下式給出:
其中 O 表示任意可觀測量。第 n 個混合層的輸出將被用作第(n+1)層的輸入。最后,我們添加一個線性層以接收并輸出。我們使用均方誤差(MSE)作為損失函數(shù)來訓(xùn)練模型:
模型理論分析
在一些先前的研究中,數(shù)據(jù)重上傳量子線路的數(shù)學(xué)性質(zhì)已經(jīng)被揭示,本質(zhì)上數(shù)據(jù)重上傳量子線路是以傅立葉級數(shù)的形式擬合目標(biāo)函數(shù)。但之前的工作只探索了多層單量子比特線路或單層多量子比特線路,并且沒有與經(jīng)典方法進(jìn)行比較,沒有找到數(shù)據(jù)重上傳量子線路的優(yōu)勢。我們將研究擴(kuò)展到多層多量子比特線路。此外,我們證明了在隱式神經(jīng)表征領(lǐng)域,以數(shù)據(jù)重上傳量子線路為核心組件的混合量子神經(jīng)網(wǎng)絡(luò) QIREN 相比經(jīng)典方法有著指數(shù)級優(yōu)勢。我們分析了 QIREN 中的量子層和經(jīng)典層的作用并將其歸納為以下三點(diǎn):
1. 在最佳條件下,數(shù)據(jù)重上傳量子電路表示傅立葉級數(shù)的能力隨著電路的大小呈指數(shù)增長。
具體推導(dǎo)見論文 4.2 和 4.3 節(jié)。
2. 線性層的作用是進(jìn)一步擴(kuò)展頻譜和調(diào)整頻率,從而提高擬合性能。
在將數(shù)據(jù)上傳到量子電路之前應(yīng)用線性層相當(dāng)于調(diào)整編碼層哈密頓量的本征值,最終影響頻譜。這種方法有兩個優(yōu)點(diǎn)。首先,它可以使頻譜更大。僅用門編碼時頻譜中會產(chǎn)生一些冗余項(xiàng)。這種冗余可以通過使用線性層來減少。其次,它使頻譜的覆蓋范圍可以調(diào)整,旨在覆蓋更重要的系數(shù)更大的頻率。因此,加入線性層可以進(jìn)一步提高 QIREN 的擬合性能。
3. Batchnorm 層的作用是加速量子模型的收斂。
在前饋神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)通常在激活函數(shù)之前通過 BatchNorm 層,這有效地防止了消失梯度問題。類似地,在 QIREN 中,量子電路取代了激活函數(shù),并在提供非線性方面發(fā)揮作用(量子電路本身是線性的,但將經(jīng)典數(shù)據(jù)上傳到量子電路的過程是非線性的)。因此,我們在這里添加了 BatchNorm 層,目的是穩(wěn)定和加速模型的收斂。
實(shí)驗(yàn)結(jié)果
我們通過圖像表示和聲音表示任務(wù)驗(yàn)證了 QIREN 在表示信號,特別是高頻信號方面的優(yōu)越性能。實(shí)驗(yàn)結(jié)果如表 1 所示。QIREN 和 SIREN 在聲音表示任務(wù)上表現(xiàn)出相似的表現(xiàn)。盡管這兩個模型的性能似乎是可比較的,但值得強(qiáng)調(diào)的是,我們的模型以最少的參數(shù)實(shí)現(xiàn)了 35.1% 的內(nèi)存節(jié)省,并且 SIREN 的收斂需要設(shè)置合適的超參數(shù),而我們的模型沒有這種限制。然后,我們從頻率的角度分析了模型的輸出。我們在圖 4 中可視化了模型輸出的頻譜。很明顯,模型輸出的低頻分布都接近真實(shí)情況。然而,當(dāng)涉及到高頻分布時,QIREN 和 SIREN 都擬合得很好,其次是具有隨即傅立葉特征(RFF)的基于 ReLU 的 MLP。基于 ReLU 和基于 Tanh 的 MLP 甚至缺乏信號的高頻部分。
表 1. 模型在信號表示和圖像超分辨率任務(wù)上的 MSE()。被認(rèn)為是 SOTA 的模型標(biāo)有 *。params 表示模型參數(shù)量,mem 表示與離散網(wǎng)格表示相比,模型節(jié)省的內(nèi)存。
圖 4. 聲音表示任務(wù)中模型輸出的頻譜
QIREN 在圖像表示任務(wù)中用最少的參數(shù)實(shí)現(xiàn)了最佳性能,與 SOTA 模型相比,誤差最大減少了 34.8%。為了進(jìn)一步探索模型的信號表示能力,我們使用濾波器來分離其輸出的高頻和低頻分量,并分別比較這兩個分量的擬合誤差,結(jié)果如圖 5 所示。QIREN 在擬合高頻和低頻分量時始終實(shí)現(xiàn)了最低的誤差。
圖 5. 與基于 Tanh 的 MLP 相比,每個模型的相對誤差。陰影區(qū)域表示低頻誤差,而非陰影區(qū)域表示高頻誤差。
最新的研究引入了一個突破性的框架將隱式神經(jīng)表征擴(kuò)展到圖像生成。更具體地說,該框架利用以隨機(jī)分布為輸入的超網(wǎng)絡(luò)來生成隱式表征網(wǎng)絡(luò)的參數(shù)。隨后,這些生成的參數(shù)被分配給隱式表征網(wǎng)絡(luò)。最后,隱式表征網(wǎng)絡(luò)以坐標(biāo)為輸入生成圖像。采用對抗性方法來確保生成的圖像與我們期望的結(jié)果一致。在這項(xiàng)任務(wù)中,我們采用了這樣一個框架,并建立在 StyleGAN2 的基礎(chǔ)上。
實(shí)驗(yàn)結(jié)果如表 2 所示。我們還進(jìn)一步探索了 QIREN 生成器的一些令人興奮的特性,如圖 6 和 7 所示。
表 2. 模型在 FFHQ 和 CelebA-HQ 數(shù)據(jù)集上的 FID 得分。
圖 6. 開箱即用的超分辨率
圖 7. 有意義的圖像空間插值
總結(jié)
這項(xiàng)工作不僅將量子優(yōu)勢融入到隱式神經(jīng)表示中,而且為量子神經(jīng)網(wǎng)絡(luò)開辟了一個有前景的應(yīng)用方向 —— 隱式神經(jīng)表征。值得強(qiáng)調(diào)的是,隱式神經(jīng)表征還有許多其他潛在的應(yīng)用,如表示場景或 3D 對象、時間序列預(yù)測和求解微分方程。對于一大類對連續(xù)信號建模的任務(wù),我們都可以考慮引入隱式表征網(wǎng)絡(luò)作為基本組件?;诒疚牡睦碚摵蛯?shí)驗(yàn)基礎(chǔ),我們可以在未來的工作中將 QIREN 擴(kuò)展到這些應(yīng)用中,并且 QIREN 有望在這些領(lǐng)域中以更少的參數(shù)產(chǎn)生更好的結(jié)果。同時,我們?yōu)榱孔訖C(jī)器學(xué)習(xí)找到了一個合適的應(yīng)用場景。從而促進(jìn)量子機(jī)器學(xué)習(xí)社區(qū)內(nèi)進(jìn)一步的實(shí)踐和創(chuàng)新研究。