ICCV 2021 | 用于多域聯(lián)合訓練的變分關注模型
本文轉自雷鋒網(wǎng),如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權。
1、背景&摘要
在人群密度估計任務中,標注工作十分困難且費時,導致當前的公開學術集規(guī)模都較小且數(shù)據(jù)的分布差異較大(圖1:密度差異,場景差異,視角差異等等)。因此,為了學習到泛化能力較強、通用性較高的人群密度估計模型,同時聯(lián)合多種數(shù)據(jù)域知識來監(jiān)督模型的訓練成為了一種可能的方案。然而,直接利用聯(lián)合數(shù)據(jù)訓練模型會導致模型的選擇性學習行為,即模型只對聯(lián)合數(shù)據(jù)中的“主導”數(shù)據(jù)部分進行了有效的學習,而忽略了其余部分數(shù)據(jù)帶來的域知識,從而導致模型表現(xiàn)出在不同域上性能變化的不一致性(表1:部分域性能提升,部分域性能降低)。
鑒于此,本文提出了域專屬知識傳播網(wǎng)絡(DKPNet)來引導無偏知識的學習。其中,作者提出了變分關注技術(Variational Attention,VA),該技術可以顯式地對不同數(shù)據(jù)域構建相應的關注分布,從而有效的提取和學習域專屬的信息。此外,作者進一步提出了本征變分關注技術(Intrinsic Variational Attention, InVA)來解決覆蓋域和子域的問題。作者對DKPNet在常用的人群密度估計數(shù)據(jù)集ShanghaiTechA/B, UCF-QNRF以及NWPU上進行有效的評估。
圖1:不同數(shù)據(jù)域的分布差異
表1:直接聯(lián)合訓練帶來的性能變化的不一致性
2、方法介紹
為了解決不同數(shù)據(jù)域分布差異帶來的難題,我們需要克服深度模型的選擇性學習行為,即只學習數(shù)據(jù)域中占“主導”地位的信息和知識。此外,考慮到CNN中通道信息通常是表達模式概念以及抽象表征的,而空間信息通常描述的是位置信息,因此為了建模域專屬的信息,作者選取在通道信息上進行域專屬知識的建模。如圖所示:
圖2:變分關注模型VA
首先假設我們能通過通道信息來進行域的劃分,即需要引入channel-attention機制來區(qū)分和引導不同域的學習,然而普通的channel-attention并不能顯式地區(qū)分域專屬的知識,因此需要人為地施加約束來提供引導。鑒于此,本文參考VAE的思想,首先引入潛變量z來建模不同數(shù)據(jù)域,根據(jù)變分思想,為了控制輸出的關注分布,作者最大化條件概率的對數(shù)似然;
其中第一項用于提高預測的準確性,在人群密度估計中,將其寫作:
第二項描述的是變分分布和先驗分布
的KL散度。此外由于不同域的分布不同,本文采用混合高斯分布作為先驗:
由此,KL散度變?yōu)椋?/p>
為了學習到自適應的域參數(shù),將均值和協(xié)方差參數(shù)設置為可學習的。并對其施加如下約束來防止平凡解:
最終VA如圖2所示,綜合loss如下:
然而,上述的推理是基于一個假設,即不同數(shù)據(jù)集當作一個單獨的數(shù)據(jù)域,這個假設在實際中并不能被很好地支持,例如NWPU數(shù)據(jù)中存在較多的子域,且不同數(shù)據(jù)集之間還可能存在重合的分布。鑒于此,作者基于VA又提出了InVA來解決覆蓋域和子域的問題。
InVA區(qū)別于VA的地方主要是兩個地方,第一個是首先會采用聚類的方式對attention分布進行粗略的劃分,從而緩解覆蓋域的問題;第二個是會采用子高斯混合先驗對潛變量進行約束,從而緩解子域的問題。
最終使用VA和InVA對CNN的通道信息進行調整,得到了DKPNet,如圖3所示:
圖3:DKPNet
3、實驗結果
作者在4個常用的人群密度估計的數(shù)據(jù)集(ShanghaiTech A/B, QNRF, NWPU)上進行了多重驗證,實驗結果如表2所示??梢钥吹阶髡叻謩e進行了3-Joint(SHA/SHB/QNRF聯(lián)合使用)和4-Joint(SHA/SHB/QNRF/NWPU)實驗,表示采用不同的個數(shù)的數(shù)據(jù)集進行的聯(lián)合訓練。當進行簡單的聯(lián)合訓練之后,可以看到模型的性能并不能一致地在所有數(shù)據(jù)集上都得到提升,驗證了模型的選擇性學習的行為。當采用DKPNet之后,由于域專屬的信息能夠被顯式地建模和學習,因此帶來了顯著的性能提升,并且在不同數(shù)據(jù)集上表現(xiàn)出了一致性。同時作者也給出了大量的消融實驗(圖4:attention分布對比;表3:的影響;表4:覆蓋域和子域數(shù)量的影響等),證明了VA和InVA的有效性。
表2:實驗結果
圖4:attention分布示意圖
表3:約束的作用
表4:覆蓋域和子域數(shù)量的影響
4、結語
本文針對人群密度中多域聯(lián)合訓練的問題,提出了基于變分關注VA的域專屬信息學習網(wǎng)絡DKPNet,有效地緩解了多域聯(lián)合訓練中的有偏學習現(xiàn)象,通過引入潛變量對不同域進行建模,從而能夠為模型的學習提供很好域引導。此外,為了更好地解決覆蓋域和子域的問題,本文提出了InVA進一步提升域引導的質量。最終,作者通過大量的實驗驗證了該方法的有效性。