讓圖網(wǎng)絡更穩(wěn)健!谷歌提出SR-GNN,無懼數(shù)據(jù)標記偏差和領域轉移
圖神經(jīng)網(wǎng)絡(GNN),是在機器學習中利用圖形結構數(shù)據(jù)的強大工具。圖是一種靈活的數(shù)據(jù)結構,可以對許多不同類型的關系進行建模,并已被用于不同的應用,如交通預測、謠言和假新聞檢測、疾病傳播建模等。
作為機器學習的標準之一,GNN假設訓練樣本是均勻隨機選擇的(即獨立和相同分布樣本)。這個假設對于標準的學術數(shù)據(jù)集來說是很容易符合的,這些數(shù)據(jù)集專門為研究分析而創(chuàng)建,每個數(shù)據(jù)節(jié)點都已經(jīng)被標記。
但是在許多現(xiàn)實世界的場景中,數(shù)據(jù)是沒有標簽的,實際上,對數(shù)據(jù)的標記往往是一個繁重的過程,需要熟練的真人審核和把關,所以,要標記所有數(shù)據(jù)節(jié)點是一個非常困難的任務。
此外,訓練數(shù)據(jù)的偏見也是一個常見問題,因為選擇節(jié)點進行數(shù)據(jù)標記的行為通常不是上文所說的「均勻隨機選擇」。
比如,有時會使用固定的啟發(fā)式方法來選擇一個數(shù)據(jù)子集(子集中的數(shù)據(jù)具備一些共同的特征)進行標注,還有的時候,人類分析員會利用復雜的領域知識,單獨選擇某些特定數(shù)據(jù)項進行標注。
為了量化訓練集中存在的偏差量,我們可以使用一些方法來衡量兩個不同的概率分布之間的轉變有多大,轉變的大小可以被認為是偏差量。
這種偏差量越大,機器學習模型從存在偏見的訓練集中歸納出特征的難度就越大??赡軙酗@著損害模型泛化能力。在學術數(shù)據(jù)集中,一些領域轉移會導致模型性能下降15-20%(以F1分數(shù)為量度)。
論文鏈接:https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf
為了解決這個問題,谷歌在NeurIPS 2021上介紹了一種在有偏見的數(shù)據(jù)上使用GNN的解決方案。
這種方法被稱為Shift-Robust GNN(SR-GNN),從名字上不難看出,這個方法的目的就是要讓問題域發(fā)生變化和遷移時,模型依然保持高穩(wěn)健性,降低性能下降。
研究人員在半監(jiān)督學習的常見GNN基準數(shù)據(jù)集上,用有偏見的訓練數(shù)據(jù)集進行的各種實驗中,驗證了SR-GNN的有效性,實驗表明,SR-GNN在準確性上優(yōu)于其他GNN基準,將有偏見的訓練數(shù)據(jù)的負面影響減少了30-40%。
數(shù)據(jù)分布偏移對GNN性能的影響
為了證明數(shù)據(jù)分布的偏移如何影響GNN的性能,首先為已知的學術數(shù)據(jù)集生成一些有偏見的訓練集。然后,為了理解這種影響,將泛化(測試準確率)與分布偏移的衡量標準(CMD)進行對比。
例如,以著名的PubMed引文數(shù)據(jù)集為例,它可以被認為是一個圖,圖的節(jié)點就是醫(yī)學研究論文,圖的「邊」就是這些論文之間的引用。如果為PubMed生成有偏見的訓練數(shù)據(jù),這個圖看起來像下面這樣。
可以看到,數(shù)據(jù)集的分布偏移與分類準確率之間存在著強烈的負相關:隨著CMD的增加,性能(F1)顯著下降。也就是說,GNN可能難以泛化,因為訓練數(shù)據(jù)看起來不太像測試數(shù)據(jù)集。
為了解決這個問題,研究人員提出了一個對泛化高穩(wěn)健性的正則化器,讓訓練數(shù)據(jù)和來自未標記數(shù)據(jù)的隨機均勻樣本之間的分布偏移實現(xiàn)最小化。
為了實現(xiàn)這一點,研究人員在模型訓練時對域偏移進行實時測量,并在此基礎上使用直接懲罰策略,迫使模型盡可能多地忽略訓練偏差,讓模型為訓練數(shù)據(jù)學習的特征編碼器對任何可能來自不同分布的未標記數(shù)據(jù)也能有效工作。
下圖所示為SR-GNN與傳統(tǒng)GNN模型的對比。二者輸入相同,層數(shù)相同。將GNN的第(k)層的最終嵌入Zk與來自未標記的數(shù)據(jù)點的嵌入進行比較,驗證該模型是否正確編碼。
把這個正則化寫成模型損失公式中的一個附加項,該公式基于訓練數(shù)據(jù)的表征和真實數(shù)據(jù)的分布之間的距離制定。
實驗證明,加入SR-GNN正則化后,在有偏見的訓練數(shù)據(jù)標簽的分類任務上,分類模型的性能實現(xiàn)了30-40%的提升。
另外,本文還研究了如何在有偏見的訓練數(shù)據(jù)存在的情況下,讓模型更加可靠。
盡管由于結構差異,相同的正則化機制不能直接應用在不同模型上,但可以通過根據(jù)訓練實例與近似的真實分布的距離重新加權來「糾正」訓練偏見。這能夠糾正有偏見的訓練數(shù)據(jù)的分布,無需通過模型來傳遞梯度。
這兩種正則化可以結合,形成一個廣義的損失正則化,結合了領域正則化和實例重權(細節(jié),包括損失公式,可在論文中找到)。
結論
有偏見的訓練數(shù)據(jù)在現(xiàn)實世界的場景中很常見,這些偏見可能是由于各種原因造成的,包括對大量數(shù)據(jù)進行標注的困難、用于選擇標注節(jié)點的各種啟發(fā)式方法或不一致的技術、數(shù)據(jù)標記分布延時等等。
這個通用框架(SR-GNN)可以減少有偏見的訓練數(shù)據(jù)的影響,而且可以應用于各種類型的GNN,包括更深層的GNN,以及這些模型的線性化淺層GNN上。