自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:最新圖自監(jiān)督學(xué)習(xí)綜述

新聞
本文是來自澳大利亞蒙納士大學(xué)(Monash University)圖機(jī)器學(xué)習(xí)團(tuán)隊聯(lián)合中科院、聯(lián)邦大學(xué),以及數(shù)據(jù)科學(xué)權(quán)威 Philip S. Yu 對圖自監(jiān)督學(xué)習(xí)領(lǐng)域的最新綜述。

 [[420965]]

近年來,自監(jiān)督學(xué)習(xí)逐漸廣泛應(yīng)用于計算機(jī)視覺、自然語言處理等領(lǐng)域。隨著該技術(shù)的蓬勃發(fā)展,自監(jiān)督學(xué)習(xí)在圖機(jī)器學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)上的應(yīng)用也逐漸廣泛起來,圖自監(jiān)督學(xué)習(xí)成為了圖深度學(xué)習(xí)領(lǐng)域的新發(fā)展趨勢。

本文是來自澳大利亞蒙納士大學(xué)(Monash University)圖機(jī)器學(xué)習(xí)團(tuán)隊聯(lián)合中科院、聯(lián)邦大學(xué),以及數(shù)據(jù)科學(xué)權(quán)威 Philip S. Yu 對圖自監(jiān)督學(xué)習(xí)領(lǐng)域的最新綜述,從研究背景、學(xué)習(xí)框架、方法分類、研究資源、實際應(yīng)用、未來的研究方向的方面,為圖自監(jiān)督學(xué)習(xí)領(lǐng)域描繪出一幅宏偉而全面的藍(lán)圖。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

全文鏈接:https://arxiv.org/pdf/2103.00111.pdf

1. 緒論

近年來,圖深度學(xué)習(xí)廣泛應(yīng)用于電子商務(wù)、交通流量預(yù)測、化學(xué)分子研究和知識庫等領(lǐng)域。然而,大多數(shù)工作都關(guān)注在(半)監(jiān)督學(xué)習(xí)的學(xué)習(xí)模式中,這種學(xué)習(xí)模式主要依賴標(biāo)簽信息對模型進(jìn)行訓(xùn)練,導(dǎo)致了深度學(xué)習(xí)模型獲取標(biāo)簽成本高、泛化能力能力不佳、魯棒性差等局限性。

自監(jiān)督學(xué)習(xí)是一種減輕對標(biāo)簽數(shù)據(jù)的依賴,從而解決上述問題的新手段。具體地,自監(jiān)督學(xué)習(xí)通過解決一系列輔助任務(wù)(稱為 pretext task,代理任務(wù))來進(jìn)行模型的學(xué)習(xí),這樣監(jiān)督信號可以從數(shù)據(jù)中自動獲取,而無需人工標(biāo)注的標(biāo)簽來對模型進(jìn)行監(jiān)督訓(xùn)練。

自監(jiān)督學(xué)習(xí)目前已經(jīng)被廣泛應(yīng)用于計算機(jī)視覺(CV)和自然語言處理(NLP)等領(lǐng)域,具體技術(shù)包括詞嵌入、大規(guī)模語言預(yù)訓(xùn)練模型、圖像的對比學(xué)習(xí)等。然而,與 CV/NLP 領(lǐng)域不同,由于圖數(shù)據(jù)處于不規(guī)則的非歐幾里得空間,其具有獨特的特點,包括:1)需要同時考慮特征信息與不規(guī)則的拓?fù)浣Y(jié)構(gòu)信息;2)由于圖結(jié)構(gòu)的存在,數(shù)據(jù)樣本(節(jié)點)間往往存在依賴關(guān)系。因此,圖領(lǐng)域的自監(jiān)督學(xué)習(xí)(graph self-supervised learning)無法直接遷移 CV/NLP 領(lǐng)域的代理任務(wù)設(shè)計,從而為圖自監(jiān)督學(xué)習(xí)帶來了獨有的概念定義和分類方法。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

不同領(lǐng)域的自監(jiān)督代理任務(wù)對比

圖自監(jiān)督學(xué)習(xí)的歷史最早可追溯到經(jīng)典的圖嵌入方法,包括 DeepWalk、Line 等,而經(jīng)典的圖自編碼器(GAE)模型也可被視為一種圖自監(jiān)督學(xué)習(xí)。自 2019 年以來,一系列新工作席卷了圖自監(jiān)督學(xué)習(xí)領(lǐng)域,涉及到的技術(shù)包括但不限于對比學(xué)習(xí)、圖性質(zhì)預(yù)測、圖生成學(xué)習(xí)等。然而,目前缺少系統(tǒng)性的分類法對這些方法進(jìn)行歸類,同時該技術(shù)相關(guān)的框架與應(yīng)用也沒有得到規(guī)范化的統(tǒng)計與調(diào)查。

為了填補(bǔ)這一空缺,本文對圖自監(jiān)督學(xué)習(xí)領(lǐng)域相關(guān)工作做了綜合、全面、實時的綜述。本文的主要貢獻(xiàn)有:1)以數(shù)學(xué)語言統(tǒng)一了的圖自監(jiān)督學(xué)習(xí)框架,并提供了系統(tǒng)的分類法;2)對現(xiàn)有方法進(jìn)行了綜合且實時更新的整理;3)統(tǒng)計了相關(guān)的研究資源和應(yīng)用場景;4)指出了未來潛在的研究方向。

2. 核心詞條與概念定義

為了便于讀者理解,本文提供了以下核心詞條的定義辨析:

人工標(biāo)簽 vs 偽標(biāo)簽:人工標(biāo)簽指需要人類專家或工作者手動標(biāo)注的標(biāo)簽數(shù)據(jù);偽標(biāo)簽指機(jī)器可以從數(shù)據(jù)中自動獲取的標(biāo)簽數(shù)據(jù)。通常,自監(jiān)督學(xué)習(xí)中不會依賴人工標(biāo)簽,而是依賴偽標(biāo)簽來進(jìn)行學(xué)習(xí)。

下游任務(wù) vs 代理任務(wù):下游任務(wù)指具體用于衡量所學(xué)習(xí)表征和模型性能的圖分析任務(wù),比如節(jié)點分類、圖分類等;代理任務(wù)指專門設(shè)計的、用于幫助模型無監(jiān)督地學(xué)習(xí)更優(yōu)表征從而在下游任務(wù)上取得更高性能的輔助任務(wù)。代理任務(wù)一般采用偽標(biāo)簽進(jìn)行訓(xùn)練。

監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)指通過人工標(biāo)簽來訓(xùn)練機(jī)器學(xué)習(xí)模型的學(xué)習(xí)范式,而無監(jiān)督學(xué)習(xí)是一種無需人工標(biāo)簽來學(xué)習(xí)的學(xué)習(xí)范式。作為無監(jiān)督學(xué)習(xí)的子類,自監(jiān)督學(xué)習(xí)指從數(shù)據(jù)本身獲取監(jiān)督信號的學(xué)習(xí)范式,在自監(jiān)督學(xué)習(xí)中,模型由代理任務(wù)進(jìn)行訓(xùn)練,從而在下游任務(wù)重獲取更好的性能和更佳的泛化性。

本文主要研究圖數(shù)據(jù)。圖由節(jié)點集合和邊集合構(gòu)成,其中節(jié)點的個數(shù)計為 n,邊的個數(shù)計為 m。圖的拓?fù)浣Y(jié)構(gòu)一般用 n*n 的鄰接矩陣 A 來表示,A_ij=1 表示節(jié)點 i 和節(jié)點 j 之間存在連接關(guān)系,A_ij=0 則表示二者無連接關(guān)系。對于屬性圖,存在一個特征矩陣 X 來包含每個點和每條邊的特征向量。

對于大部分圖自監(jiān)督學(xué)習(xí)方法,圖神經(jīng)網(wǎng)絡(luò)(GNN)作為編碼器而存在。GNN 輸入鄰接矩陣 A 和特征矩陣 X,通過可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)參數(shù),生成低維的表征矩陣 H,其中每一行為對應(yīng)節(jié)點的表征向量。對于圖級別的任務(wù),一般采用讀出函數(shù) R 將節(jié)點表征矩陣聚合為一個圖表征向量,從而進(jìn)行圖級別的屬性學(xué)習(xí)。

3. 圖自監(jiān)督學(xué)習(xí)框架與分類

本文用編碼器 - 解碼器(encoder-decoder)框架來規(guī)范化圖自監(jiān)督學(xué)習(xí)。其中編碼器 f 的輸入是原始圖數(shù)據(jù)(A,X),輸出為低維表征 H;代理解碼器 p 以表征 H 為輸入,輸出代理任務(wù)相關(guān)的信息。在此框架下,圖自監(jiān)督學(xué)習(xí)可以表示為:

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

其中 D 為相關(guān)的圖數(shù)據(jù)分布,L_ssl 為代理任務(wù)相關(guān)的損失函數(shù)。

利用訓(xùn)練好的編碼器 f,所生成的表征 H 被進(jìn)一步用于下游任務(wù)的學(xué)習(xí)當(dāng)中。通過引入下游解碼器 q,下游任務(wù)的學(xué)習(xí)可表示為:

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

其中 L_sup 為下游任務(wù)相關(guān)的損失函數(shù),y 為相關(guān)的人工標(biāo)簽。

在此框架下,本文通過以下幾個維度進(jìn)行分類:1)通過進(jìn)一步細(xì)分公式 (1) 中的代理解碼器 p 和損失函數(shù) L_ssl,對圖自監(jiān)督學(xué)習(xí)方法進(jìn)行分類;2)通過進(jìn)一步細(xì)分代理任務(wù)和下游任務(wù)的關(guān)系,對三種自監(jiān)督學(xué)習(xí)模式進(jìn)行分類;3)通過進(jìn)一步細(xì)分公式 (2) 中的下游解碼器 q 和損失函數(shù) L_sup,對下游任務(wù)進(jìn)行分類。

本文將圖自監(jiān)督學(xué)習(xí)方法分為 4 個類別:基于生成的圖自監(jiān)督學(xué)習(xí)方法,基于屬性的圖自監(jiān)督學(xué)習(xí)方法,基于對比的圖自監(jiān)督學(xué)習(xí)方法,以及混合型方法。其中,基于生成的方法(generation-based method)主要將重構(gòu)圖的特征信息或結(jié)構(gòu)信息作為代理任務(wù),實現(xiàn)自監(jiān)督學(xué)習(xí);基于屬性的方法(Auxiliary Property-based method)通過預(yù)測一些可以自動獲取的圖相關(guān)的屬性,來進(jìn)行模型的訓(xùn)練;基于對比的方法(Contrast-based method)則是通過最大化同一樣本的兩個增廣實體之間的互信息來進(jìn)行學(xué)習(xí);最后,混合型方法(Hybrid method)通過組合不同的上述幾種代理任務(wù),采用多任務(wù)學(xué)習(xí)的模式進(jìn)行自監(jiān)督學(xué)習(xí)。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

4 種圖自監(jiān)督學(xué)習(xí)方法分類

基于代理任務(wù)和下游任務(wù)之間的不同關(guān)系,自監(jiān)督學(xué)習(xí)的模式分為以下 3 類:預(yù)訓(xùn)練 - 微調(diào)(Pre-training and Fine-tuning,PF)、聯(lián)合學(xué)習(xí)(Joint Learning,JL)以及無監(jiān)督表征學(xué)習(xí)(Unsupervised Representation Learning)。其中,PF 首先采用代理任務(wù)對編碼器進(jìn)行預(yù)訓(xùn)練,然后采用下游任務(wù)對編碼器進(jìn)行微調(diào);JL 則是采用多任務(wù)學(xué)習(xí)的方式,同時利用代理任務(wù)和下游任務(wù)對編碼器進(jìn)行訓(xùn)練;URL 首先無監(jiān)督地對編碼器用代理任務(wù)進(jìn)行訓(xùn)練,然后直接用得到的表征 H 來訓(xùn)練下游任務(wù)的解碼器。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

3 種自監(jiān)督學(xué)習(xí)模式分類

下游任務(wù)的分類則涉及了大多數(shù)圖機(jī)器學(xué)習(xí)相關(guān)的傳統(tǒng)任務(wù),根據(jù)其數(shù)據(jù)樣本的尺度不同,本文將下游任務(wù)分類為節(jié)點級別任務(wù)(如節(jié)點分類),邊級別任務(wù)(如邊分類)和圖級別任務(wù)(如圖分類)。

4. 圖自監(jiān)督學(xué)習(xí)相關(guān)工作匯總

根據(jù)上述對圖自監(jiān)督學(xué)習(xí)方法的分類方式,本文對相關(guān)工作進(jìn)行了整理、分類與匯總,分類樹如下圖所示。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

分類樹

A.基于生成的圖自監(jiān)督學(xué)習(xí)方法

基于生成的方法主要通過重構(gòu)輸入數(shù)據(jù)以獲取監(jiān)督信號。根據(jù)重構(gòu)的對象不同,本文將該類方法進(jìn)一步細(xì)分為兩個子類:特征生成和結(jié)構(gòu)生成。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

基于生成的圖自監(jiān)督學(xué)習(xí)

特征生成方法通過代理解碼器對特征矩陣進(jìn)行重構(gòu)。模型的輸入為原始圖或者經(jīng)過擾動的圖數(shù)據(jù),而重構(gòu)對象可以是節(jié)點特征矩陣,邊特征矩陣,或者經(jīng)過 PCA 降維的特征矩陣等。對應(yīng)的自監(jiān)督損失函數(shù)一般為均方誤差(MSE)。比較有代表性的方法為 Graph Completion,該方法對一些節(jié)點的特征進(jìn)行遮蓋,其代理任務(wù)的學(xué)習(xí)目標(biāo)為重構(gòu)這些被遮蓋的節(jié)點特征。

結(jié)構(gòu)生成方法起源于經(jīng)典的圖自編碼器(GAE),一般采用基于表征相似度的解碼器對圖的鄰接矩陣 A 進(jìn)行重構(gòu)。由于鄰接矩陣的二值性,對應(yīng)的損失函數(shù)一般為二分類交叉熵(BCE);而由于鄰接矩陣的稀疏性,一般采用負(fù)采樣等手段實現(xiàn)類別平衡。

本文對現(xiàn)有的基于生成的圖自監(jiān)督學(xué)習(xí)方法進(jìn)行了總結(jié),如下表所示:

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

B.基于屬性的圖自監(jiān)督學(xué)習(xí)方法

基于屬性的方法從圖中自動獲取一些有用的屬性信息,以此作為監(jiān)督信號對模型進(jìn)行訓(xùn)練。這類方法在形式上與監(jiān)督學(xué)習(xí)比較類似,都是采用 “樣本 - 標(biāo)簽” 的數(shù)據(jù)模式進(jìn)行學(xué)習(xí),其區(qū)別在于這里的 “標(biāo)簽” 信息為偽標(biāo)簽,而監(jiān)督學(xué)習(xí)所用的為人工標(biāo)簽。根據(jù)監(jiān)督學(xué)習(xí)的分類模式,本文將該類方法細(xì)分為兩個子類:屬性分類和屬性回歸。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

基于屬性的圖自監(jiān)督學(xué)習(xí)

屬性分類方法自動地從數(shù)據(jù)中歸納出離散的屬性作為偽標(biāo)簽,作為代理任務(wù)的學(xué)習(xí)目標(biāo)供模型學(xué)習(xí),對應(yīng)的損失函數(shù)一般為交叉熵。通過獲取偽標(biāo)簽的手段不同,該類方法可進(jìn)一步分為:1)基于聚類的屬性分類:2)基于點對關(guān)系的屬性分類。前者采用基于特征或結(jié)構(gòu)的聚類算法的對節(jié)點賦予偽標(biāo)簽,而后者則是通過兩個點之間的關(guān)系得到一個點對的偽標(biāo)簽。

屬性回歸方法從數(shù)據(jù)中獲取連續(xù)的屬性作為偽標(biāo)簽,對應(yīng)的損失函數(shù)為均方誤差(MSE)。一個典型的例子是提取節(jié)點的度(degree)作為其屬性,通過代理編碼器對該特性進(jìn)行回歸,實現(xiàn)對模型的自監(jiān)督訓(xùn)練。

該類別方法的總結(jié)如下表所示:

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

C.基于對比的圖自監(jiān)督學(xué)習(xí)方法

基于對比的方法引入了互信息最大化的概念,通過預(yù)測兩個視角(view)之間的相容性來進(jìn)行自監(jiān)督學(xué)習(xí)。本文從三個角度對該類方法進(jìn)行整理,分別是:1)圖增廣方式;2)圖對比學(xué)習(xí)代理任務(wù);3)互信息估計方式。

圖增廣技術(shù)用于從原始數(shù)據(jù)生成出增廣數(shù)據(jù),從而構(gòu)成對比學(xué)習(xí)中不同的視角。圖增廣方法有特征增廣、結(jié)構(gòu)增廣、混合增廣。特征增廣主要對圖數(shù)據(jù)中的特征信息進(jìn)行變換,最常見的手段是節(jié)點特征遮蓋(NFM),即隨機(jī)的將圖中的一些特征量置為 0;此外,節(jié)點特征亂序(NFS)也是一種特征增廣方法,其手段為對調(diào)不同節(jié)點的特征向量。結(jié)構(gòu)增廣的手段是對圖結(jié)構(gòu)信息進(jìn)行變換,常見的結(jié)構(gòu)增廣為邊修改(EM),包括對邊的增加和刪除;另一種結(jié)構(gòu)增廣為圖彌散(Graph diffusion,GD),其對不同階的鄰接矩陣進(jìn)行加權(quán)求和,從而獲取更全局的結(jié)構(gòu)信息?;旌显鰪V則結(jié)合了上述兩種增廣形式,一個典型的手段為子圖采樣(SS),即從原圖數(shù)據(jù)中采樣子結(jié)構(gòu)成為增廣樣本。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

圖增廣方法

對于對比式的代理任務(wù),本文通過其對比樣本的尺度進(jìn)行進(jìn)一步細(xì)分為同尺度對比學(xué)習(xí)和跨尺度對比學(xué)習(xí)。其中,同尺度對比學(xué)習(xí)通過最大化同一節(jié)點樣本或者同一圖樣本在不同視角下的互信息來進(jìn)行自監(jiān)督學(xué)習(xí),此類方法包括早期的基于隨機(jī)游走的圖嵌入方法,以及一系列 CV 對比學(xué)習(xí)框架(如 SimCLR 和 MoCo)在圖領(lǐng)域的應(yīng)用方法??绯叨葘Ρ葘W(xué)習(xí)通過最大化 “節(jié)點樣本 vs 全局樣本” 或者 “節(jié)點樣本 vs 鄰居樣本” 之間的互信息來學(xué)習(xí),這類方法起源于 Petar 等人與 2019 年提出的 DGI,目前在異質(zhì)圖、動態(tài)圖等數(shù)據(jù)上均有應(yīng)用。

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

基于對比的圖自監(jiān)督學(xué)習(xí)

由于對比學(xué)習(xí)涉及到對互信息的估計,本文也從數(shù)學(xué)層面總結(jié)了幾種互信息估計方法,包括經(jīng)典的 Jensen-Shannon 散度,InfoNCE,Triplet loss function,以及前沿的 BYOL 以及 Barlow twins。

基于對比的圖自監(jiān)督學(xué)習(xí)方法總結(jié)見下表:

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

D.混合型圖自監(jiān)督學(xué)習(xí)方法

混合型方法結(jié)合了兩種或多種不同的代理任務(wù),以多任務(wù)學(xué)習(xí)的模式共同訓(xùn)練模型。常見的組合包括:結(jié)合兩種生成任務(wù)(特征生成 + 結(jié)構(gòu)生成)的混合方法,結(jié)合生成任務(wù)和對比任務(wù)的混合方法,結(jié)合多種對比任務(wù)的混合方法,以及三種任務(wù)共同參與的混合方法。混合型方法的總結(jié)如下表所示:

數(shù)據(jù)挖掘領(lǐng)域大師俞士綸團(tuán)隊新作:<span><span><span><i style=最新圖自監(jiān)督學(xué)習(xí)綜述">

5. 研究資源與實際應(yīng)用

在附錄內(nèi)容當(dāng)中,本文統(tǒng)計了圖自監(jiān)督學(xué)習(xí)相關(guān)的各種研究資源,包括:主流的數(shù)據(jù)集,常用的評估手段,不同方法的性能對比,以及各方法對開源代碼總結(jié)。這些信息可以更好的幫助研究人員了解、對比和復(fù)現(xiàn)現(xiàn)有工作。

本文總結(jié)了圖自監(jiān)督學(xué)習(xí)在三個領(lǐng)域的實際應(yīng)用,包括:推薦系統(tǒng),異常檢測,以及化學(xué)領(lǐng)域。此外,更多應(yīng)用類工作也被總結(jié)在附錄當(dāng)中,涉及到的領(lǐng)域包括程序修復(fù)、醫(yī)療、聯(lián)邦學(xué)習(xí)等。

6. 未來的研究方向

針對潛在的研究熱點,本文分析了圖自監(jiān)督學(xué)習(xí)中存在的挑戰(zhàn),并指出了一些旨在解決這些挑戰(zhàn)的未來研究方向。

A. 理論基礎(chǔ)

雖然圖自監(jiān)督學(xué)習(xí)在各種任務(wù)和數(shù)據(jù)集上都取得較好的性能,但其依然缺乏堅實的理論基礎(chǔ)以證明其有效性,因為大多數(shù)工作都只是經(jīng)驗性地設(shè)計其代理任務(wù),且僅采用實驗手段進(jìn)行評價。目前僅有的理論支持來自互信息最大化,但互信息的評估依然依賴于經(jīng)驗方法。我們認(rèn)為,圖自監(jiān)督學(xué)習(xí)亟需與圖理論相關(guān)的研究,潛在的理論基礎(chǔ)包括圖信號處理和譜圖理論。

B. 可解釋性與魯棒性

許多圖自監(jiān)督學(xué)習(xí)的工作應(yīng)用于風(fēng)險敏感性和隱私相關(guān)的領(lǐng)域,因此,可解釋且魯棒的自監(jiān)督框架對于適應(yīng)此類學(xué)習(xí)場景具有重要意義。但是,現(xiàn)有工作只將下游任務(wù)性能視為其目標(biāo),而忽略了學(xué)習(xí)表示和預(yù)測結(jié)果的可解釋性。此外,考慮到真實數(shù)據(jù)的不完整性以及圖神經(jīng)網(wǎng)絡(luò)易受對抗攻擊的特點,我們應(yīng)當(dāng)考慮圖自監(jiān)督學(xué)習(xí)的魯棒性;然而,除個別工作外,現(xiàn)有的圖自監(jiān)督學(xué)習(xí)方法均假定輸入數(shù)據(jù)是完美的。因此,探索可解釋的、魯棒的圖自監(jiān)督方法是一個未來的潛在方向。

C. 復(fù)雜類型圖的代理任務(wù)設(shè)計

當(dāng)前的大多數(shù)工作集中于屬性圖的自監(jiān)督學(xué)習(xí),只有少數(shù)工作集中于復(fù)雜的圖類型,例如異質(zhì)或時空圖。對于復(fù)雜圖,主要的挑戰(zhàn)是如何設(shè)計代理任務(wù)來捕獲這些復(fù)雜圖的獨特數(shù)據(jù)特征?,F(xiàn)有的一些方法將互信息最大化的思想應(yīng)用于復(fù)雜圖的學(xué)習(xí),其學(xué)習(xí)能力比較有限。因此,一個潛在方向是為復(fù)雜的圖數(shù)據(jù)設(shè)計多種多樣的代理任務(wù),這些任務(wù)應(yīng)適應(yīng)其特定的數(shù)據(jù)特征。此外,將自監(jiān)督技術(shù)擴(kuò)展到更普遍的圖類型(例如超圖)將是一個可行的方向,值得進(jìn)一步探索。

D. 圖對比學(xué)習(xí)的增廣方法

在 CV 的對比學(xué)習(xí)中,大量的數(shù)據(jù)增廣策略(包括旋轉(zhuǎn)、顏色扭曲、裁剪等)提供了不同的視角,從而支持了對比學(xué)習(xí)中的表征不變性。然而,由于圖結(jié)構(gòu)數(shù)據(jù)的性質(zhì)(復(fù)雜和非歐幾里德結(jié)構(gòu)),圖上的數(shù)據(jù)增廣方案沒有得到很好的探索?,F(xiàn)有的圖增廣策略大多采用隨機(jī)的遮蓋 / 亂序節(jié)點特征、邊修改、子圖采樣和圖擴(kuò)散等手段,這在生成多個圖視角時無法提供豐富的多樣性,同時其表征不變性也是不確定的。為了解決這個問題,自適應(yīng)地執(zhí)行圖形增廣,自動選擇增廣,或通過挖掘豐富的底層結(jié)構(gòu)和屬性信息聯(lián)合考慮更強(qiáng)的增廣樣本都將是未來潛在的研究方向。

E. 通過多代理任務(wù)學(xué)習(xí)

本文統(tǒng)計的大部分方法僅通過解決一個代理任務(wù)來訓(xùn)練模型,只有少數(shù)混合方法探索多個代理任務(wù)的組合。然而,不少 NLP 領(lǐng)域的與訓(xùn)練模型和本文所匯總的少數(shù)混合方法都說明了:不同的代理任務(wù)可以從不同的角度提供監(jiān)督信號,這更有助于圖自監(jiān)督方法學(xué)習(xí)到有用的信息表征。因此,對多種代理任務(wù)的自適應(yīng)組合,以及更先進(jìn)的混合方法值得進(jìn)一步研究。

F. 更廣泛的應(yīng)用

圖是許多領(lǐng)域中普遍存在的數(shù)據(jù)結(jié)構(gòu);然而,在大多數(shù)應(yīng)用領(lǐng)域,獲取手動標(biāo)簽的成本往往很高。在這種情況下,圖自監(jiān)督學(xué)習(xí)具有很好的前景,特別是那些高度依賴專業(yè)知識來標(biāo)注數(shù)據(jù)的領(lǐng)域。然而,大多數(shù)現(xiàn)有的圖自監(jiān)督學(xué)習(xí)的實際應(yīng)用僅集中在少數(shù)幾個領(lǐng)域(推薦系統(tǒng)、異常檢測和化學(xué)),這表明圖自監(jiān)督在大多數(shù)應(yīng)用領(lǐng)域具有未開發(fā)的潛力。我們有望將圖自監(jiān)督學(xué)習(xí)擴(kuò)展到更廣闊的應(yīng)用領(lǐng)域,例如,金融網(wǎng)絡(luò)、網(wǎng)絡(luò)安全、社區(qū)檢測和聯(lián)邦學(xué)習(xí)等。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2023-03-30 13:51:42

AIChatGPT

2021-03-18 09:28:20

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-11-08 22:42:51

機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí)數(shù)據(jù)

2023-04-13 15:25:14

模型

2025-03-10 08:53:00

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2022-05-17 16:38:40

數(shù)據(jù)訓(xùn)練

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2024-10-16 16:00:00

訓(xùn)練AI

2017-06-12 14:04:45

深度學(xué)習(xí)人工智能

2020-01-20 14:25:19

數(shù)據(jù)平臺架構(gòu)

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2020-08-16 11:34:43

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-11-29 15:38:01

學(xué)習(xí)框架編碼器數(shù)據(jù)

2022-11-23 13:36:38

模型研究

2019-10-14 10:40:03

機(jī)器學(xué)習(xí)人工智能非監(jiān)督學(xué)習(xí)

2015-10-12 10:37:42

學(xué)習(xí)算法檢測

2024-08-16 08:15:02

2024-05-09 11:30:17

2023-06-13 18:45:00

研究監(jiān)督
點贊
收藏

51CTO技術(shù)棧公眾號