清華朱文武團(tuán)隊(duì):開源世界首個(gè)輕量圖自動(dòng)機(jī)器學(xué)習(xí)庫(kù)AutoGL-light
清華大學(xué)朱文武教授團(tuán)隊(duì)自 2020 年發(fā)布智圖庫(kù)(AutoGL)以來(lái),在圖自動(dòng)機(jī)器學(xué)習(xí)的可解釋性和可泛化能力等方面取得新進(jìn)展,特別關(guān)注于圖 Transformer、圖分布外泛化(OOD)、圖自監(jiān)督學(xué)習(xí)等方面,發(fā)表圖神經(jīng)架構(gòu)搜索評(píng)測(cè)基準(zhǔn),并在中國(guó)新一代開源創(chuàng)新服務(wù)平臺(tái) GitLink 上發(fā)布首個(gè)輕量智圖庫(kù)(AutoGL-light)。
智圖庫(kù)回顧
圖(graph)是描述數(shù)據(jù)間關(guān)系的一般抽象,廣泛存在于不同的研究領(lǐng)域中并有許多重要應(yīng)用,例如社交網(wǎng)絡(luò)分析、推薦系統(tǒng)、交通預(yù)測(cè)等互聯(lián)網(wǎng)應(yīng)用,新藥物發(fā)現(xiàn)、新材料制備等科學(xué)應(yīng)用(AI for Science),覆蓋諸多不同領(lǐng)域。圖機(jī)器學(xué)習(xí)在近年來(lái)取得了廣泛關(guān)注。由于不同圖數(shù)據(jù)在結(jié)構(gòu)、性質(zhì)和任務(wù)上千差萬(wàn)別,現(xiàn)有人工設(shè)計(jì)的圖機(jī)器學(xué)習(xí)模型缺乏對(duì)不同場(chǎng)景與環(huán)境變化的泛化能力。圖自動(dòng)機(jī)器學(xué)習(xí)(AutoML on Graphs)是圖機(jī)器學(xué)習(xí)發(fā)展的前沿,旨在針對(duì)給定的數(shù)據(jù)和任務(wù),自動(dòng)化地設(shè)計(jì)最優(yōu)的圖機(jī)器學(xué)習(xí)模型,在研究與應(yīng)用上都有著極大的價(jià)值。
針對(duì)圖自動(dòng)機(jī)器學(xué)習(xí)問(wèn)題,清華大學(xué)朱文武教授團(tuán)隊(duì)從 2017 年開始布局,并在 2020 年發(fā)布了智圖庫(kù)(AutoGL)—— 世界首個(gè)針對(duì)圖自動(dòng)機(jī)器學(xué)習(xí)的平臺(tái)和工具包。
項(xiàng)目地址:https://github.com/THUMNLab/AutoGL
智圖庫(kù)已在 GitHub 獲得了超千個(gè)星標(biāo),吸引了超過(guò) 20 個(gè)國(guó)家和地區(qū)數(shù)萬(wàn)次訪問(wèn),并在 GitLink 上進(jìn)行了發(fā)布。智圖庫(kù)包括一套完整的圖自動(dòng)機(jī)器學(xué)習(xí)流程,涵蓋了主流的圖自動(dòng)機(jī)器學(xué)習(xí)方法。智圖庫(kù)通過(guò)圖自動(dòng)機(jī)器學(xué)習(xí)解決方案 AutoGL Solver,將圖上的自動(dòng)機(jī)器學(xué)習(xí)拆分為五個(gè)核心部分:圖自動(dòng)特征工程、圖神經(jīng)架構(gòu)搜索(NAS)、圖超參數(shù)優(yōu)化(HPO)、圖模型訓(xùn)練,以及圖模型自動(dòng)集成。智圖庫(kù)已經(jīng)支持節(jié)點(diǎn)分類、異構(gòu)圖節(jié)點(diǎn)分類、鏈接預(yù)測(cè)、圖分類等多種類型的圖任務(wù)。
圖自動(dòng)機(jī)器學(xué)習(xí)研究新進(jìn)展
針對(duì)目前圖自動(dòng)機(jī)器學(xué)習(xí)缺乏可解釋性和可泛化能力等問(wèn)題,智圖團(tuán)隊(duì)在圖自動(dòng)機(jī)器學(xué)習(xí)研究取得了一系列新進(jìn)展。
1. 圖分布外泛化(OOD)架構(gòu)搜索
針對(duì)圖神經(jīng)架構(gòu)搜索無(wú)法處理圖數(shù)據(jù)分布變化問(wèn)題,提出了基于解耦自監(jiān)督學(xué)習(xí)的圖神經(jīng)架構(gòu)搜索方法,通過(guò)為每個(gè)圖樣本定制合適的圖神經(jīng)網(wǎng)絡(luò)架構(gòu),有效增強(qiáng)了圖神經(jīng)架構(gòu)搜索方法處理數(shù)據(jù)分布偏移的適應(yīng)能力。該工作已發(fā)表于機(jī)器學(xué)習(xí)頂級(jí)國(guó)際會(huì)議 ICML 2022。
論文地址:https://proceedings.mlr.press/v162/qin22b/qin22b.pdf
2.大規(guī)模圖架構(gòu)搜索
針對(duì)現(xiàn)有圖神經(jīng)架構(gòu)搜索無(wú)法處理大規(guī)模圖問(wèn)題,提出了基于架構(gòu) - 子圖聯(lián)合采樣機(jī)制的超網(wǎng)絡(luò)訓(xùn)練方法,通過(guò)重要性采樣和同輩學(xué)習(xí)(peer learning)算法,突破了采樣過(guò)程中的一致性瓶頸,極大程度提升了圖神經(jīng)架構(gòu)搜索的效率,首次實(shí)現(xiàn)了單機(jī)可處理億規(guī)模真實(shí)圖數(shù)據(jù)。該工作已發(fā)表于機(jī)器學(xué)習(xí)頂級(jí)國(guó)際會(huì)議 ICML 2022。
論文地址:https://proceedings.mlr.press/v162/guan22d.html
3. 圖神經(jīng)架構(gòu)搜索評(píng)測(cè)基準(zhǔn)
針對(duì)圖神經(jīng)架構(gòu)搜索缺乏統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn),以及評(píng)測(cè)過(guò)程消耗的計(jì)算資源量巨大問(wèn)題,智圖團(tuán)隊(duì)研究并提出了圖神經(jīng)架構(gòu)搜索基準(zhǔn) NAS-Bench-Graph,首個(gè)針對(duì)圖神經(jīng)架構(gòu)搜索的表格式基準(zhǔn)。該基準(zhǔn)可以高效、公平、可復(fù)現(xiàn)地比較不同圖神經(jīng)架構(gòu)搜索方法,填補(bǔ)了針對(duì)圖數(shù)據(jù)架構(gòu)搜索沒(méi)有基準(zhǔn)的空白。NAS-Bench-Graph 設(shè)計(jì)了一個(gè)包含 26,206 種不同圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索空間,采用了 9 個(gè)常用的不同大小、不同類型的節(jié)點(diǎn)分類圖數(shù)據(jù),并提供了已經(jīng)完全訓(xùn)練好的模型效果,可以在保證可復(fù)現(xiàn)性與公平比較的同時(shí),極大地減少計(jì)算資源。該工作已發(fā)表于機(jī)器學(xué)習(xí)頂級(jí)國(guó)際會(huì)議 NeurIPS 2022。
項(xiàng)目地址:https://github.com/THUMNLab/NAS-Bench-Graph
4. 自動(dòng)圖 Transformer
針對(duì)目前人工設(shè)計(jì)的圖 Transformer 架構(gòu)難以取得最佳預(yù)測(cè)性能問(wèn)題,提出了自動(dòng)圖 Transformer 架構(gòu)搜索框架,通過(guò)統(tǒng)一的圖 Transformer 搜索空間與結(jié)構(gòu)感知的性能評(píng)估策略,解決了設(shè)計(jì)最佳圖 Transformer 耗時(shí)長(zhǎng),難以得到最優(yōu)架構(gòu)的難題,該工作發(fā)表于機(jī)器學(xué)習(xí)頂級(jí)國(guó)際會(huì)議 ICLR 2023。
論文地址:https://openreview.net/pdf?id=GcM7qfl5zY
5. 魯棒圖神經(jīng)架構(gòu)搜索
針對(duì)目前圖神經(jīng)架構(gòu)搜索無(wú)法處理對(duì)抗打擊問(wèn)題,提出了魯棒圖神經(jīng)架構(gòu)搜索方法,通過(guò)在搜索空間中增加魯棒性圖算子并在搜索過(guò)程中提出了魯棒性評(píng)價(jià)指標(biāo),增強(qiáng)了圖神經(jīng)架構(gòu)搜索抵御對(duì)抗打擊的能力。該工作已發(fā)表于模式識(shí)別頂級(jí)國(guó)際會(huì)議 CVPR 2023。
論文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Xie_Adversarially_Robust_Neural_Architecture_Search_for_Graph_Neural_Networks_CVPR_2023_paper.pdf
6. 自監(jiān)督圖神經(jīng)架構(gòu)搜索
現(xiàn)有圖神經(jīng)架構(gòu)搜索嚴(yán)重依賴于標(biāo)簽作為訓(xùn)練和搜索架構(gòu)的指標(biāo),限制了圖自動(dòng)機(jī)器學(xué)習(xí)在標(biāo)簽匱乏場(chǎng)景的應(yīng)用。針對(duì)該問(wèn)題,智圖團(tuán)隊(duì)提出了自監(jiān)督圖神經(jīng)架構(gòu)搜索方法,發(fā)現(xiàn)了驅(qū)動(dòng)圖數(shù)據(jù)形成的圖因子與最優(yōu)神經(jīng)架構(gòu)之間潛在的關(guān)系,采用了一種新穎的解耦自監(jiān)督圖神經(jīng)架構(gòu)搜索模型,實(shí)現(xiàn)了有效在無(wú)標(biāo)簽圖數(shù)據(jù)上搜索最優(yōu)架構(gòu)。該工作已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 2023 接收。
7. 多任務(wù)圖神經(jīng)架構(gòu)搜索
針對(duì)現(xiàn)有圖神經(jīng)架構(gòu)搜索無(wú)法考慮不同任務(wù)對(duì)架構(gòu)需求的差異性問(wèn)題,智圖團(tuán)隊(duì)提出了首個(gè)多任務(wù)圖神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法,通過(guò)同時(shí)為不同圖任務(wù)設(shè)計(jì)最優(yōu)架構(gòu)并采用課程學(xué)習(xí)捕捉不同任務(wù)之間的協(xié)作關(guān)系,有效實(shí)現(xiàn)了不同圖任務(wù)定制最優(yōu)架構(gòu)。該工作已被機(jī)器學(xué)習(xí)頂級(jí)會(huì)議 NeurIPS 2023 接收。
輕量智圖庫(kù)
基于上述研究進(jìn)展,智圖團(tuán)隊(duì)在 CCF 指定開源平臺(tái) GitLink 發(fā)布了輕量智圖(AutoGL-light),世界首個(gè)輕量圖自動(dòng)機(jī)器學(xué)習(xí)開源庫(kù)。其整體架構(gòu)圖如圖 1 所示。輕量智圖主要具有以下特點(diǎn):
圖 1. 輕量智圖框架圖
項(xiàng)目地址:https://gitlink.org.cn/THUMNLab/AutoGL-light
1. 模塊解耦
輕量智圖通過(guò)更全面的模塊解耦方式,實(shí)現(xiàn)了對(duì)不同圖自動(dòng)機(jī)器學(xué)習(xí)流水線更便捷的支持,允許在機(jī)器學(xué)習(xí)流程的任何步驟中自由加入模塊,滿足用戶定制化需求。
2. 自主定制能力
輕量智圖庫(kù)支持用戶自主定制化圖超參數(shù)優(yōu)化(HPO)和圖神經(jīng)架構(gòu)搜索(NAS)。在圖超參數(shù)優(yōu)化模塊中,輕量智圖提供了多種超參數(shù)優(yōu)化算法和搜索空間,并支持用戶通過(guò)繼承基類來(lái)創(chuàng)建自己的搜索空間。在圖神經(jīng)架構(gòu)搜索模塊中,輕量智圖實(shí)現(xiàn)了典型和最先進(jìn)的搜索算法,且用戶能夠根據(jù)自己的需求自主輕松組合和定制搜索空間、搜索策略和評(píng)估策略的模塊設(shè)計(jì)。
3. 廣泛的應(yīng)用領(lǐng)域
輕量智圖的應(yīng)用不僅僅局限于傳統(tǒng)的圖機(jī)器學(xué)習(xí)任務(wù),而是進(jìn)一步擴(kuò)展到了更廣泛的應(yīng)用領(lǐng)域。目前,輕量智圖已經(jīng)支持了分子圖、單細(xì)胞組學(xué)數(shù)據(jù)等 AI for Science 應(yīng)用。在未來(lái),輕量智圖希望可以為不同領(lǐng)域圖數(shù)據(jù)提供最先進(jìn)的圖自動(dòng)機(jī)器學(xué)習(xí)解決方案。
4. GitLink 編程夏令營(yíng)
以輕量智圖為契機(jī),智圖團(tuán)隊(duì)深度參與了 GitLink 編程夏令營(yíng)(GLCC),其是在 CCF 中國(guó)計(jì)算機(jī)學(xué)會(huì)指導(dǎo)下,由 CCF 開源發(fā)展委員會(huì)(CCF ODC)舉辦的面向全國(guó)高校學(xué)生的暑期編程活動(dòng)。智圖團(tuán)隊(duì)的兩個(gè)項(xiàng)目 “GraphNAS 算法復(fù)現(xiàn)” 和 “圖自動(dòng)學(xué)習(xí)科學(xué)領(lǐng)域應(yīng)用案例” 吸引了國(guó)內(nèi)十余所高校的本科生和研究生報(bào)名。
夏令營(yíng)舉辦過(guò)程中,智圖團(tuán)隊(duì)與參與同學(xué)積極溝通,工作進(jìn)展程度超出預(yù)期。其中,GraphNAS 算法復(fù)現(xiàn)項(xiàng)目在輕量智圖中成功實(shí)現(xiàn)了上述介紹的圖分布外泛化架構(gòu)搜索(ICML’22)、大規(guī)模圖架構(gòu)搜索(ICML’22)、自動(dòng)圖 Transformer (ICLR’23),有效驗(yàn)證了輕量智圖庫(kù)的靈活性與自主定制能力。
圖自動(dòng)機(jī)器學(xué)習(xí)科學(xué)領(lǐng)域應(yīng)用項(xiàng)目則在輕量智圖實(shí)現(xiàn)了基于圖的生物信息處理算法,包括用于單細(xì)胞 RNA 測(cè)序分析的代表性算法 scGNN、用于分子表征學(xué)習(xí)的代表性算法 MolCLR,以及用于分子結(jié)構(gòu)預(yù)測(cè)的代表性算法 AutoGNNUQ,推動(dòng)了圖自動(dòng)機(jī)器學(xué)習(xí)技術(shù)在 AI for Science 的應(yīng)用。在 GitLink 編程夏令營(yíng)中,輕量智圖既豐富了算法和應(yīng)用案例,也使參與的同學(xué)鍛煉了開源軟件開發(fā)等技能,在圖自動(dòng)機(jī)器學(xué)習(xí)方面培養(yǎng)人才,并為助力我國(guó)開源生態(tài)建設(shè)的發(fā)展貢獻(xiàn)了自己的力量。
智圖團(tuán)隊(duì)來(lái)自清華大學(xué)計(jì)算機(jī)系朱文武教授領(lǐng)導(dǎo)的網(wǎng)絡(luò)與媒體實(shí)驗(yàn)室,核心成員包括助理教授王鑫、博士后張子威、博士生李昊陽(yáng)、秦一鑒、張澤陽(yáng),碩士生關(guān)超宇等十余人。項(xiàng)目得到了國(guó)家自然科學(xué)基金委和科技部的大力支持。