KDD 2023獎(jiǎng)項(xiàng)出爐:港中文、港科大等獲最佳論文獎(jiǎng),GNN大牛Leskovec獲創(chuàng)新獎(jiǎng)
ACM SIGKDD(國(guó)際數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)大會(huì),KDD) 會(huì)議始于 1989 年,是數(shù)據(jù)挖掘領(lǐng)域歷史最悠久、規(guī)模最大的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議,也是首個(gè)引入大數(shù)據(jù)、數(shù)據(jù)科學(xué)、預(yù)測(cè)分析、眾包等概念的會(huì)議。
今年的 KDD 大會(huì)是第 29 屆,于 8 月 6 日 - 10 日在美國(guó)加州長(zhǎng)灘舉辦。大會(huì)包含研究方向(Research )和應(yīng)用數(shù)據(jù)科學(xué)方向 (Applied Data Science,ADS)兩個(gè) track。
隨著會(huì)議的進(jìn)行,各大獎(jiǎng)項(xiàng)也開始逐一揭曉。其中來自香港中文大學(xué)、香港科技大學(xué)(廣州)、東南大學(xué)、同濟(jì)大學(xué)的研究者獲得了研究方向最佳論文獎(jiǎng);來自谷歌的研究者獲得了應(yīng)用數(shù)據(jù)科學(xué)方向最佳論文獎(jiǎng);斯坦福大學(xué)(于今年 1 月獲得學(xué)位)博士 Weihua Hu 獲得杰出博士論文獎(jiǎng);創(chuàng)新獎(jiǎng)?lì)C給了斯坦福大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授 Jure Leskovec;不列顛哥倫比亞大學(xué)的四位研究者獲得了本次大會(huì)的時(shí)間檢驗(yàn)獎(jiǎng)。
KDD 最佳論文獎(jiǎng) — 研究方向
來自香港中文大學(xué)的孫相國(guó)、程鴻教授、香港科技大學(xué)(廣州)的李佳教授、東南大學(xué)的劉波教授以及同濟(jì)大學(xué)的關(guān)佶紅教授獲得了最佳論文獎(jiǎng)。獲獎(jiǎng)?wù)撐臑椤禔ll in One: Multi-task Prompting for Graph Neural Networks》。
李佳教授獲得最佳論文獎(jiǎng)(研究方向)。
論文地址:https://arxiv.org/pdf/2307.01504.pdf
論文介紹:最近,預(yù)訓(xùn)練和微調(diào)范式已成為許多圖任務(wù)的標(biāo)準(zhǔn)工作流程,因?yàn)檫@些方法可以利用通用的圖知識(shí)來緩解每個(gè)應(yīng)用中圖注釋的缺乏。然而,具有節(jié)點(diǎn)級(jí)、邊緣級(jí)和圖級(jí)的圖任務(wù)千差萬(wàn)別,使得預(yù)訓(xùn)練的前提往往與多個(gè)任務(wù)不兼容。這種差距甚至可能導(dǎo)致對(duì)特定應(yīng)用程序的「負(fù)遷移」,從而使得效果不佳。
受到自然語(yǔ)言處理(NLP)中 prompt 學(xué)習(xí)的啟發(fā),因而,本文研究了在圖領(lǐng)域中關(guān)于 prompting 的主題,旨在彌合預(yù)訓(xùn)練模型與各種圖任務(wù)之間的差距。本文提出了一種新穎的用于圖模型的多任務(wù) prompting 方法。
具體來說,該研究首先通過 prompt token、token 結(jié)構(gòu)和嵌入模式統(tǒng)一了圖 prompt 和語(yǔ)言 prompt 的格式。通過這種方式,可以將 NLP 中的 prompting 思想無(wú)縫地引入到圖領(lǐng)域。然后,為了進(jìn)一步縮小各種圖任務(wù)與最先進(jìn)的預(yù)訓(xùn)練策略之間的差距,該研究進(jìn)一步研究了各種圖應(yīng)用的任務(wù)空間,并將下游問題重新表述為圖級(jí)任務(wù)。隨后,他們引入元學(xué)習(xí),以有效地學(xué)習(xí)更好的圖多任務(wù) prompt 初始化,從而使 prompting 框架在不同任務(wù)之間更可靠且更通用。本文還進(jìn)行了大量實(shí)驗(yàn)來證明所提方法的優(yōu)越性。
圖 1 為微調(diào)、預(yù)訓(xùn)練以及 prompting 流程;圖 2 為受 NLP 領(lǐng)域中 prompt 啟發(fā),得到的圖 prompt:
KDD 最佳論文獎(jiǎng) — 應(yīng)用數(shù)據(jù)科學(xué)方向
SIGKDD 2023 應(yīng)用數(shù)據(jù)科學(xué)方向最佳論文獎(jiǎng)?lì)C給了谷歌的研究者。其中華人學(xué)者包括高級(jí)軟件工程師 Jiaxi Tang 、軟件工程師 Li Wei 、高級(jí)軟件工程師 Xinyang Yi、 軟件工程高級(jí)總監(jiān) Lichan Hong 以及杰出科學(xué)家 Ed H. Chi 。
圖源:https://twitter.com/madiator/status/1688716588491608064
論文地址:https://arxiv.org/pdf/2302.09178.pdf
論文介紹:推薦系統(tǒng)在許多內(nèi)容平臺(tái)中扮演著重要的角色。雖然大多數(shù)關(guān)于推薦系統(tǒng)的研究都致力于設(shè)計(jì)更好的模型來改善用戶體驗(yàn),但研究發(fā)現(xiàn)讓這些模型訓(xùn)練更加穩(wěn)定的研究嚴(yán)重不足。
隨著推薦模型變得越來越龐大和復(fù)雜,因而更容易受到訓(xùn)練不穩(wěn)定性問題的影響,例如損失發(fā)散,這可能使模型無(wú)法使用,浪費(fèi)大量資源,并阻礙模型的發(fā)展。
在本文中,研究者指出了導(dǎo)致模型訓(xùn)練不穩(wěn)定的一些特性,并對(duì)其原因進(jìn)行了推測(cè)。更進(jìn)一步的,基于對(duì)訓(xùn)練不穩(wěn)定點(diǎn)附近訓(xùn)練動(dòng)態(tài)的觀察,研究者假設(shè)了現(xiàn)有解決方案失敗的原因,并提出了一種新的算法來減輕現(xiàn)有解決方案的局限性。
研究者在數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,與幾種常用的基準(zhǔn)方法相比,本文所提出的算法可以顯著提高模型的訓(xùn)練穩(wěn)定性,同時(shí)不損害收斂性。
KDD 最佳學(xué)生論文獎(jiǎng) — 研究方向
本次獲得最佳學(xué)生論文獎(jiǎng)的是來自蒙納士大學(xué)、澳大利亞國(guó)立大學(xué)等機(jī)構(gòu)的研究者。
論文地址:https://arxiv.org/pdf/2209.13446.pdf
論文介紹:本文提出了一個(gè)基于特征的學(xué)習(xí)框架,可有效處理反事實(shí)約束,并為有限的私有解釋模型做出了貢獻(xiàn)。本文在生成行動(dòng)可行性和合理性的多樣性反事實(shí)方面,展示了所提方法的靈活性和有效性。
KDD 杰出博士論文獎(jiǎng)
KDD 2023 杰出博士論文獎(jiǎng)授予了斯坦福大學(xué)(于今年 1 月獲得學(xué)位)博士 Weihua Hu 的論文《On the Predictive Power of Graph Neural Networks》。
推特 @weihua916
我們先簡(jiǎn)單介紹一下 Weihua Hu。他先后于 2016 年和 2018 年獲得了東京大學(xué)的數(shù)學(xué)工程學(xué)士學(xué)位和計(jì)算機(jī)科學(xué)碩士學(xué)位。之后進(jìn)入斯坦福大學(xué)攻讀計(jì)算機(jī)科學(xué)博士學(xué)位,其導(dǎo)師為 Jure Leskovec(也是 KDD 2023 創(chuàng)新獎(jiǎng)獲得者)。
博士期間,Weihua Hu 創(chuàng)建了圖結(jié)構(gòu)數(shù)據(jù)的機(jī)器學(xué)習(xí)理論、方法和基準(zhǔn),旨在改進(jìn)現(xiàn)實(shí)世界的多樣化應(yīng)用,比如推薦系統(tǒng)、藥物或材料發(fā)現(xiàn)、天氣預(yù)測(cè)。他還樂于應(yīng)用(圖)機(jī)器學(xué)習(xí)來解決現(xiàn)實(shí)世界有趣和重要的問題。
目前,Weihua Hu 在初創(chuàng)公司 Kumo.ai 工作,致力于將 GNN 投入生產(chǎn),尤其重視使用 GNN 來回答現(xiàn)代關(guān)系數(shù)據(jù)庫(kù)上各種各樣的未來預(yù)測(cè)查詢。
個(gè)人主頁(yè):https://weihua916.github.io/
Weihua Hu 的博士論文旨在通過理解、改進(jìn) GNN 的預(yù)測(cè)能力并進(jìn)行基準(zhǔn)測(cè)試,來構(gòu)建強(qiáng)大的預(yù)測(cè)性 GNN。這里的預(yù)測(cè)能力是 GNN 對(duì)圖做出準(zhǔn)確預(yù)測(cè)的能力。論文分以下三個(gè)部分展開。
第一部分開發(fā)了一個(gè)用于理解 GNN 預(yù)測(cè)能力的理論框架,尤其關(guān)注表達(dá)能力,觀察 GNN 是否可以在圖上表達(dá)所需的函數(shù)。第二部分是在有了用于設(shè)計(jì)表達(dá)性 GNN 模型的框架之后, 進(jìn)一步提升模型在未見過或未標(biāo)注數(shù)據(jù)上的預(yù)測(cè)能力,也即是提升 GNN 的泛化性能。第三部分創(chuàng)建一個(gè)新的圖基準(zhǔn)數(shù)據(jù)集來解決現(xiàn)有基準(zhǔn)的問題,并讓社區(qū)參與進(jìn)來共同提升 GNN 的預(yù)測(cè)能力。
論文詳細(xì)內(nèi)容請(qǐng)參閱:https://searchworks.stanford.edu/view/14423818
KDD 杰出博士論文獎(jiǎng)(亞軍)
今年還評(píng)選出了兩篇杰出博士論文獎(jiǎng)(亞軍),第一篇是《Characterization and detection of disinformation spreading in online social networks》,作者為 Francesco Pierri,他現(xiàn)在是米蘭理工大學(xué)的一名助理教授。
推特 @frapi9
論文地址:https://www.politesi.polimi.it/handle/10589/188756
另一篇獲此獎(jiǎng)項(xiàng)的論文題目是《Efficient and Secure Message Passing forMachine Learning》,作者是北卡羅來納州立大學(xué)助理教授 Xiaorui Liu。
推特 @liu_xiaorui
論文地址:https://www.proquest.com/openview/38629046ef91d5deea1a63265175abc0/1?pq-origsite=gscholar&cbl=18750&diss=y
KDD 創(chuàng)新獎(jiǎng)
KDD 創(chuàng)新獎(jiǎng)旨在表彰對(duì)數(shù)據(jù)發(fā)現(xiàn)與數(shù)據(jù)挖掘領(lǐng)域做出杰出貢獻(xiàn),并促進(jìn)理論和商業(yè)系統(tǒng)發(fā)展的研究者。
KDD 2023 創(chuàng)新獎(jiǎng)?lì)C給了圖網(wǎng)絡(luò)領(lǐng)域的大牛、斯坦福大學(xué)計(jì)算機(jī)科學(xué)學(xué)院教授 Jure Leskovec。他也是圖表示學(xué)習(xí)方法 node2vec 和 GraphSAGE 作者之一。此次獲獎(jiǎng)是為表彰他對(duì)圖挖掘、網(wǎng)絡(luò)和應(yīng)用機(jī)器學(xué)習(xí)的根本性和里程碑式貢獻(xiàn)。
推特 @fredayala
Jure Leskovec 的研究領(lǐng)域?yàn)榇笠?guī)?;ミB系統(tǒng)的應(yīng)用機(jī)器學(xué)習(xí),并專注于為所有尺度的系統(tǒng)建模復(fù)雜、標(biāo)簽豐富的關(guān)系結(jié)構(gòu)、圖和網(wǎng)絡(luò),涉及領(lǐng)域可以從細(xì)胞中的蛋白質(zhì)相互作用到社會(huì)中的人類交互。研究應(yīng)用則包括了常識(shí)推理、推薦系統(tǒng)、計(jì)算社會(huì)科學(xué)以及以藥物發(fā)現(xiàn)為重點(diǎn)的計(jì)算生物學(xué)。
迄今為止,Jure Leskovec 參與的論文在谷歌學(xué)術(shù)上的引用次數(shù)將近 10 萬(wàn)。
谷歌學(xué)術(shù)主頁(yè):https://cs.stanford.edu/people/jure/
KDD 時(shí)間檢驗(yàn)獎(jiǎng)—研究方向
來自不列顛哥倫比亞大學(xué)的四位研究者獲得了本次大會(huì)的時(shí)間檢驗(yàn)獎(jiǎng)。這篇論文發(fā)表于 2012 年,在 Google Scholar 上的引用量是 1792。
推特 @Frank Hutter
論文地址:https://arxiv.org/pdf/1208.3719.pdf
論文介紹:目前,研究者已經(jīng)開發(fā)出了許多不同的機(jī)器學(xué)習(xí)算法,考慮到每個(gè)算法的超參數(shù)非常多,因而會(huì)出現(xiàn)很多可替代方案。本文的做法是選擇學(xué)習(xí)算法的同時(shí)并設(shè)置其超參數(shù),從而超越了先前只解決單個(gè)問題的研究。
本文考慮了一系列廣泛的特征選擇技術(shù),以及 WEKA 中實(shí)現(xiàn)的所有分類方法,涵蓋 2 種集成方法、10 種元方法、27 種基準(zhǔn)分類器,以及每個(gè)分類器的超參數(shù)設(shè)置。在 UCI 中的 21 個(gè)常用數(shù)據(jù)集、KDD Cup 09、MNIST 數(shù)據(jù)集變體和 CIFAR-10 數(shù)據(jù)集的每個(gè)數(shù)據(jù)集上,該研究展示了本文方法比使用標(biāo)準(zhǔn)的選擇 / 超參數(shù)優(yōu)化方法要好得多。該研究希望他們所提出的方法能夠幫助非專業(yè)用戶更有效地識(shí)別適用于其應(yīng)用的機(jī)器學(xué)習(xí)算法和超參數(shù)設(shè)置,從而實(shí)現(xiàn)性能改進(jìn)。
KDD 時(shí)間檢驗(yàn)獎(jiǎng)—應(yīng)用數(shù)據(jù)科學(xué)方向
另一篇時(shí)間檢驗(yàn)獎(jiǎng)?lì)C給了論文《Ad Click Prediction: a View from the Trenches》,來自谷歌,被引用次數(shù)為 1030。
論文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/41159.pdf
論文介紹:預(yù)測(cè)廣告點(diǎn)擊率(CTR)是一個(gè)與數(shù)十億美元規(guī)模的在線廣告行業(yè)密切相關(guān)的大規(guī)模學(xué)習(xí)問題。本文在一個(gè)部署的CTR預(yù)測(cè)系統(tǒng)環(huán)境中,展示了一些選定的案例研究和主題,這些案例研究和主題源自最近的實(shí)驗(yàn)。
最后,KDD 還頒布了杰出服務(wù)獎(jiǎng),旨在表彰在知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘領(lǐng)域做出杰出專業(yè)服務(wù)貢獻(xiàn)的個(gè)人或團(tuán)體。本屆大會(huì)頒給了熊輝(Hui Xiong)教授。