DeepMind等摘得杰出論文、IBM超算深藍(lán)成經(jīng)典,IJCAI2023獎(jiǎng)項(xiàng)公布
國(guó)際人工智能聯(lián)合會(huì)議(IJCAI)是 AI 領(lǐng)域中頂級(jí)學(xué)術(shù)會(huì)議之一,首屆大會(huì)于 1969 年在加利福尼亞舉辦,之后每?jī)赡暾匍_一次。從 2016 年開始 IJCAI 變?yōu)槊磕昱e行一次。今年 IJCAI-23 于 8 月 19 日至 25 日在澳門舉行,所有相關(guān)獎(jiǎng)項(xiàng)已經(jīng)公布。
2023 IJCAI 論文接收情況如下,其中摘要提交 5120 篇、完整論文提交 4566 篇,最終接收了 643 篇,接收率約為 14%,相較去年的 15% 又有所下降。
下圖為基于關(guān)鍵詞的提交和接收論文情況,可以看到,機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域提交和接收的論文數(shù)量最多。
杰出論文獎(jiǎng)(Distinguished Papers)
IJCAI 今年評(píng)選出了三篇杰出論文獎(jiǎng),獲獎(jiǎng)機(jī)構(gòu)包括 Google DeepMind 、阿爾伯塔大學(xué)、阿姆斯特丹大學(xué) 、萊比錫大學(xué)等機(jī)構(gòu)。
論文 1《Levin Tree Search with Context Models》
- 論文地址:https://www.ijcai.org/proceedings/2023/0624.pdf
- 作者:Laurent Orseau 、 Marcus Hutter 、 Levi H. S. Lelis
- 機(jī)構(gòu):Google DeepMind 、阿爾伯塔大學(xué)
摘要:Levin 樹搜索 (LTS) 是一種利用策略(動(dòng)作的概率分布)的搜索算法,并提供了在達(dá)到目標(biāo)節(jié)點(diǎn)之前進(jìn)行多少擴(kuò)展的理論保證(guarantee),這取決于策略的質(zhì)量。這種保證可以看作損失函數(shù),研究者將其稱之為 LTS 損失,從而用來優(yōu)化表示策略的神經(jīng)網(wǎng)絡(luò)(LTS+NN)。
本文展示了神經(jīng)網(wǎng)絡(luò)可以替換成從在線壓縮文獻(xiàn)中產(chǎn)生參數(shù)化的上下文模型(LTS+CM)。本文表明, 在這個(gè)新模型下 LTS 損失是凸的,它允許使用標(biāo)準(zhǔn)的凸優(yōu)化工具,并且在給定的一組解軌跡的在線設(shè)置中獲得了最優(yōu)參數(shù)的收斂保證 —— 這是神經(jīng)網(wǎng)絡(luò)無法提供的保證。
新的 LTS+CM 算法在幾個(gè)基準(zhǔn)上優(yōu)于 LTS+NN,包括 Sokoban (Boxoban)、The Witness、STP(the 24-Sliding Tile puzzle)基準(zhǔn)。
在 STP 基準(zhǔn)上的結(jié)果表明,兩者的差異非常大,即 LTS+NN 無法解決大多數(shù)測(cè)試實(shí)例,而 LTS+CM 在不到一秒內(nèi)就解決了每個(gè)測(cè)試實(shí)例。此外,LTS+CM 能夠?qū)W習(xí)解決魔方策略,只需要幾百個(gè)擴(kuò)展,從而大大改善了之前的機(jī)器學(xué)習(xí)方法。
下表為帶有 Budgeted LTS 的上下文模型:
論文 2《SAT-Based PAC Learning of Description Logic Concepts》
- 論文地址:https://www.ijcai.org/proceedings/2023/0373.pdf
- 作者:Balder ten Cate 、Maurice Funk、Jean Christoph Jung、Carsten Lutz
- 機(jī)構(gòu):阿姆斯特丹大學(xué) 、萊比錫大學(xué)等
摘要:在知識(shí)表示中,知識(shí)庫 (KB) 的手動(dòng)管理既耗時(shí)又昂貴,這使得基于學(xué)習(xí)的知識(shí)獲取方法成為一種有吸引力的替代方案。
本文提出了 SPELL,這是一個(gè)基于 SAT 的系統(tǒng),可在下實(shí)現(xiàn)
的有界擬合。
本文在多個(gè)數(shù)據(jù)集上評(píng)估了 SPELL,結(jié)果表明 SPELL 的運(yùn)行時(shí)間幾乎總是顯著低于 ELTL(EL tree learner)。這意味著 SPELL 可以學(xué)習(xí)比 ELTL 更大的目標(biāo)查詢。本文還分析了兩種方法的相對(duì)優(yōu)勢(shì)和劣勢(shì),確定其中一種系統(tǒng)的性能明顯優(yōu)于另一種系統(tǒng)的輸入類別。最后,本文進(jìn)行了關(guān)于泛化的初步實(shí)驗(yàn),表明兩個(gè)系統(tǒng)都可以很好地泛化到看不見的數(shù)據(jù),即使是在非常小的樣本上。
下圖為 SPELL、ELTL 一些比較結(jié)果:
論文 3《Safe Reinforcement Learning via Probabilistic Logic Shields》
- 論文地址:https://www.ijcai.org/proceedings/2023/0637.pdf
- 作者:Wen-Chi Yang 、 Giuseppe Marra 、 Gavin Rens 、 Luc De Raedt
- 機(jī)構(gòu):魯汶大學(xué)、斯泰倫博斯大學(xué)
摘要:安全強(qiáng)化學(xué)習(xí)(Safe RL)旨在保持安全的同時(shí)學(xué)習(xí)最優(yōu)策略,它的一種流行解決方案是屏蔽,利用邏輯安全規(guī)范來防止 RL 智能體采取危險(xiǎn)的行動(dòng)。不過,傳統(tǒng)的屏蔽技術(shù)很難與連續(xù)、端到端的深度 RL 方法集成。
研究者提出了概率邏輯策略梯度(Probabilistic Logic Policy Gradient, PLPG),它是一種基于模型的安全 RL 技術(shù),使用概率邏輯編程將邏輯安全約束建模為可微函數(shù)。因此,PLPG 可以無縫地應(yīng)用于任何策略梯度算法,還能提供相同的收斂保證。下圖 1 為概率邏輯屏蔽的示例。
實(shí)驗(yàn)表明,與其他 SOTA 屏蔽技術(shù)相比,PLPG 可以學(xué)習(xí)更安全、更有價(jià)值的策略。
論文一作 Wen-Chi Yang 為魯汶大學(xué) DTAI 研究團(tuán)隊(duì)的博士,致力于通過形式化驗(yàn)證與機(jī)器學(xué)習(xí)的結(jié)合,來提升安全約束可滿足性。她還特別對(duì)智能體利用背景知識(shí)來安全地學(xué)習(xí)和探索感興趣。本科畢業(yè)于臺(tái)灣交通大學(xué),之后進(jìn)入魯汶大學(xué)攻讀碩士和博士學(xué)位(均為計(jì)算機(jī)科學(xué))。
個(gè)人主頁:https://wenchiyang.github.io/
AIJ 獎(jiǎng)
AIJ 的全稱為 Artificial Intelligence Journal,即《人工智能期刊》,始建于 1970 年,是人工智能研究領(lǐng)域的頂級(jí)學(xué)術(shù)期刊,具有公認(rèn)的權(quán)威性與知名性。
AIJ 突出論文獎(jiǎng)
2023 年 AIJ 突出論文獎(jiǎng)授予 José Camacho-Collados、Mohammad Taher Pilehvar、Roberto Navigli 合著的論文《Nasari: Integrating explicit knowledge and corpus statistics for a multilingual representation of concepts and entities》。該論文發(fā)表于 2016 年。
論文地址:https://www.sciencedirect.com/science/article/pii/S0004370216300820
摘要:語義表征被認(rèn)為是 NLP 和 AI 研究中最基本的內(nèi)容,其在過去幾十年中一直是詞匯語義學(xué)的重要研究領(lǐng)域。然而,由于缺乏大型的語義標(biāo)注語料庫,大多數(shù)現(xiàn)有的表征技術(shù)僅限于詞匯層面,因此無法有效地應(yīng)用于單個(gè)單詞的語義。
本文提出了一種新的多語言向量表征,稱為 Nasari,它不僅能夠準(zhǔn)確地表征不同語言的詞義,而且與現(xiàn)有方法相比存在兩個(gè)優(yōu)點(diǎn):
- 高覆蓋率,包括概念和命名實(shí)體;
- 跨語言和語言級(jí)別(即單詞、意義和概念)的可比性。
此外,Nasari 表征很靈活,可以應(yīng)用于多種應(yīng)用程序,并且可以在網(wǎng)站上免費(fèi)獲得。該研究在四個(gè)不同任務(wù)上進(jìn)行評(píng)估,即單詞相似度、語義聚類、域標(biāo)記和詞義消歧,結(jié)果顯示,Nasari 表征在所有任務(wù)上表現(xiàn) SOTA。
下表為統(tǒng)一向量構(gòu)造方法:
AIJ 經(jīng)典論文獎(jiǎng)
今年的 AIJ 經(jīng)典論文獎(jiǎng)?lì)C給了關(guān)于超級(jí)計(jì)算機(jī)深藍(lán)的論文《Deep Blue》。該論文發(fā)表于 2002 年。
- 作者:Murray Campbell、A. Joseph Hoane Jr.、Feng-hsiung Hsu
- 機(jī)構(gòu):IBM T.J. 沃森研究中心、Sandbridge Technologies、Compaq
- 論文地址:https://core.ac.uk/download/pdf/82416379.pdf
摘要:深藍(lán)(Deep Blue)是由 IBM 開發(fā)的專門用以分析國(guó)際象棋的超級(jí)計(jì)算機(jī)。其在 1997 年的六場(chǎng)比賽中擊敗了當(dāng)時(shí)的世界象棋冠軍加里?卡斯帕羅夫。促成這一成功的因素有很多,包括:
- 單芯片國(guó)際象棋搜索引擎;
- 具有多層并行性的大規(guī)模并行系統(tǒng);
- 搜索擴(kuò)展;
- 復(fù)雜評(píng)價(jià)函數(shù);
- 有效地使用 Grandmaster 游戲數(shù)據(jù)庫。
本文描述了深藍(lán)系統(tǒng),并給出了深藍(lán)背后設(shè)計(jì)決策的一些基本原理。如下為 dual credit 算法。
IJCAI-JAIR 最佳論文獎(jiǎng)
自 2003 年起,IJCAI-JAIR 最佳論文獎(jiǎng)每年從最近 5 年發(fā)表在 JAIR 的論文中評(píng)選并表彰一篇杰出論文。評(píng)審的標(biāo)準(zhǔn)基于論文的重要性和 presentation 的質(zhì)量。
2023 年的 IJCAI-JAIR 最佳論文獎(jiǎng)授予了論文《Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning》,作者來自智利天主教大學(xué)、加拿大 AI 研究機(jī)構(gòu) Vector Institute、多倫多大學(xué)等。
論文地址:https://jair.org/index.php/jair/article/view/12440
此前,2023 IJCAI 的「Donald E. Walker 杰出服務(wù)獎(jiǎng)」授予了香港科技大學(xué)講座教授楊強(qiáng),以表彰其對(duì) IJCAI 組織和整個(gè)人工智能領(lǐng)域的杰出貢獻(xiàn)。他也成為了該獎(jiǎng)項(xiàng)設(shè)置以來首位獲獎(jiǎng)的華人科學(xué)家。