賈揚(yáng)清十年經(jīng)典之作獲時(shí)間檢驗(yàn)獎(jiǎng)!ICML 2024十篇最佳論文開獎(jiǎng),爆火SD3、谷歌Genie在列
ICML 2024大獎(jiǎng)新鮮出爐了!
剛剛,ICML開幕式正式召開,會(huì)上公布了10篇最佳論文獎(jiǎng),還有1篇十年前論文摘得時(shí)間檢驗(yàn)獎(jiǎng)。
最佳論文中,有幾篇AI圖像、視頻生成領(lǐng)域的爆火之作,包括SD3技術(shù)報(bào)告、CMU谷歌AI視頻模型VideoPoet、谷歌基礎(chǔ)世界模型Genie。
值得一提的是,AI大牛賈揚(yáng)清等人在2013年10月發(fā)表的論文DeCAF,獲得了時(shí)間檢驗(yàn)獎(jiǎng)。
剛剛,他發(fā)文表示,深感榮幸獲此殊榮。
CMU教授、Meta GenAI副總Russ Salakhutdinov對(duì)ICML 2024整體錄用結(jié)果做了一個(gè)總結(jié):
這屆頂會(huì)一共收到了9473篇論文,其中2610篇被錄用,錄用率為27.55%。144篇是Oral,還有191篇是Spotlight。
今年全新引入的Position論文,提交有286篇,75篇被接收(26%)。15篇是Oral,11篇是Spotlight。
另外,Workshop中有145個(gè)提案,30個(gè)被接收。Tutorial有55個(gè)提案,12個(gè)被接收。
今年,是ICML 2024第41屆年會(huì)(每年一屆),于7月21日-27日在奧地利維也納舉辦。
8675人紛紛前來現(xiàn)場(chǎng)參會(huì),臺(tái)下虛無坐席。
ICML 2024頂會(huì)速覽
頒獎(jiǎng)前,組委會(huì)首先介紹了下,今年大會(huì)的整體情況:
· 9個(gè)EXPO Talk Panel
· 12個(gè)Tutorial
· 6個(gè)特邀演講
· 2,610篇論文(主會(huì)議)
· 30個(gè)研討會(huì)
· 12345位作者和演講者
· 39%參與者是學(xué)生
· 10個(gè)線下社交活動(dòng)
· 3個(gè)affinity event
· 52名志愿者
· 97位高級(jí)區(qū)域主席(SAC),492位區(qū)域主席(AC),7473名審稿人
· 9406名注冊(cè)參會(huì)者(其中8,675人現(xiàn)場(chǎng)參會(huì))
根據(jù)被錄用的論文,ICML匯總了出現(xiàn)的高頻詞,也正是這一年的熱點(diǎn)詞:
大模型出現(xiàn)頻率最高,超過了600+次。
其次是強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、擴(kuò)散模型、Transformer、LLM、表示學(xué)習(xí)、生成模型等等。
從注冊(cè)國家/地區(qū)來看,美國高達(dá)2463人,中國以1100+人位列第二。
時(shí)間檢驗(yàn)獎(jiǎng)
通常來說,時(shí)間檢驗(yàn)獎(jiǎng)?lì)C給10年以上的產(chǎn)生重要持久影響的學(xué)術(shù)論文。
這篇論文還是Caffe之父賈楊清就讀于UC伯克利,在谷歌實(shí)習(xí)期間和團(tuán)隊(duì)合作完成的經(jīng)典之作。
他曾在采訪中表示,2013年在谷歌實(shí)習(xí)時(shí)喝了太多咖啡,由此起名DeCAF,為的是督促自己把咖啡戒了。
加班途中,他發(fā)文稱,「DeCAF應(yīng)該是視覺領(lǐng)域的foundation features和deepembedding,也讓計(jì)算機(jī)視覺領(lǐng)域有了一個(gè)generalizable feature..」
DeCAF研究的影響在于,催生了通用物體檢測(cè)框架R-CNN,高性能異構(gòu)計(jì)算的框架Caffe,間接促成了伯克利和英偉達(dá)合作編寫了第一代的加速框架CuDNN,雅虎實(shí)驗(yàn)室創(chuàng)作的大規(guī)模分布式訓(xùn)練CaffeOnSpark等一系列工作,奠定了伯克利在深度學(xué)習(xí)浪潮當(dāng)中的領(lǐng)先地位。
題目:DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition
作者:Jeff Donahue,Yangqing Jia,Oriol Vinyals,Judy Hoffman,Ning Zhang,Eric Tzeng,Trevor Darrell
機(jī)構(gòu):加利福尼亞大學(xué)伯克利分校
論文地址:https://arxiv.org/abs/1310.1531
為了用一個(gè)更好的概率框架來表達(dá)人的行為,團(tuán)隊(duì)親自寫了第一個(gè)框架——DeCAF。
在這項(xiàng)工作中,作者評(píng)估了從一個(gè)在大量固定物體識(shí)別任務(wù)上以全監(jiān)督方式訓(xùn)練的深度卷積網(wǎng)絡(luò)中提取的特征,能否在新的通用任務(wù)上重新得到利用。
這些通用任務(wù)與最初的訓(xùn)練任務(wù)可能存在顯著差異,且可能缺乏足夠的標(biāo)注數(shù)據(jù),或完全沒有標(biāo)注數(shù)據(jù),因此無法使用常規(guī)方法訓(xùn)練或微調(diào)深度網(wǎng)絡(luò)來適應(yīng)新任務(wù)。
此外,作者還可視化了深度卷積特征在場(chǎng)景識(shí)別、領(lǐng)域適應(yīng)和細(xì)粒度識(shí)別等任務(wù)中的語義聚類,并通過比較依賴于網(wǎng)絡(luò)不同層次來定義固定特征的效果,提出了在幾個(gè)重要的視覺挑戰(zhàn)上取得的新SOTA。
最后,作者發(fā)布了這些深度卷積激活特征的開源實(shí)現(xiàn)——DeCA,以及所有相關(guān)的網(wǎng)絡(luò)參數(shù)。從而幫助視覺作者能夠在各種視覺概念學(xué)習(xí)范式中進(jìn)行深度表征的實(shí)驗(yàn)。
十篇最佳論文
今年,一共有十篇最佳論文。
以上排名皆以oral展示為序
論文一:Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
作者:Aaron Lou,Chenlin Meng,Stefano Ermon
機(jī)構(gòu):斯坦福大學(xué),Pika Labs
論文地址:https://arxiv.org/abs/2310.16834
這項(xiàng)研究提出了一個(gè)全新的機(jī)器學(xué)習(xí)模型SEDD(Score Entropy Discrete Diffusion),主要針對(duì)離散數(shù)據(jù)生成任務(wù)。
當(dāng)前,擴(kuò)散模型在許多生成建模任務(wù)中,展現(xiàn)出突破性的性能,但在自然語言等離散數(shù)據(jù)領(lǐng)域卻表現(xiàn)不佳。
論文中,作者提出了得分熵(score entropy)的概念,來彌補(bǔ)這種差距。
這是一種新穎的損失函數(shù),自然地將得分匹配擴(kuò)展到離散空間,無縫集成以構(gòu)建離散擴(kuò)散模型,并顯著提升性能。
實(shí)驗(yàn)評(píng)估過程中,SEDD比現(xiàn)有語言擴(kuò)散模型表現(xiàn)更好(困惑度降低25-75%)。
而且,它還在某些方面超過了GPT-2等自回歸模型。
總而言之,SEDD的優(yōu)勢(shì)在于:
- 無需使用溫度scaling等技術(shù)就能生成高質(zhì)量文本(生成困惑度比未退火的GPT-2好約6-8倍)
- 可以在計(jì)算資源和輸出質(zhì)量之間進(jìn)行靈活權(quán)衡(使用32倍更少的網(wǎng)絡(luò)評(píng)估次數(shù)達(dá)到相似的性能)
- 支持可控的文本填充,提供更多靈活性。(匹配核(matching nucleus)采樣質(zhì)量,同時(shí)支持除從左到右提示之外的其他策略)。
論文二:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis
作者:Patrick Esser,Sumith Kulal,Andreas Blattmann,Rahim Entezari,Jonas Müller,Harry Saini,Yam Levi,Dominik Lorenz,Axel Sauer,F(xiàn)rederic Boesel,Dustin Podell,Tim Dockhorn,Zion English,Kyle Lacey,Alex Goodwin,Yannik Marek,Robin Rombach
機(jī)構(gòu):Stability AI
論文地址:https://arxiv.org/abs/2403.03206
正如開頭所述,這篇論文是爆火出圈的Stable Diffusion 3的技術(shù)報(bào)告。
與Sora類似,SD3采用了改進(jìn)版的Diffusion模型和一個(gè)基于DiT的文生圖全新架構(gòu)。
具體而言,作者利用了三種不同的文本編碼器——兩個(gè)CLIP模型和一個(gè)T5——來處理文本信息,同時(shí)使用了一個(gè)更為先進(jìn)的自編碼模型來處理圖像信息。
全新提出的多模態(tài)擴(kuò)散Transformer(MMDiT)架構(gòu),采用了分別針對(duì)圖像和語言表示的獨(dú)立權(quán)重集,與SD3的早期版本相比,顯著提升了對(duì)文本的理解和文字的拼寫能力。
評(píng)估結(jié)果顯示,無論是在遵循提示的準(zhǔn)確性、文本的清晰呈現(xiàn)還是圖像的視覺美感方面,SD3都達(dá)到或超過了當(dāng)前文生圖生成技術(shù)的最高水平。
論文三:Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo
作者:Stephen Zhao,Rob Brekelmans,Alireza Makhzani,Roger Grosse
機(jī)構(gòu):多倫多大學(xué),Vector Institute
論文地址:https://arxiv.org/abs/2404.17546
這項(xiàng)研究主要關(guān)注的是,大模型中采樣和推理問題。
LLM許多能力和安全技術(shù),比如RLHF、自動(dòng)化紅隊(duì)測(cè)試、提示工程和填充等,皆可以被視為:
給定獎(jiǎng)勵(lì)或潛在函數(shù),在其定義的未歸一化目標(biāo)分布中進(jìn)行采樣。這一分布是針對(duì)完整序列定義的。
論文中,作者提出利用序列蒙特卡洛(SMC)方法,來解決這些采樣概率問題。
對(duì)此,作者提出了扭曲函數(shù)(twist functions)來估計(jì)每個(gè)時(shí)間步的潛在未來值,進(jìn)而優(yōu)化采樣過程。
此外,他們還提出了使用新型雙向SMC邊界(bounds),以評(píng)估LLM推理技術(shù)準(zhǔn)確性的方法。
最終結(jié)果顯示,扭曲SMC在以下方法中展現(xiàn)出強(qiáng)大效力:從預(yù)訓(xùn)練模型中采樣不良輸出、生成帶有不同情感的評(píng)論,以及執(zhí)行填充任務(wù)。
論文四:Position: Measure Dataset Diversity,Don't Just Claim It
作者:Dora Zhao,Jerone T.A. Andrews,Orestis Papakyriakopoulos,Alice Xiang
機(jī)構(gòu):斯坦福大學(xué),慕尼黑工業(yè)大學(xué),Sony AI
論文地址:https://arxiv.org/abs/2407.08188
當(dāng)前,許多數(shù)據(jù)集都為自己貼上多樣性的標(biāo)簽,但實(shí)際上卻包含著抽象且富有爭議的社會(huì)概念。
在這項(xiàng)工作中,作者通過分析135個(gè)圖像和文本數(shù)據(jù)集中的「多樣性」,來探討這一問題。
如下圖所示,作者借鑒社會(huì)科學(xué)理論中測(cè)量理論,作為需要考慮的因素,并為概念化、操作化和評(píng)估數(shù)據(jù)集中的多樣性提供建議。
這項(xiàng)研究最終目的是,呼吁在機(jī)器學(xué)習(xí)研究中,特別是在數(shù)據(jù)集構(gòu)建過程中,希望AI學(xué)者對(duì)帶有價(jià)值判斷的屬性數(shù)據(jù),采取更加細(xì)致和精確的處理方法。
論文五:Stealing Part of a Production Language Model
作者:Nicholas Carlini,Daniel Paleka,Krishnamurthy Dj Dvijotham,Thomas Steinke,Jonathan Hayase,A. Feder Cooper,Katherine Lee,Matthew Jagielski,Milad Nasr,Arthur Conmy,Itay Yona,Eric Wallace,David Rolnick,F(xiàn)lorian Tramèr
機(jī)構(gòu):蘇黎世聯(lián)邦理工學(xué)院,華盛頓大學(xué),麥吉爾大學(xué),Google DeepMind,OpenAI
論文地址:https://arxiv.org/abs/2403.06634
在這項(xiàng)工作中,作者提出了首個(gè)能夠從黑盒語言模型(如OpenAI的ChatGPT或Google的PaLM-2)中提取精確且復(fù)雜信息的模型竊取攻擊。
具體來說,這種攻擊能夠通過常規(guī)的API訪問,重建Transformer模型的嵌入投影層(在對(duì)稱性條件下)。
并且,只需不到20美元,便可提取OpenAI的Ada和Babbage語言模型的整個(gè)投影矩陣。從而首次證實(shí)了這兩個(gè)黑盒模型分別具有1024和2048的隱藏維度。
此外,作者還還原了gpt-3.5-turbo模型的確切隱藏維度大小。而這次,整個(gè)投影矩陣的提取成本,也不過是2000美元。
最后,作者提出了潛在的防御和緩解措施,并討論了對(duì)未來工作影響。
論文六:Information Complexity of Stochastic Convex Optimization: Applications to Generalization and Memorization
作者:Idan Attias,Gintare Karolina Dziugaite,Mahdi Haghifam,Roi Livni,Daniel M. Roy
機(jī)構(gòu):本·古里安大學(xué),東北大學(xué),特拉維夫大學(xué),多倫多大學(xué),Vector Institute,Google DeepMind
論文地址:https://arxiv.org/abs/2402.09327
在這項(xiàng)工作中,作者研究了在隨機(jī)凸優(yōu)化問題(SCO)背景下記憶化和學(xué)習(xí)之間的相互作用。
首先,通過學(xué)習(xí)算法揭示與訓(xùn)練數(shù)據(jù)點(diǎn)相關(guān)信息來定義記憶化。然后,使用條件互信息(Conditional Mutual Information,CMI)框架來進(jìn)行量化。從而,實(shí)現(xiàn)了對(duì)學(xué)習(xí)算法的準(zhǔn)確性與其CMI之間權(quán)衡的精確描述。
結(jié)果顯示,在L^2 Lipschitz有界設(shè)置和強(qiáng)凸性條件下,每個(gè)超額誤差為ε的學(xué)習(xí)者的CMI分別在Ω(1/ε^2)和Ω(1/ε)處有下界。
更進(jìn)一步,作者通過設(shè)計(jì)一個(gè)能準(zhǔn)確識(shí)別特定SCO問題中大部分訓(xùn)練樣本的對(duì)抗者,證明了記憶化在SCO學(xué)習(xí)問題中的重要作用。
最后,作者列舉了幾項(xiàng)重要意義,例如基于CMI的泛化界限的限制以及SCO問題中樣本不可壓縮性。
論文七:Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining
作者:Florian Tramèr,Gautam Kamath,Nicholas Carlini
機(jī)構(gòu):蘇黎世聯(lián)邦理工學(xué)院,滑鐵盧大學(xué),Vector Institute,Google DeepMind
論文地址:https://arxiv.org/abs/2212.06470
通過利用在大型公共數(shù)據(jù)集上預(yù)訓(xùn)練的非私有模型的遷移學(xué)習(xí)能力,可以顯著提升差分隱私機(jī)器學(xué)習(xí)的性能。
在這項(xiàng)工作中,作者質(zhì)疑了使用大型網(wǎng)絡(luò)抓取數(shù)據(jù)集是否符合差分隱私保護(hù)。并警告稱,將這些在網(wǎng)絡(luò)數(shù)據(jù)上預(yù)訓(xùn)練的模型稱為「private」可能會(huì)帶來諸多危害,比如削弱公眾對(duì)差分隱私這一概念的信任。
除了使用公共數(shù)據(jù)的隱私考慮之外,作者還進(jìn)一步質(zhì)疑了這種方法的實(shí)用性。
對(duì)于那些大到終端用戶無法在自己設(shè)備上運(yùn)行的模型,預(yù)訓(xùn)練的影響尤為明顯。因?yàn)檫@將需要將私有數(shù)據(jù)外包給計(jì)算能力更強(qiáng)的第三方,因此部署此類模型會(huì)對(duì)隱私造成凈損失。
最后,作者討論了隨著公共預(yù)訓(xùn)練變得越來越流行和強(qiáng)大,隱私學(xué)習(xí)領(lǐng)域的潛在發(fā)展路徑。
論文八:Debating with More Persuasive LLMs Leads to More Truthful Answers
作者:Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rockt?schel, Ethan Perez
機(jī)構(gòu):倫敦大學(xué)學(xué)院,Speechmatics,MATS,Anthropic,F(xiàn)AR AI
論文地址:https://arxiv.org/abs/2402.06782
目前常用的LLM對(duì)齊方法,嚴(yán)重依賴于人工標(biāo)注的數(shù)據(jù)。
然而,隨著模型變得越來越復(fù)雜,它們將超越人類的專業(yè)知識(shí),人工評(píng)估的角色將演變?yōu)榉菍<冶O(jiān)督專家。
基于此,作者提出了一個(gè)疑問:較弱的模型能否評(píng)估較強(qiáng)模型的正確性?
根據(jù)設(shè)定,較強(qiáng)的模型(專家)具備回答問題的必要信息,而較弱的模型(非專家)缺乏這些信息。
而評(píng)估的方法則是辯論,即兩個(gè)LLM專家各自為不同的答案辯護(hù),而非專家選擇答案。
結(jié)果顯示,辯論始終可以幫助非專家模型和人類更好地回答問題,分別達(dá)到了76%和88%的準(zhǔn)確率(基線分別為48%和60%)。
此外,通過無監(jiān)督方式優(yōu)化專家辯手的說服力提高了非專家在辯論中識(shí)別真相的能力。
論文九:Genie: Generative Interactive Environments
作者:Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge Shi,Edward Hughes,Matthew Lai,Aditi Mavalankar,Richie Steigerwald,Chris Apps,Yusuf Aytar,Sarah Bechtle,F(xiàn)eryal Behbahani,Stephanie Chan,Nicolas Heess,Lucy Gonzalez,Simon Osindero,Sherjil Ozair,Scott Reed,Jingwei Zhang,Konrad Zolna,Jeff Clune,Nando de Freitas,Satinder Singh,Tim Rockt?schel
機(jī)構(gòu):哥倫比亞大學(xué)、Google DeepMind
論文地址:https://arxiv.org/pdf/2402.15391
谷歌DeepMind團(tuán)隊(duì)發(fā)布的基礎(chǔ)世界模型——Genie「精靈」。
從一個(gè)圖像,一張照片,一個(gè)草圖中,它就能生成一個(gè)無窮無盡的世界。
Genie的瘋狂之處在于,學(xué)習(xí)了20萬小時(shí)的未標(biāo)注互聯(lián)網(wǎng)視頻,無需監(jiān)督即可訓(xùn)練。
無需任何動(dòng)作標(biāo)注,便可以確定誰是主角,并讓用戶能夠在生成的世界中對(duì)其控制。
具體來說,它是通過潛動(dòng)作(latent action)模型、視頻分詞器,以及自回歸動(dòng)態(tài)模型三大核心組件來實(shí)現(xiàn)的。
由此產(chǎn)生的學(xué)習(xí)潛動(dòng)作空間,不僅使用戶交互成為可能,而且還有助于訓(xùn)練智能體模仿看不見的視頻中的行為。
總而言之,Genie為培養(yǎng)未來的通才智能體開辟了嶄新的途徑,重塑了交互式生成環(huán)境的格局。
論文十:VideoPoet: A Large Language Model for Zero-Shot Video Generation
作者:Dan Kondratyuk,Lijun Yu,Xiuye Gu,José Lezama,Jonathan Huang,Grant Schindler,Rachel Hornung,Vighnesh Birodkar,Jimmy Yan,Ming-Chang Chiu,Krishna Somandepalli,Hassan Akbari,Yair Alon,Yong Cheng,Josh Dillon,Agrim Gupta,Meera Hahn,Anja Hauth,David Hendon,Alonso Martinez,David Minnen,Mikhail Sirotenko,Kihyuk Sohn,Xuan Yang,Hartwig Adam,Ming-Hsuan Yang,Irfan Essa,Huisheng Wang,David A. Ross,Bryan Seybold,Lu Jiang
機(jī)構(gòu):卡內(nèi)基梅隆大學(xué)、Google
論文地址:https://arxiv.org/pdf/2312.14125
在Sora發(fā)布之前,谷歌和CMU團(tuán)隊(duì)在23年12月,在技術(shù)路線上推出了與Sora相似的視頻生成技術(shù)——VideoPoet。
VideoPoet一次能夠生成10秒超長,且連貫大動(dòng)作視頻,而且無需特定數(shù)據(jù)便可生成視頻。
具體來說,VideoPoet主要包含以下幾個(gè)組件:
- 預(yù)訓(xùn)練的MAGVIT V2視頻tokenizer和SoundStream音頻tokenizer,能將不同長度的圖像、視頻和音頻剪輯轉(zhuǎn)換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語言模型兼容,便于與文本等其他模態(tài)進(jìn)行結(jié)合。
- 自回歸語言模型可在視頻、圖像、音頻和文本之間進(jìn)行跨模態(tài)學(xué)習(xí),并以自回歸方式預(yù)測(cè)序列中下一個(gè)視頻或音頻token。
- 在大語言模型訓(xùn)練框架中引入了多種多模態(tài)生成學(xué)習(xí)目標(biāo),包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復(fù)/擴(kuò)展、視頻風(fēng)格化和視頻到音頻等。此外,這些任務(wù)可以相互結(jié)合,實(shí)現(xiàn)額外的零樣本功能(例如,文本到音頻)。
與領(lǐng)先模型不同的是,VideoPoet并非基于擴(kuò)散模型,而是多模態(tài)大模型,便可擁有T2V、V2A等能力。
總之,VideoPoet具備了三大優(yōu)勢(shì):生成更長的視頻、實(shí)現(xiàn)更精準(zhǔn)的控制、強(qiáng)大的運(yùn)鏡手法。
最佳審稿人獎(jiǎng)
最好,ICML 2024大會(huì)上,還公布了最佳審稿人獎(jiǎng)。