ICCV'23論文頒獎“神仙打架”!Meta分割一切和ControlNet共同入選,還有一篇讓評委們很驚訝
剛剛,計算機視覺巔峰大會ICCV 2023,在法國巴黎正式“開獎”!
今年的最佳論文獎,簡直是“神仙打架”。
例如,獲得最佳論文獎的兩篇論文中,就包括顛覆文生圖AI領(lǐng)域的著作——ControlNet。
自開源以來,ControlNet已經(jīng)在GitHub上攬獲24k星。無論是對擴散模型、還是對整個計算機視覺領(lǐng)域而言,這篇論文獲獎都可以說是實至名歸。
而最佳論文獎榮譽提名,則頒給了另一篇同樣出名的論文,Meta的「分割一切」模型SAM。
自推出以來,「分割一切」已經(jīng)成為了各種圖像分割A(yù)I模型的“標桿”,包括后來居上的不少FastSAM、LISA、SegGPT,全部都是以它為參考基準進行效果測試。
論文提名都如此重量級,這屆ICCV 2023競爭有多激烈?
整體來看,ICCV 2023一共提交了8068篇論文,其中只有約四分之一、即2160篇論文被錄用。
其中近10%的論文來自中國,除了高校以外也有不少產(chǎn)業(yè)機構(gòu)的身影,像商湯科技及聯(lián)合實驗室有49篇論文入選ICCV 2023,曠視有14篇論文入選。
一起來看看這一屆ICCV 2023的獲獎?wù)撐亩加心男?/p>
ControlNet獲ICCV最佳論文
首先來看看今年獲得最佳論文獎(馬爾獎)的兩篇論文。
ICCV最佳論文又名馬爾獎(Marr Prize),每兩年評選一次,被譽為計算機視覺領(lǐng)域的最高榮譽之一。
這一獎項因計算機視覺之父、計算機視覺先驅(qū)、計算神經(jīng)科學(xué)的創(chuàng)始人David Courtnay Marr(大衛(wèi)·馬爾)而得名。
第一篇最佳論文獎「Adding Conditional Control to Text-to-Image Diffusion Models」,來自斯坦福。
這篇論文提出了一種名叫ControlNet的模型,只需給預(yù)訓(xùn)練擴散模型增加一個額外的輸入,就能控制它生成的細節(jié)。
這里的輸入可以是各種類型,包括草圖、邊緣圖像、語義分割圖像、人體關(guān)鍵點特征、霍夫變換檢測直線、深度圖、人體骨骼等,所謂的“AI會畫手”了,核心技術(shù)正是來自于這篇文章。
它的思路和架構(gòu)如下:
ControlNet先復(fù)制一遍擴散模型的權(quán)重,得到一個“可訓(xùn)練副本”(trainable copy)。
相比之下,原擴散模型經(jīng)過幾十億張圖片的預(yù)訓(xùn)練,因此參數(shù)是被“鎖定”的。而這個“可訓(xùn)練副本”只需要在特定任務(wù)的小數(shù)據(jù)集上訓(xùn)練,就能學(xué)會條件控制。
即使數(shù)據(jù)量很少(不超過5萬張圖片),模型經(jīng)過訓(xùn)練后條件控制生成的效果也很好。
“鎖定模型”和“可訓(xùn)練副本”通過一個1×1的卷積層連接,名叫“0卷積層”。0卷積層的權(quán)重和偏置初始化為0,這樣在訓(xùn)練時速度會非常快,接近微調(diào)擴散模型的速度,甚至在個人設(shè)備上訓(xùn)練也可以。
例如一塊英偉達RTX 3090TI,用20萬張圖像數(shù)據(jù)訓(xùn)練的話只需要不到一個星期。
ControlNet論文的第一作者Lvmin Zhang,目前是斯坦福博士生,除了ControlNet以外,包括Style2Paints、以及Fooocus等著名作品也出自他之手。
論文地址:https://arxiv.org/abs/2302.05543
第二篇論文「Passive Ultra-Wideband Single-Photon lmaging」,來自多倫多大學(xué)。
這篇論文被評選委員會稱之為“在主題(topic)上最令人驚訝的論文”,以至于其中一位評委表示“他幾乎不可能想到去嘗試這樣的事情”。
論文的摘要如下:
這篇文章討論了如何同時在極端時間尺度范圍內(nèi)(從秒到皮秒)對動態(tài)場景進行成像,同時要求成像passively(無需主動發(fā)送大量光信號)并在光線非常稀少的情況下進行,而且不依賴于來自光源的任何定時信號。
由于現(xiàn)有的單光子相機的光流估計技術(shù)在這個范圍內(nèi)失效,因此,這篇論文開發(fā)了一種光流探測理論,借鑒了隨機微積分的思想,以從單調(diào)遞增的光子檢測時間戳流中重建像素的時間變化光流。
基于這一理論,論文主要做了三件事:
(1)表明在低光流條件下,被動自由運行的單光子波長探測器相機具有可達到的頻率帶寬,跨越從直流到31 GHz范圍的整個頻譜;
(2)推導(dǎo)出一種新穎的傅立葉域光流重建算法,用于掃描時間戳數(shù)據(jù)中具有統(tǒng)計學(xué)顯著支持的頻率;
(3)確保算法的噪聲模型即使在非常低的光子計數(shù)或非可忽略的死區(qū)時間(dead times)情況下仍然有效。
作者通過實驗證明了這種異步成像方式的潛力,包括一些前所未見的能力:
(1)在沒有同步(如燈泡、投影儀、多脈沖激光器)的情況下,對以不同速度運行的光源同時照明的場景進行成像;
(2)被動的非視域(non-line-of-sight)視頻采集;
(3)記錄超寬帶視頻,可以在30 Hz的頻率下回放,展示日常運動,但也可以以每秒十億分之一的速度播放,以展示光的傳播過程。
論文一作Mian Wei,多倫多大學(xué)博士生,研究方向是計算攝影,目前的研究興趣在于基于主動照明成像技術(shù)改進計算機視覺算法。
論文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
「分割一切」獲榮譽提名
除了備受關(guān)注的ControNet之外,紅極一時的Meta「分割一切」模型獲得了此次大會的最佳論文獎榮譽提名。
這篇論文不僅提出了一個當(dāng)前最大的圖像分割數(shù)據(jù)集,在11M圖像上擁有超過10億個遮罩(mask),而且為此訓(xùn)練出了一個SAM模型,可以快速分割沒見過的圖像。
相比于之前比較零散的圖像分割模型,SAM可以說是對這一系列模型功能進行了“大一統(tǒng)”,而且在各項任務(wù)中都表現(xiàn)出了不錯的性能。
目前,這一開源模型已經(jīng)在GitHub上攬獲38.8k星,可以說是語義分割工業(yè)界的「標桿」了。
論文地址:https://arxiv.org/abs/2304.02643
項目主頁:https://segment-anything.com/
而在學(xué)生作品當(dāng)中,Google提出的「追蹤一切」模型脫穎而出。
就像文章的標題一樣,這個模型可以在任何地點同時對圖像中的任意(多個)物體進行像素級追蹤。
該項目的第一作者是康奈爾大學(xué)的華人博士Qianqian Wang,目前正在UCB進行博士后研究。
論文地址:https://arxiv.org/abs/2306.05422
項目主頁:https://omnimotion.github.io/
此外,開幕式上還公布了由PAMITC委員會成員捐助的特別獎項,該委員會同時也捐助CVPR和WACV兩個計算機視覺領(lǐng)域會議的獎項。
這些獎項包括以下四個:
- 亥姆赫茲獎:十年前對計算機視覺研究產(chǎn)生重大影響的ICCV論文
- Everingham獎:計算機視覺領(lǐng)域的進步
- 杰出研究者:對計算機視覺的進步做出重大貢獻的研究人員
- Rosenfeld終身成就獎:在長期職業(yè)生涯中對計算機視覺領(lǐng)域做出重大貢獻的研究人員
其中獲得亥姆赫茲獎的是Meta AI的華裔科學(xué)家Heng Wang和Google的Cordelia Schmid。
他們憑借2013年發(fā)表的一篇有關(guān)動作識別的論文獲得了這一獎項。
當(dāng)時兩人都在法國國立計算機及自動化研究院(法語縮寫:INRIA)下屬的Lear實驗室工作,Schmid是當(dāng)時該實驗室的領(lǐng)導(dǎo)者。
論文地址:https://ieeexplore.ieee.org/document/6751553
Everingham獎則頒發(fā)給了兩個團隊。
第一組獲得者是來自Google的Samer Agarwal、Keir Mierle和他們的團隊。
兩位獲獎?wù)叻謩e畢業(yè)于華盛頓大學(xué)和多倫多大學(xué),獲獎的成果是計算機視覺領(lǐng)域廣泛使用的開源C++庫Ceres Solver。
項目主頁:http://ceres-solver.org/
另一項獲獎成果是COCO數(shù)據(jù)集,它包含了大量的圖像和注釋,有豐富的內(nèi)容和任務(wù),是測試計算機視覺模型的重要數(shù)據(jù)集。
該數(shù)據(jù)集由微軟提出,相關(guān)論文第一作者是華裔科學(xué)家Tsung-Yi Lin,博士畢業(yè)于康奈爾大學(xué),現(xiàn)在英偉達實驗室擔(dān)任研究人員。
論文地址:https://arxiv.org/abs/1405.0312
項目主頁:https://cocodataset.org/
獲得杰出研究者榮譽的則是德國馬普所的Michael Black和約翰森霍普金斯大學(xué)的Rama Chellappa兩位教授。
來自MIT的Ted Adelson教授則獲得了終身成就獎。
你的論文被ICCV 2023錄用了嗎?感覺今年的獎項評選如何?