自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICCV'23論文頒獎“神仙打架”!Meta分割一切和ControlNet共同入選,還有一篇讓評委們很驚訝

人工智能 新聞
自開源以來,ControlNet已經(jīng)在GitHub上攬獲24k星。無論是對擴散模型、還是對整個計算機視覺領(lǐng)域而言,這篇論文獲獎都可以說是實至名歸。

剛剛,計算機視覺巔峰大會ICCV 2023,在法國巴黎正式“開獎”!

今年的最佳論文獎,簡直是“神仙打架”。

例如,獲得最佳論文獎的兩篇論文中,就包括顛覆文生圖AI領(lǐng)域的著作——ControlNet。

自開源以來,ControlNet已經(jīng)在GitHub上攬獲24k星。無論是對擴散模型、還是對整個計算機視覺領(lǐng)域而言,這篇論文獲獎都可以說是實至名歸。

圖片

而最佳論文獎榮譽提名,則頒給了另一篇同樣出名的論文,Meta的「分割一切」模型SAM。

自推出以來,「分割一切」已經(jīng)成為了各種圖像分割A(yù)I模型的“標桿”,包括后來居上的不少FastSAM、LISA、SegGPT,全部都是以它為參考基準進行效果測試。

圖片

論文提名都如此重量級,這屆ICCV 2023競爭有多激烈?

整體來看,ICCV 2023一共提交了8068篇論文,其中只有約四分之一、即2160篇論文被錄用。

其中近10%的論文來自中國,除了高校以外也有不少產(chǎn)業(yè)機構(gòu)的身影,像商湯科技及聯(lián)合實驗室有49篇論文入選ICCV 2023,曠視有14篇論文入選。

一起來看看這一屆ICCV 2023的獲獎?wù)撐亩加心男?/p>

ControlNet獲ICCV最佳論文

首先來看看今年獲得最佳論文獎(馬爾獎)的兩篇論文。

ICCV最佳論文又名馬爾獎(Marr Prize),每兩年評選一次,被譽為計算機視覺領(lǐng)域的最高榮譽之一。

這一獎項因計算機視覺之父、計算機視覺先驅(qū)、計算神經(jīng)科學(xué)的創(chuàng)始人David Courtnay Marr(大衛(wèi)·馬爾)而得名。

第一篇最佳論文獎「Adding Conditional Control to Text-to-Image Diffusion Models」,來自斯坦福。

這篇論文提出了一種名叫ControlNet的模型,只需給預(yù)訓(xùn)練擴散模型增加一個額外的輸入,就能控制它生成的細節(jié)。

這里的輸入可以是各種類型,包括草圖、邊緣圖像、語義分割圖像、人體關(guān)鍵點特征、霍夫變換檢測直線、深度圖、人體骨骼等,所謂的“AI會畫手”了,核心技術(shù)正是來自于這篇文章。

圖片

它的思路和架構(gòu)如下:

ControlNet先復(fù)制一遍擴散模型的權(quán)重,得到一個“可訓(xùn)練副本”(trainable copy)。

相比之下,原擴散模型經(jīng)過幾十億張圖片的預(yù)訓(xùn)練,因此參數(shù)是被“鎖定”的。而這個“可訓(xùn)練副本”只需要在特定任務(wù)的小數(shù)據(jù)集上訓(xùn)練,就能學(xué)會條件控制。

即使數(shù)據(jù)量很少(不超過5萬張圖片),模型經(jīng)過訓(xùn)練后條件控制生成的效果也很好。

“鎖定模型”和“可訓(xùn)練副本”通過一個1×1的卷積層連接,名叫“0卷積層”。0卷積層的權(quán)重和偏置初始化為0,這樣在訓(xùn)練時速度會非常快,接近微調(diào)擴散模型的速度,甚至在個人設(shè)備上訓(xùn)練也可以。

圖片

例如一塊英偉達RTX 3090TI,用20萬張圖像數(shù)據(jù)訓(xùn)練的話只需要不到一個星期。

ControlNet論文的第一作者Lvmin Zhang,目前是斯坦福博士生,除了ControlNet以外,包括Style2Paints、以及Fooocus等著名作品也出自他之手。

論文地址:https://arxiv.org/abs/2302.05543

第二篇論文「Passive Ultra-Wideband Single-Photon lmaging」,來自多倫多大學(xué)。

這篇論文被評選委員會稱之為“在主題(topic)上最令人驚訝的論文”,以至于其中一位評委表示“他幾乎不可能想到去嘗試這樣的事情”。

圖片

論文的摘要如下:

這篇文章討論了如何同時在極端時間尺度范圍內(nèi)(從秒到皮秒)對動態(tài)場景進行成像,同時要求成像passively(無需主動發(fā)送大量光信號)并在光線非常稀少的情況下進行,而且不依賴于來自光源的任何定時信號。

由于現(xiàn)有的單光子相機的光流估計技術(shù)在這個范圍內(nèi)失效,因此,這篇論文開發(fā)了一種光流探測理論,借鑒了隨機微積分的思想,以從單調(diào)遞增的光子檢測時間戳流中重建像素的時間變化光流。

基于這一理論,論文主要做了三件事:
(1)表明在低光流條件下,被動自由運行的單光子波長探測器相機具有可達到的頻率帶寬,跨越從直流到31 GHz范圍的整個頻譜;
(2)推導(dǎo)出一種新穎的傅立葉域光流重建算法,用于掃描時間戳數(shù)據(jù)中具有統(tǒng)計學(xué)顯著支持的頻率;
(3)確保算法的噪聲模型即使在非常低的光子計數(shù)或非可忽略的死區(qū)時間(dead times)情況下仍然有效。

作者通過實驗證明了這種異步成像方式的潛力,包括一些前所未見的能力:
(1)在沒有同步(如燈泡、投影儀、多脈沖激光器)的情況下,對以不同速度運行的光源同時照明的場景進行成像;
(2)被動的非視域(non-line-of-sight)視頻采集;
(3)記錄超寬帶視頻,可以在30 Hz的頻率下回放,展示日常運動,但也可以以每秒十億分之一的速度播放,以展示光的傳播過程。

圖片

論文一作Mian Wei,多倫多大學(xué)博士生,研究方向是計算攝影,目前的研究興趣在于基于主動照明成像技術(shù)改進計算機視覺算法。

論文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

「分割一切」獲榮譽提名

除了備受關(guān)注的ControNet之外,紅極一時的Meta「分割一切」模型獲得了此次大會的最佳論文獎榮譽提名。

圖片

這篇論文不僅提出了一個當(dāng)前最大的圖像分割數(shù)據(jù)集,在11M圖像上擁有超過10億個遮罩(mask),而且為此訓(xùn)練出了一個SAM模型,可以快速分割沒見過的圖像。

圖片

相比于之前比較零散的圖像分割模型,SAM可以說是對這一系列模型功能進行了“大一統(tǒng)”,而且在各項任務(wù)中都表現(xiàn)出了不錯的性能。

目前,這一開源模型已經(jīng)在GitHub上攬獲38.8k星,可以說是語義分割工業(yè)界的「標桿」了。

圖片

論文地址:https://arxiv.org/abs/2304.02643
項目主頁:https://segment-anything.com/

而在學(xué)生作品當(dāng)中,Google提出的「追蹤一切」模型脫穎而出。

就像文章的標題一樣,這個模型可以在任何地點同時對圖像中的任意(多個)物體進行像素級追蹤。

圖片

該項目的第一作者是康奈爾大學(xué)的華人博士Qianqian Wang,目前正在UCB進行博士后研究。

圖片

論文地址:https://arxiv.org/abs/2306.05422
項目主頁:https://omnimotion.github.io/

此外,開幕式上還公布了由PAMITC委員會成員捐助的特別獎項,該委員會同時也捐助CVPR和WACV兩個計算機視覺領(lǐng)域會議的獎項。

這些獎項包括以下四個:

  • 亥姆赫茲獎:十年前對計算機視覺研究產(chǎn)生重大影響的ICCV論文
  • Everingham獎:計算機視覺領(lǐng)域的進步
  • 杰出研究者:對計算機視覺的進步做出重大貢獻的研究人員
  • Rosenfeld終身成就獎:在長期職業(yè)生涯中對計算機視覺領(lǐng)域做出重大貢獻的研究人員

其中獲得亥姆赫茲獎的是Meta AI的華裔科學(xué)家Heng Wang和Google的Cordelia Schmid。

他們憑借2013年發(fā)表的一篇有關(guān)動作識別的論文獲得了這一獎項。

當(dāng)時兩人都在法國國立計算機及自動化研究院(法語縮寫:INRIA)下屬的Lear實驗室工作,Schmid是當(dāng)時該實驗室的領(lǐng)導(dǎo)者。

圖片

論文地址:https://ieeexplore.ieee.org/document/6751553

Everingham獎則頒發(fā)給了兩個團隊。

第一組獲得者是來自Google的Samer Agarwal、Keir Mierle和他們的團隊。

兩位獲獎?wù)叻謩e畢業(yè)于華盛頓大學(xué)和多倫多大學(xué),獲獎的成果是計算機視覺領(lǐng)域廣泛使用的開源C++庫Ceres Solver。

圖片

項目主頁:http://ceres-solver.org/

另一項獲獎成果是COCO數(shù)據(jù)集,它包含了大量的圖像和注釋,有豐富的內(nèi)容和任務(wù),是測試計算機視覺模型的重要數(shù)據(jù)集。

該數(shù)據(jù)集由微軟提出,相關(guān)論文第一作者是華裔科學(xué)家Tsung-Yi Lin,博士畢業(yè)于康奈爾大學(xué),現(xiàn)在英偉達實驗室擔(dān)任研究人員。

圖片
圖片

論文地址:https://arxiv.org/abs/1405.0312
項目主頁:https://cocodataset.org/

獲得杰出研究者榮譽的則是德國馬普所的Michael Black和約翰森霍普金斯大學(xué)的Rama Chellappa兩位教授。

圖片

來自MIT的Ted Adelson教授則獲得了終身成就獎。

圖片

你的論文被ICCV 2023錄用了嗎?感覺今年的獎項評選如何?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-10-05 12:28:41

AI論文

2024-03-01 10:04:11

研究訓(xùn)練編碼器

2022-04-02 09:38:00

CSS3flex布局方式

2024-07-30 10:51:51

2023-05-04 12:19:47

模型AI

2018-01-09 20:35:11

Swift編程語言

2023-04-10 15:52:57

模型樣本

2023-12-07 07:16:57

Meta訓(xùn)練

2020-08-18 14:20:44

谷歌算力開發(fā)者

2023-07-17 13:14:45

模型分割

2023-04-27 09:27:44

視頻AI

2025-03-13 11:11:04

2021-08-03 13:42:34

數(shù)字化

2016-08-31 17:24:05

大數(shù)據(jù)分析

2012-12-31 11:22:58

開源開放

2020-09-11 10:55:10

useState組件前端

2011-10-10 09:24:39

Android后PC時代兼容

2022-04-01 15:24:39

物聯(lián)網(wǎng)

2020-09-23 10:59:00

開發(fā)技能代碼

2020-07-14 09:01:19

PGMySQLPostgreSQL
點贊
收藏

51CTO技術(shù)棧公眾號