自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="dpdgs"><track id="dpdgs"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ICCV'23論文頒獎“神仙打架”！Meta分割一切和ControlNet共同入選，還有一篇讓評委們很驚訝

作者：克雷西蕭簫 2023-10-04 18:55:51

人工智能新聞

自開源以來，ControlNet已經(jīng)在GitHub上攬獲24k星。無論是對擴散模型、還是對整個計算機視覺領(lǐng)域而言，這篇論文獲獎都可以說是實至名歸。

剛剛，計算機視覺巔峰大會ICCV 2023，在法國巴黎正式“開獎”！

今年的最佳論文獎，簡直是“神仙打架”。

例如，獲得最佳論文獎的兩篇論文中，就包括顛覆文生圖AI領(lǐng)域的著作——ControlNet。

自開源以來，ControlNet已經(jīng)在GitHub上攬獲24k星。無論是對擴散模型、還是對整個計算機視覺領(lǐng)域而言，這篇論文獲獎都可以說是實至名歸。

而最佳論文獎榮譽提名，則頒給了另一篇同樣出名的論文，Meta的「分割一切」模型SAM。

自推出以來，「分割一切」已經(jīng)成為了各種圖像分割A(yù)I模型的“標桿”，包括后來居上的不少FastSAM、LISA、SegGPT，全部都是以它為參考基準進行效果測試。

論文提名都如此重量級，這屆ICCV 2023競爭有多激烈？

整體來看，ICCV 2023一共提交了8068篇論文，其中只有約四分之一、即2160篇論文被錄用。

其中近10%的論文來自中國，除了高校以外也有不少產(chǎn)業(yè)機構(gòu)的身影，像商湯科技及聯(lián)合實驗室有49篇論文入選ICCV 2023，曠視有14篇論文入選。

一起來看看這一屆ICCV 2023的獲獎?wù)撐亩加心男?/p>

ControlNet獲ICCV最佳論文

首先來看看今年獲得最佳論文獎（馬爾獎）的兩篇論文。

ICCV最佳論文又名馬爾獎（Marr Prize），每兩年評選一次，被譽為計算機視覺領(lǐng)域的最高榮譽之一。

這一獎項因計算機視覺之父、計算機視覺先驅(qū)、計算神經(jīng)科學(xué)的創(chuàng)始人David Courtnay Marr（大衛(wèi)·馬爾）而得名。

第一篇最佳論文獎「Adding Conditional Control to Text-to-Image Diffusion Models」，來自斯坦福。

這篇論文提出了一種名叫ControlNet的模型，只需給預(yù)訓(xùn)練擴散模型增加一個額外的輸入，就能控制它生成的細節(jié)。

這里的輸入可以是各種類型，包括草圖、邊緣圖像、語義分割圖像、人體關(guān)鍵點特征、霍夫變換檢測直線、深度圖、人體骨骼等，所謂的“AI會畫手”了，核心技術(shù)正是來自于這篇文章。

它的思路和架構(gòu)如下：

ControlNet先復(fù)制一遍擴散模型的權(quán)重，得到一個“可訓(xùn)練副本”（trainable copy）。

相比之下，原擴散模型經(jīng)過幾十億張圖片的預(yù)訓(xùn)練，因此參數(shù)是被“鎖定”的。而這個“可訓(xùn)練副本”只需要在特定任務(wù)的小數(shù)據(jù)集上訓(xùn)練，就能學(xué)會條件控制。

即使數(shù)據(jù)量很少（不超過5萬張圖片），模型經(jīng)過訓(xùn)練后條件控制生成的效果也很好。

“鎖定模型”和“可訓(xùn)練副本”通過一個1×1的卷積層連接，名叫“0卷積層”。0卷積層的權(quán)重和偏置初始化為0，這樣在訓(xùn)練時速度會非常快，接近微調(diào)擴散模型的速度，甚至在個人設(shè)備上訓(xùn)練也可以。

例如一塊英偉達RTX 3090TI，用20萬張圖像數(shù)據(jù)訓(xùn)練的話只需要不到一個星期。

ControlNet論文的第一作者Lvmin Zhang，目前是斯坦福博士生，除了ControlNet以外，包括Style2Paints、以及Fooocus等著名作品也出自他之手。

論文地址：https://arxiv.org/abs/2302.05543

第二篇論文「Passive Ultra-Wideband Single-Photon lmaging」，來自多倫多大學(xué)。

這篇論文被評選委員會稱之為“在主題（topic）上最令人驚訝的論文”，以至于其中一位評委表示“他幾乎不可能想到去嘗試這樣的事情”。

論文的摘要如下：

這篇文章討論了如何同時在極端時間尺度范圍內(nèi)（從秒到皮秒）對動態(tài)場景進行成像，同時要求成像passively（無需主動發(fā)送大量光信號）并在光線非常稀少的情況下進行，而且不依賴于來自光源的任何定時信號。

由于現(xiàn)有的單光子相機的光流估計技術(shù)在這個范圍內(nèi)失效，因此，這篇論文開發(fā)了一種光流探測理論，借鑒了隨機微積分的思想，以從單調(diào)遞增的光子檢測時間戳流中重建像素的時間變化光流。

基于這一理論，論文主要做了三件事：
（1）表明在低光流條件下，被動自由運行的單光子波長探測器相機具有可達到的頻率帶寬，跨越從直流到31 GHz范圍的整個頻譜；
（2）推導(dǎo)出一種新穎的傅立葉域光流重建算法，用于掃描時間戳數(shù)據(jù)中具有統(tǒng)計學(xué)顯著支持的頻率；
（3）確保算法的噪聲模型即使在非常低的光子計數(shù)或非可忽略的死區(qū)時間（dead times）情況下仍然有效。

作者通過實驗證明了這種異步成像方式的潛力，包括一些前所未見的能力：
（1）在沒有同步（如燈泡、投影儀、多脈沖激光器）的情況下，對以不同速度運行的光源同時照明的場景進行成像；
（2）被動的非視域（non-line-of-sight）視頻采集；
（3）記錄超寬帶視頻，可以在30 Hz的頻率下回放，展示日常運動，但也可以以每秒十億分之一的速度播放，以展示光的傳播過程。

論文一作Mian Wei，多倫多大學(xué)博士生，研究方向是計算攝影，目前的研究興趣在于基于主動照明成像技術(shù)改進計算機視覺算法。

論文地址：https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

「分割一切」獲榮譽提名

除了備受關(guān)注的ControNet之外，紅極一時的Meta「分割一切」模型獲得了此次大會的最佳論文獎榮譽提名。

這篇論文不僅提出了一個當(dāng)前最大的圖像分割數(shù)據(jù)集，在11M圖像上擁有超過10億個遮罩（mask），而且為此訓(xùn)練出了一個SAM模型，可以快速分割沒見過的圖像。

相比于之前比較零散的圖像分割模型，SAM可以說是對這一系列模型功能進行了“大一統(tǒng)”，而且在各項任務(wù)中都表現(xiàn)出了不錯的性能。

目前，這一開源模型已經(jīng)在GitHub上攬獲38.8k星，可以說是語義分割工業(yè)界的「標桿」了。

論文地址：https://arxiv.org/abs/2304.02643
項目主頁：https://segment-anything.com/

而在學(xué)生作品當(dāng)中，Google提出的「追蹤一切」模型脫穎而出。

就像文章的標題一樣，這個模型可以在任何地點同時對圖像中的任意（多個）物體進行像素級追蹤。

該項目的第一作者是康奈爾大學(xué)的華人博士Qianqian Wang，目前正在UCB進行博士后研究。

論文地址：https://arxiv.org/abs/2306.05422
項目主頁：https://omnimotion.github.io/

此外，開幕式上還公布了由PAMITC委員會成員捐助的特別獎項，該委員會同時也捐助CVPR和WACV兩個計算機視覺領(lǐng)域會議的獎項。

這些獎項包括以下四個：

亥姆赫茲獎：十年前對計算機視覺研究產(chǎn)生重大影響的ICCV論文
Everingham獎：計算機視覺領(lǐng)域的進步
杰出研究者：對計算機視覺的進步做出重大貢獻的研究人員
Rosenfeld終身成就獎：在長期職業(yè)生涯中對計算機視覺領(lǐng)域做出重大貢獻的研究人員

其中獲得亥姆赫茲獎的是Meta AI的華裔科學(xué)家Heng Wang和Google的Cordelia Schmid。

他們憑借2013年發(fā)表的一篇有關(guān)動作識別的論文獲得了這一獎項。

當(dāng)時兩人都在法國國立計算機及自動化研究院（法語縮寫：INRIA）下屬的Lear實驗室工作，Schmid是當(dāng)時該實驗室的領(lǐng)導(dǎo)者。

論文地址：https://ieeexplore.ieee.org/document/6751553

Everingham獎則頒發(fā)給了兩個團隊。

第一組獲得者是來自Google的Samer Agarwal、Keir Mierle和他們的團隊。

兩位獲獎?wù)叻謩e畢業(yè)于華盛頓大學(xué)和多倫多大學(xué)，獲獎的成果是計算機視覺領(lǐng)域廣泛使用的開源C++庫Ceres Solver。

項目主頁：http://ceres-solver.org/

另一項獲獎成果是COCO數(shù)據(jù)集，它包含了大量的圖像和注釋，有豐富的內(nèi)容和任務(wù)，是測試計算機視覺模型的重要數(shù)據(jù)集。

該數(shù)據(jù)集由微軟提出，相關(guān)論文第一作者是華裔科學(xué)家Tsung-Yi Lin，博士畢業(yè)于康奈爾大學(xué)，現(xiàn)在英偉達實驗室擔(dān)任研究人員。

論文地址：https://arxiv.org/abs/1405.0312
項目主頁：https://cocodataset.org/

獲得杰出研究者榮譽的則是德國馬普所的Michael Black和約翰森霍普金斯大學(xué)的Rama Chellappa兩位教授。

來自MIT的Ted Adelson教授則獲得了終身成就獎。

你的論文被ICCV 2023錄用了嗎？感覺今年的獎項評選如何？

責(zé)任編輯：張燕妮來源：量子位

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="ry0sk"><s id="ry0sk"></s></sub>