ControlNet、「分割一切」等熱門論文獲獎,ICCV 2023論文獎項公布
本周,國際計算機視覺大會 ICCV(International Conference on Computer Vision)在法國巴黎開幕。
作為全球計算機視覺領域頂級的學術會議,ICCV 每兩年召開一次。
和 CVPR 一樣,ICCV 的熱度屢創(chuàng)新高。
在今天的開幕式上,ICCV 官方公布了今年的論文數(shù)據(jù):本屆 ICCV 投稿總數(shù)達 8068 篇,其中 2160 篇被接收,錄用率為 26.8%,略高于上一屆 ICCV 2021 錄用率 25.9%。
在論文主題方面,官方也公布了相關數(shù)據(jù):3D from multi-view and sensors 熱度最高。
當然,今天開幕式最為重磅的內(nèi)容就是獲獎信息。接下來讓我們一一揭曉最佳論文、最佳論文提名、最佳學生論文。
最佳論文 - 馬爾獎
共有兩篇論文獲得今年的最佳論文(馬爾獎)。
第一篇來自多倫多大學的研究者。
- 論文地址:https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
- 作者:Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
- 機構:多倫多大學
摘要:本文考慮在極端的時間尺度范圍內(nèi),同時(秒到皮秒)對動態(tài)場景進行成像的問題,并且是被動地進行成像,沒有太多的光,也沒有來自發(fā)射它的光源的任何定時信號。由于單光子相機現(xiàn)有的通量估計(flux estimation)技術在這種情況下會失效,因此本文開發(fā)了一種通量探測理論,該理論從隨機微積分中汲取見解,從而能夠從單調(diào)增加的光子檢測時間戳流中重建像素的時變通量。
本文利用這一理論來 (1) 表明無源自由運行 SPAD 相機在低通量條件下具有可實現(xiàn)的頻率帶寬,跨越整個 DC-to31 GHz 范圍,(2) 推導出了一種新穎的傅里葉域通量重建算法,并且 (3) 確保算法的噪聲模型即使對于非常低的光子計數(shù)或不可忽略的死區(qū)時間也保持有效。
本文通過實驗展示了這種異步成像機制的潛力:(1)對由以截然不同的速度運行的光源(燈泡、投影儀、多個脈沖激光器)同時照明的場景進行成像,而無需同步,(2) 被動非視距視頻采集;(3) 記錄超寬帶視頻,稍后可以以 30 Hz 的速度播放以顯示日常運動,但也可以慢十億倍的速度播放以顯示光本身的傳播。
第二篇就是我們所熟知的 ControNet。
- 論文地址:https://arxiv.org/pdf/2302.05543.pdf
- 作者:Lvmin Zhang、Anyi Rao、Maneesh Agrawala
- 機構:斯坦福大學
摘要:本文提出了一種端到端的神經(jīng)網(wǎng)絡架構 ControlNet,該架構可以通過添加額外條件來控制擴散模型(如 Stable Diffusion),從而改善圖生圖效果,并能實現(xiàn)線稿生成全彩圖、生成具有同樣深度結構的圖、通過手部關鍵點還能優(yōu)化手部的生成等。
ControlNet 的核心思想是在文本描述之外添加一些額外條件來控制擴散模型(如 Stable Diffusion),從而更好地控制生成圖像的人物姿態(tài)、深度、畫面結構等信息。
這里的額外條件以圖像的形式來輸入,模型可以基于這張輸入圖像進行 Canny 邊緣檢測、深度檢測、語義分割、霍夫變換直線檢測、整體嵌套邊緣檢測(HED)、人體姿態(tài)識別等,然后在生成的圖像中保留這些信息。利用這一模型,我們可以直接把線稿或涂鴉轉換成全彩圖,生成具有同樣深度結構的圖等等,通過手部關鍵點還能優(yōu)化人物手部的生成。
詳細介紹請參考機器之心報道:《AI降維打擊人類畫家,文生圖引入ControlNet,深度、邊緣信息全能復用》
最佳論文提名:SAM
今年 4 月份,Meta 發(fā)布「分割一切(SAM)」AI 模型,可以為任何圖像或視頻中的任何物體生成 mask,讓計算機視覺(CV)領域研究者驚呼:「CV 不存在了」。
如今,這篇備受關注的論文摘的最佳論文提名。
- 論文地址:https://arxiv.org/abs/2304.02643
- 機構:Meta AI
簡介:此前解決分割問題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類別的對象,但需要一個人通過迭代細化掩碼來指導該方法。第二種,自動分割,允許分割提前定義的特定對象類別(例如,貓或椅子),但需要大量的手動注釋對象來訓練(例如,數(shù)千甚至數(shù)萬個分割貓的例子)。這兩種方法都沒有提供通用的、全自動的分割方法。
Meta 提出的 SAM 很好的概括了這兩種方法。它是一個單一的模型,可以輕松地執(zhí)行交互式分割和自動分割。該模型的可提示界面允許用戶以靈活的方式使用它,只需為模型設計正確的提示(點擊、boxes、文本等),就可以完成范圍廣泛的分割任務。
總而言之,這些功能使 SAM 能夠泛化到新任務和新領域。這種靈活性在圖像分割領域尚屬首創(chuàng)。
詳細介紹請參考機器之心報道:《CV 不存在了?Meta 發(fā)布「分割一切」AI 模型,CV 或迎來 GPT-3 時刻》
最佳學生論文
該研究由來自康奈爾大學、谷歌研究院和 UC 伯克利的研究者共同完成,一作是來自 Cornell Tech 的博士生 Qianqian Wang。他們聯(lián)合提出了一種完整且全局一致的運動表征 OmniMotion,并提出一種新的測試時(test-time)優(yōu)化方法,對視頻中每個像素進行準確、完整的運動估計。
- 論文地址:https://arxiv.org/abs/2306.05422
- 項目主頁:https://omnimotion.github.io/
摘要:在計算機視覺領域,常用的運動估計方法有兩種:稀疏特征追蹤和密集光流。但這兩種方法各有缺點,稀疏特征追蹤不能建模所有像素的運動;密集光流無法長時間捕獲運動軌跡。
該研究提出的 OmniMotion 使用 quasi-3D 規(guī)范體積來表征視頻,并通過局部空間和規(guī)范空間之間的雙射(bijection)對每個像素進行追蹤。這種表征能夠保證全局一致性,即使在物體被遮擋的情況下也能進行運動追蹤,并對相機和物體運動的任何組合進行建模。該研究通過實驗表明所提方法大大優(yōu)于現(xiàn)有 SOTA 方法。
詳細介紹請參考機器之心報道:《隨時隨地,追蹤每個像素,連遮擋都不怕的「追蹤一切」視頻算法來了》
當然,除了這些獲獎論文,今年 ICCV 還有許多優(yōu)秀論文值得大家關注。最后為大家附上 17 篇獲獎論文初始清單。