導師爆料:這篇CVPR最佳學生論文,從想法到成稿只用一個月,源自業(yè)余靈感
CVPR 2024 的最佳學生論文,竟然是用一個月的時間寫出來的。
北京時間 6 月 20 日凌晨,CVPR 2024 正式公布了最佳論文、最佳學生論文等獎項。其中,獲得最佳論文的有兩篇文章 ——BioCLIP 和 Mip-Splatting。
據(jù) Mip-Splatting 論文一作 Zehao Yu 的導師、圖賓根大學教授 Andreas Geiger 透露,這篇論文從想法公布到成稿,只用了一個月的時間。
而且,他還提到,Zehao Yu 之前參與過多個項目,并發(fā)表過自己的論文。但在 Mip-Splatting 項目之前,他從未接觸過高斯?jié)姙R技術,對于高斯?jié)姙R的入門也是在業(yè)余時間以個人興趣的形式展開的。這讓他不禁感嘆,「研究是高度非線性的,往往很難規(guī)劃,這正是它令人生畏的地方,同時也令人興奮。我們必須接受這一點。」
Mip-Splatting 論文的完整標題是「Mip-Splatting: Alias-free 3D Gaussian Splatting」。在論文中,Zehao Yu 等人介紹了一種用于 3D 圖像渲染的抗鋸齒 3D 高斯?jié)姙R方法 ——Mip-Splatting。
3D 圖像渲染是指生成三維圖像的過程。想象一下電腦游戲中的那些逼真的場景或動畫電影中的角色,它們都是通過渲染技術從一堆數(shù)據(jù)變成我們看到的圖像。
在計算機圖形學中,鋸齒(alias)是指圖像邊緣出現(xiàn)的鋸齒狀不平滑現(xiàn)象(見下圖)??逛忼X技術就是用來消除這些鋸齒,使圖像邊緣看起來更加平滑和自然,近幾年頗受關注的高斯?jié)姙R就是這樣一種技術。它利用高斯分布來平滑圖像邊緣,從而減少鋸齒效應,使得圖像更為平滑和自然。
在回顧 Zehao Yu 和他的研究歷程時,Andreas Geiger 提到:
Zehao 已經在我的實驗室里做了一段時間的博士生了。他和實驗室里的許多人一樣,做了很多出色的工作。首先,他參與了一些項目(TransFuser),并在 NeurIPS 2022 會議上發(fā)表了他的第一篇獨立論文(MonoSDF)。他還開發(fā)了一個用于表面重建的完整軟件框架,基于 SDF 模型(SDFStudio)。
在 Mip-Splatting 之前,他沒有用過高斯?jié)姙R方法。事實上,他當時正在研究另一個使用更「傳統(tǒng)」神經隱式表示的項目。但那個項目進展得不太順利,很長一段時間里充滿障礙。到了 2023 年 10 月,他在業(yè)余時間開始玩高斯?jié)姙R技術。他喜歡在業(yè)余時間嘗試新事物并研究新的模型。
3DGS(3D Gaussian Splatting)是當時的新技術。簡而言之,它可以從幾個輸入圖像中生成逼真的新視角,比 NeRF 和之前的其他方法更快。但 Zehao 對在超出訓練姿態(tài)分布時渲染的表現(xiàn)感到困惑。這些渲染效果會退化,結構變得太細或太粗。大概當時很多人都注意到了這些現(xiàn)象,但還沒有人解決它們。Zehao 有一個簡單的解決方案,并且在想這個方法是否夠好,是否值得發(fā)表。
在 10 月 18 日,Zehao 寫道:「大家好,我計劃提交一篇關于解決最近 3D 高斯?jié)姙R的抗鋸齒 / 縮放偽影的論文到 CVPR。我發(fā)現(xiàn)這些偽影的主要原因是低通濾波器。在使用潑濺方法進行渲染時,低通濾波器是非常常見的。但當它應用于優(yōu)化框架(從多視圖圖像重建)時,它會引入一種偏置,使得真實的 3D 高斯變小(因為濾波器在渲染過程中會使其變大)。所以當我們放大或縮小時,由于視角與訓練視角不同,我們會看到偽影。但我們不能簡單地拋棄低通濾波器,因為這樣就無法實現(xiàn)抗鋸齒。
我的解決方案非常簡單:1)我們應該使用較小的低通濾波器,這樣低通濾波器的效果不會在訓練中占主導地位;2)添加一個正則化,使得高斯不會變得太小?!?/p>
時間非常緊張:從想法到 CVPR 截止日期只有 1 個月。通常這種努力不會順利進行,因為剩下的時間太少,無法進行論文潤色或實驗。但 Zehao 堅信他甚至可以在截止日期前 1-2 周完成。他正在做實驗,我們所有人都開始一起寫論文。我們在 11 月 17 日提交給 CVPR,并在 1 月 23 日驚訝地收到 3 個「strong accept」的評審意見。昨天,Mip-Splatting 在 CVPR 獲得了最佳學生論文獎。我們非常感謝社區(qū)、評審、領域主席和獎項委員會對這個小小想法的認可。
Mip-Splatting 與其他方法的效果對比。
論文鏈接:https://arxiv.org/pdf/2311.16493
一個簡單的想法,用了短短一個月就寫成了論文,還拿到了 CVPR 最佳學生論文獎,不知其他研究者聽到有何感想。
Andreas Geiger 也謙虛得說,這里面有運氣的成分(有人可能認為這篇論文是增量式創(chuàng)新),評審的結果也未必 100% 公平。但他之所以分享這段經歷,只是想要表達:
研究往往是非常非線性的。在從事某項工作的同時,你會發(fā)現(xiàn)其他的東西。最重要的一點是要努力工作,充滿熱情,充滿好奇心,不斷嘗試新事物。要有創(chuàng)造力。提出瘋狂的想法。用未曾設計過的方式測試現(xiàn)有模型。不斷前進。這就是每個研究人員的核心:好奇心。試圖探究事物的本質。深入了解它們,從而(有時在不經意間非常意外地)做出新發(fā)現(xiàn)。
寫到這里,他還推薦了蘋果高級科學家 Vladlen Koltun 在 CVPR 2018 年的一個演講,主題是「Doing (Good) Research」。(演講鏈接:https://www.youtube.com/watch?v=4LEZED1YXm0&t=1420s)
不過,他也指出,在現(xiàn)行的科研系統(tǒng)中,科學家要通過提交研究計劃、 撰寫資助申請書來獲取研究項目資金,這和好奇心驅動的研究理念很不相稱,尤其是在 AI 這樣一個快速發(fā)展的領域。
「你很少能制定出一個精確的 3 年甚至 5 年愿景,并完全按照這個愿景行事。更有可能的情況是,在研究過程中會出現(xiàn)一些有趣的相關研究問題,這些問題值得研究,你不應該因為它們與你最初的研究計劃不完全一致而不去研究它們?!筕ladlen Koltun 寫到。但對此,他也沒有很好的解決方案。
最后介紹一下論文一作 Zehao Yu。他本科畢業(yè)于廈門大學,之后在上??萍即髮W拿到了碩士學位,2021 年前往德國圖賓根大學讀博。他的研究重點是計算機視覺和機器學習,特別是 3D 視覺(深度估計、平面檢測、多視圖立體視覺、3D 重建、3D 人體建模)。
個人主頁:https://niujinshuchong.github.io/