自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024最佳論文獎(jiǎng)公布!生成式AI成最大贏家

發(fā)布于 2024-6-20 12:14
瀏覽
0收藏

CVPR 2024

本次CVPR共有來(lái)自全球的2719篇論文被接收,錄用率為23.6%,相較去年下降2.2%。可以看到,其他國(guó)內(nèi)玩家也表現(xiàn)不俗,都有不少論文入選。


比如像騰訊優(yōu)圖實(shí)驗(yàn)室,此前曝光稱(chēng)有20篇入選,覆蓋多模態(tài)、人臉識(shí)別、視覺(jué)分割等多個(gè)方向。


這周,CVPR2024在美國(guó)西雅圖正在進(jìn)行中。

CVPR 2024 最佳論文獎(jiǎng)

一共兩篇獲獎(jiǎng)。


第一篇是Rich Human Feedback for Text-to-Image Generation


最近的文本到圖像(T2I)生成模型,如Stable Diffusion和Imagen,在基于文本描述生成高分辨率圖像方面取得了顯著進(jìn)展。然而,許多生成的圖像仍然存在問(wèn)題,例如偽影/不合理性、與文本描述不一致以及美學(xué)質(zhì)量較低。受到在大型語(yǔ)言模型中使用人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)取得的成功啟發(fā),先前的研究收集了人類(lèi)提供的對(duì)生成圖像的評(píng)分作為反饋,并訓(xùn)練了獎(jiǎng)勵(lì)模型以改善T2I生成。


在本文中,通過(guò)以下方式豐富反饋信號(hào):(i)標(biāo)記圖像中不合理或與文本不一致的區(qū)域,(ii)注釋文本提示中被誤代或遺漏在圖像上的單詞。我們?cè)?8000張生成的圖像上收集了這樣的豐富人類(lèi)反饋(RichHF-18K),并訓(xùn)練了一個(gè)多模態(tài)變壓器來(lái)自動(dòng)預(yù)測(cè)這些豐富的反饋。我們展示了預(yù)測(cè)的豐富人類(lèi)反饋可以用于改善圖像生成,例如通過(guò)選擇高質(zhì)量的訓(xùn)練數(shù)據(jù)對(duì)生成模型進(jìn)行微調(diào)和改進(jìn),或者通過(guò)創(chuàng)建帶有預(yù)測(cè)熱圖的掩碼來(lái)修復(fù)問(wèn)題區(qū)域。

值得注意的是,這些改進(jìn)不僅適用于收集人類(lèi)反饋數(shù)據(jù)的圖像生成模型(如Stable Diffusion的變體),還可以推廣到其他模型(如Muse)。RichHF-18K數(shù)據(jù)集將在我們的

GitHub倉(cāng)庫(kù)發(fā)布:??https://github.com/google-research/google-research/tree/master/richhf_18k??

CVPR 2024最佳論文獎(jiǎng)公布!生成式AI成最大贏家-AI.x社區(qū)

CVPR 2024最佳論文獎(jiǎng)公布!生成式AI成最大贏家-AI.x社區(qū)

另一篇是Generative Image Dynamics


理論性更強(qiáng),提出了一種基于圖像空間先驗(yàn)的場(chǎng)景運(yùn)動(dòng)建模方法,可用于通過(guò)靜態(tài)圖像生成無(wú)縫循環(huán)視頻,還能實(shí)現(xiàn)與圖像中目標(biāo)的交互。


文章提出了一種建模場(chǎng)景運(yùn)動(dòng)圖像空間先驗(yàn)的方法。先驗(yàn)是從展示自然振蕩動(dòng)態(tài)(如樹(shù)木、花朵、蠟燭和風(fēng)中飄動(dòng)的衣物)的真實(shí)視頻序列中提取的運(yùn)動(dòng)軌跡集合中學(xué)習(xí)得到的。在傅里葉域中建模了稠密的長(zhǎng)期運(yùn)動(dòng),將其表示為頻譜體積,發(fā)現(xiàn)這種表示非常適合擴(kuò)散模型的預(yù)測(cè)。在給定單張圖像的情況下,訓(xùn)練的模型使用頻率協(xié)調(diào)的擴(kuò)散抽樣過(guò)程來(lái)預(yù)測(cè)一個(gè)頻譜體積,然后可以將其轉(zhuǎn)換為覆蓋整個(gè)視頻的運(yùn)動(dòng)紋理。結(jié)合基于圖像的渲染模塊,預(yù)測(cè)的運(yùn)動(dòng)表示可以用于多種下游應(yīng)用,例如將靜止圖像轉(zhuǎn)換為無(wú)縫循環(huán)的視頻,或者允許用戶與圖像中的對(duì)象進(jìn)行交互,生成真實(shí)的模擬動(dòng)態(tài)(通過(guò)解釋頻譜體積作為圖像空間的模態(tài)基礎(chǔ))。更多結(jié)果請(qǐng)參見(jiàn)我們的項(xiàng)目頁(yè)面:generative-dynamics.github.io

CVPR 2024最佳論文獎(jiǎng)公布!生成式AI成最大贏家-AI.x社區(qū)

CVPR 2024最佳論文獎(jiǎng)公布!生成式AI成最大贏家-AI.x社區(qū)

CVPR 2024 最佳學(xué)生論文獎(jiǎng)

一篇BioCLIP: A Vision Foundation Model for the Tree of Life,構(gòu)建了TreeOfLife-10M這個(gè)大規(guī)模生物學(xué)圖像數(shù)據(jù)集,并提出BioCLIP基礎(chǔ)模型來(lái)學(xué)習(xí)生物分類(lèi)的層次表示。

自然界的圖像,通過(guò)各種攝像設(shè)備收集,從無(wú)人機(jī)到個(gè)人手機(jī),正在成為獲取生物信息的日益豐富的來(lái)源。計(jì)算方法和工具,尤其是計(jì)算機(jī)視覺(jué),正在迅速發(fā)展,用于從圖像中提取與生物學(xué)相關(guān)的信息,用于科學(xué)研究和保護(hù)。然而,大多數(shù)這些方法都是為特定任務(wù)設(shè)計(jì)的定制方法,不易適應(yīng)或擴(kuò)展到新的問(wèn)題、背景和數(shù)據(jù)集?,F(xiàn)在正是需要一個(gè)面向圖像的通用生物學(xué)問(wèn)題的視覺(jué)模型的時(shí)候。為了解決這個(gè)問(wèn)題,研究人員策劃并發(fā)布了TreeOfLife-10M,這是迄今為止最大、最多樣化的面向機(jī)器學(xué)習(xí)的生物圖像數(shù)據(jù)集。然后,開(kāi)發(fā)了BioCLIP,這是一個(gè)基于生命之樹(shù)的基礎(chǔ)模型,利用TreeOfLife-10M捕捉到的生物學(xué)獨(dú)特屬性,即植物、動(dòng)物和真菌的圖像豐富多樣性,以及豐富的結(jié)構(gòu)化生物知識(shí)的可用性。在多樣的細(xì)粒度生物分類(lèi)任務(wù)上對(duì)我們的方法進(jìn)行了嚴(yán)格的基準(zhǔn)測(cè)試,并發(fā)現(xiàn)BioCLIP始終明顯優(yōu)于現(xiàn)有的基線模型(絕對(duì)優(yōu)勢(shì)為16%到17%)。內(nèi)在評(píng)估顯示,BioCLIP已學(xué)習(xí)到符合生命之樹(shù)的分層表示,揭示了其強(qiáng)大的泛化能力。詳細(xì)信息可查看:https://imageomics.github.io/bioclip,該網(wǎng)站提供模型、數(shù)據(jù)和代碼。

CVPR 2024最佳論文獎(jiǎng)公布!生成式AI成最大贏家-AI.x社區(qū)

另一篇是3D Gaussian Splatting領(lǐng)域的Mip-Splatting: Alias-free 3D Gaussian Splatting,通過(guò)引入3D平滑濾波器、用2D Mip濾波器替換2D膨脹濾波器來(lái)消除偽影和混疊等問(wèn)題。


最近,3D Gaussian Splatting在新視角合成方面展示了令人印象深刻的結(jié)果,達(dá)到了高保真度和效率。然而,當(dāng)改變采樣率,例如改變焦距或相機(jī)距離時(shí),會(huì)觀察到明顯的偽影。我們發(fā)現(xiàn),這種現(xiàn)象的根源可以歸因于缺乏3D頻率約束以及使用2D膨脹濾波器。為了解決這個(gè)問(wèn)題,引入了一種3D平滑濾波器,根據(jù)輸入視圖引起的最大采樣頻率約束3D高斯基元的大小,從而在放大時(shí)消除高頻偽影。此外,用模擬2D box濾波器的2D Mip濾波器替換2D膨脹,有效地緩解了混疊和膨脹問(wèn)題。我們的評(píng)估包括在單一尺度圖像上訓(xùn)練和在多個(gè)尺度上測(cè)試的場(chǎng)景,驗(yàn)證了我們方法的有效性。

CVPR 2024最佳論文獎(jiǎng)公布!生成式AI成最大贏家-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/Yqaj_yfcqaC3238d_4YyBQ??

標(biāo)簽
已于2024-6-20 12:15:28修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦