自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="dadj5"><menu id="dadj5"><input id="dadj5"></input></menu></abbr>

<tfoot id="dadj5"><samp id="dadj5"></samp></tfoot>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

港大阿里「視覺AI任意門」，一鍵向場景中無縫傳送物體

作者：克雷西 2023-07-23 19:24:30

人工智能新聞

相對于已有的類似模型，AnyDoor具有零樣本操作能力，無需針對具體物品調(diào)整模型。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

點(diǎn)兩下鼠標(biāo)，就能把物體無縫「傳送」到照片場景中，光線角度和透視也能自動適應(yīng)。

阿里和港大的這個AI版「任意門」，實(shí)現(xiàn)了零樣本的圖像嵌入。

有了它，網(wǎng)購衣服也可以直接看上身效果了。

因?yàn)楣δ芎腿我忾T十分相似，所以研發(fā)團(tuán)隊(duì)給它起的名字就叫AnyDoor。

AnyDoor一次能夠傳送多個物體。

圖片

不僅如此，它還能移動圖像里的已有物品。

圖片

有網(wǎng)友看了之后贊嘆到，或許接下來就會進(jìn)化到（把物體傳入到）視頻了。

零樣本生成逼真效果

相對于已有的類似模型，AnyDoor具有零樣本操作能力，無需針對具體物品調(diào)整模型。

除了這些需要進(jìn)行參數(shù)調(diào)節(jié)的模型之外，AnyDoor相對于其他Reference類模型也更為準(zhǔn)確。

實(shí)際上，其他的Reference類模型只能做到保持語義一致性。

通俗地說，如果要傳送的物體是一只貓，其他模型只能保證結(jié)果中也有一只貓，但相似度無法保證。

我們不妨把AnyDoor的效果放大看看，是不是看不出什么破綻？

用戶評價的結(jié)果也證實(shí)，AnyDoor在質(zhì)量和準(zhǔn)確度方面表現(xiàn)均優(yōu)于現(xiàn)有模型（滿分4分）。

而對于已有圖像中物體的移動、換位，甚至改變姿態(tài)，AnyDoor也能出色完成。

那么，AnyDoor是如何實(shí)現(xiàn)這些功能的呢？

工作原理

圖片

要想實(shí)現(xiàn)物體的傳送，首先就要對其進(jìn)行提取。

不過在將包含目標(biāo)物體的圖像送入提取器之前，AnyDoor首先會對其進(jìn)行背景消除。

然后，AnyDoor會進(jìn)行自監(jiān)督式的物體提取并轉(zhuǎn)換成token。

這一步使用的編碼器是以目前最好的自監(jiān)督模型DINO-V2為基礎(chǔ)設(shè)計的。

為了適應(yīng)角度和光線的變化，除了提取物品的整體特征，還需要額外提取細(xì)節(jié)信息。

這一步中，為了避免過度約束，團(tuán)隊(duì)設(shè)計了一種用高頻圖表示特征信息的方式。

將目標(biāo)圖像與Sobel算子等高通濾波器進(jìn)行卷積，可以得到含高頻詳情的圖像。

同時，AnyDoor利用Hadamard對圖像中的RGB色彩信息進(jìn)行提取。

結(jié)合這些信息和過濾邊緣信息的遮罩，得到了只含高頻細(xì)節(jié)的HF-Map。

最后一步就是將這些信息進(jìn)行注入。

利用獲取到的token，AnyDoor通過文生圖模型對圖像進(jìn)行合成。

具體來說，AnyDoor使用的是帶有ControlNet的Stable Diffusion。

AnyDoor的工作流程大致就是這樣。而在訓(xùn)練方面，也有一些特殊的策略。

△AnyDoor使用的訓(xùn)練數(shù)據(jù)集

盡管AnyDoor針對的是靜態(tài)圖像，但有一部分用于訓(xùn)練的數(shù)據(jù)是從視頻當(dāng)中提取出來的。

對于同一物體，視頻當(dāng)中可以提取出包含不同背景的圖像。

將物體與背景分離后標(biāo)注配對，就形成了AnyDoor的訓(xùn)練數(shù)據(jù)。

不過雖然視頻數(shù)據(jù)有利于學(xué)習(xí)，但還存在質(zhì)量問題需要解決。

于是團(tuán)隊(duì)設(shè)計了自適應(yīng)時間步采樣策略，在不同時刻分別采集變化和細(xì)節(jié)信息。

通過消融實(shí)驗(yàn)結(jié)果可以看出，隨著這些策略的加入，CLIP和DINO評分均逐漸升高。

團(tuán)隊(duì)簡介

論文的第一作者是香港大學(xué)博士生陳汐（Xi Chen），他曾經(jīng)是阿里巴巴集團(tuán)算法工程師。

陳汐的導(dǎo)師Hengshuang Zhao是本文的通訊作者，研究領(lǐng)域包括機(jī)器視覺、機(jī)器學(xué)習(xí)等。

此外，阿里方面還有來自達(dá)摩院、菜鳥集團(tuán)的研究人員也參與了這一項(xiàng)目。

論文地址：https://arxiv.org/abs/2307.09481

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="4eih4"></style>

<sub id="4eih4"><p id="4eih4"></p></sub>