自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擴散模型圖像理解力刷新SOTA!字節(jié)復(fù)旦團隊提出全新「元提示」策略

人工智能 新聞
過去一年擴散模型風(fēng)頭正勁,徹底改變了文生圖領(lǐng)域!那么,擴散模型能否處理視覺感知任務(wù)?字節(jié)跳動和復(fù)旦大學(xué)技術(shù)團隊在最新研究中提出了一個簡單有效的方案。

Text-to-image(T2I)擴散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對上的預(yù)訓(xùn)練。

這引發(fā)了一個自然的問題:擴散模型是否可以用于解決視覺感知任務(wù)? 

近期,來自字節(jié)跳動和復(fù)旦大學(xué)的技術(shù)團隊提出了一種簡單而有效的方案:利用擴散模型處理視覺感知任務(wù)。

圖片

論文地址:https://arxiv.org/abs/2312.14733

開源項目:https://github.com/fudan-zvg/meta-prompts

團隊的關(guān)鍵洞察是引入可學(xué)習(xí)的元提示(meta prompts)到預(yù)訓(xùn)練的擴散模型中,以提取適合特定感知任務(wù)的特征。

技術(shù)介紹 

團隊將text-to-image擴散模型作為特征提取器應(yīng)用于視覺感知任務(wù)中。

輸入圖像首先通過VQVAE編碼器進行圖像壓縮。這一步將圖像分辨率降低到原始大小的1/8,產(chǎn)生latent space中的特征表示,即。值得注意的是,VQVAE編碼器的參數(shù)是固定的,不參與后續(xù)訓(xùn)練。 

接下來,保持未添加噪聲的被送入到UNet進行特征提取。為了更好地適應(yīng)不同任務(wù),UNet同時接收調(diào)制的timestep embeddings和多個meta prompts,產(chǎn)生與形狀一致的特征。

在整個過程中,為了增強特征表達,該方法進行了步的recurrent refinement。這使得UNet內(nèi)不同層的特征能夠更好地交互融合。在第次循環(huán)中,UNet的參數(shù)由特定的可學(xué)習(xí)的時間調(diào)制特征調(diào)節(jié)。 

最終,UNet生成的多尺度特征輸入到專門為目標(biāo)視覺任務(wù)設(shè)計的解碼器中。

可學(xué)習(xí)的元提示(meta prompts)設(shè)計 

Stable diffusion model采用UNet架構(gòu),通過交叉注意力將文本提示融入圖像特征中,實現(xiàn)了文生圖。這種整合確保了圖像生成在語境和語義上的準(zhǔn)確性。

然而,視覺感知任務(wù)的多樣性超出了這一范疇,因為圖像理解面臨著不同的挑戰(zhàn),往往缺乏文本信息作為指導(dǎo),使得以文本驅(qū)動的方法有時顯得不切實際。 

為應(yīng)對這一挑戰(zhàn),技術(shù)團隊的方法采用了更為多樣的策略——不依賴外部文本提示,而是設(shè)計了一種內(nèi)部的可學(xué)習(xí)元提示,稱為meta prompts,這些meta prompts被集成到擴散模型中,以適應(yīng)感知任務(wù)。

圖片

Meta prompts以矩陣 的形式表示,其中表示meta prompts的數(shù)量,表示維度。具備meta prompts的感知擴散模型避免了對外部文本提示的需求,如數(shù)據(jù)集類別標(biāo)簽或圖像標(biāo)題,也無需預(yù)訓(xùn)練的文本編碼器來生成最終的文本提示。 

Meta prompts可以根據(jù)目標(biāo)任務(wù)和數(shù)據(jù)集進行端到端的訓(xùn)練,從而為去噪UNet建立特別定制的適應(yīng)條件。這些meta prompts包含豐富的、適應(yīng)于特定任務(wù)的語義信息。比如:

- 在語義分割任務(wù)中,meta prompts有效地展示了對類別的識別能力,相同的meta prompts傾向于激活同一類別的特征。

圖片

- 在深度估計任務(wù)中,meta prompts表現(xiàn)出對深度的感知能力,激活值隨深度變化,使prompts能夠集中關(guān)注一致距離的物體。

圖片

- 在姿態(tài)估計中,meta prompts展現(xiàn)出一套不同的能力,特別是關(guān)鍵點的感知,這有助于人體姿態(tài)檢測。

圖片

這些定性結(jié)果共同突顯了技術(shù)團隊提出的meta prompts在各種任務(wù)中對任務(wù)相關(guān)激活能力的有效性。

作為文本提示的替代品,meta prompts很好地填補了了text-to-image擴散模型與視覺感知任務(wù)之間的溝壑。

基于元提示的特征重組 

擴散模型通過其固有的設(shè)計,在去噪UNet中生成多尺度特征,這些特征在接近輸出層時聚焦于更細致、低級的細節(jié)信息。

雖然這種低級細節(jié)對于強調(diào)紋理和細粒度的任務(wù)來說足夠,但視覺感知任務(wù)通常需要理解既包括低級細節(jié)的又包括高級語義解釋的內(nèi)容。

因此,不僅需要生成豐富的特征,確定這些多尺度特征的哪種組合方式可以為當(dāng)前任務(wù)提供最佳表征也非常重要。 

這就是meta prompts的作用所在——

這些prompts在訓(xùn)練過程中保存了與所使用數(shù)據(jù)集特定相關(guān)的上下文知識。這種上下文知識使meta prompts能夠充當(dāng)特征重組的過濾器,引導(dǎo)特征選取過程,從UNet產(chǎn)生的眾多特征中篩選出與任務(wù)最相關(guān)的特征。 

團隊使用點積的方式將UNet的多尺度特征的豐富性與meta prompts的任務(wù)適應(yīng)性結(jié)合起來。 

考慮多尺度特征,其中每個。和表示特征圖的高度和寬度。Meta prompts 。每個尺度上重排的特征的計算為: 

最后,這些經(jīng)過meta prompts過濾的特征隨后輸入到特定任務(wù)的解碼器中。 

基于可學(xué)習(xí)的時間調(diào)制特征的recurrent refinement 

在擴散模型中,添加噪聲然后多步去噪的迭代過程構(gòu)成了圖像生成的框架。

受此機制的啟發(fā),技術(shù)團隊為視覺感知任務(wù)設(shè)計了一個簡單的recurrent refinement過程——沒有向輸出特征中添加噪聲,而是直接將UNet的輸出特征循環(huán)輸入到UNet中。

同時為了解決隨著模型通過循環(huán),輸入特征的分布會發(fā)生變化但UNet的參數(shù)保持不變的不一致的問題,技術(shù)團隊對于每個循環(huán)引入了可學(xué)習(xí)的獨特的timestep embeddings,以調(diào)制UNet的參數(shù)。

這確保了網(wǎng)絡(luò)對于不同步驟中輸入特征的變化性保持適應(yīng)性和響應(yīng)性,優(yōu)化了特征提取過程,并增強了模型在視覺識別任務(wù)中的性能。 

結(jié)果顯示,該方法在多個感知任務(wù)數(shù)據(jù)集上都取得了最優(yōu)。

圖片

圖片

圖片

圖片

應(yīng)用落地和展望 

該文章提出的方法和技術(shù)有廣泛的應(yīng)用前景,可以在多個領(lǐng)域內(nèi)推動技術(shù)的發(fā)展和創(chuàng)新:

  1. 視覺感知任務(wù)的改進:該研究能夠提升各種視覺感知任務(wù)的性能,如圖像分割、深度估計和姿態(tài)估計。這些改進可應(yīng)用于自動駕駛、醫(yī)學(xué)影像分析、機器人視覺系統(tǒng)等領(lǐng)域。 
  2. 增強的計算機視覺模型:所提出的技術(shù)可以使計算機視覺模型在處理復(fù)雜場景時更加準(zhǔn)確和高效,特別是在缺乏明確文本描述的情況下。這對于圖像內(nèi)容理解等應(yīng)用尤為重要。 
  3. 跨領(lǐng)域應(yīng)用:該研究的方法和發(fā)現(xiàn)可以激勵跨領(lǐng)域的研究和應(yīng)用,比如在藝術(shù)創(chuàng)作、虛擬現(xiàn)實、增強現(xiàn)實中,用于提高圖像和視頻的質(zhì)量和互動性。 
  4. 長期展望:隨著技術(shù)的進步,這些方法可能會進一步完善,帶來更先進的圖像生成和內(nèi)容理解技術(shù)。 

團隊介紹

智能創(chuàng)作團隊是字節(jié)跳動AI&多媒體技術(shù)中臺,覆蓋了計算機視覺、音視頻編輯、特效處理等技術(shù)領(lǐng)域,借助公司豐富的業(yè)務(wù)場景、基礎(chǔ)設(shè)施資源和技術(shù)協(xié)作氛圍,實現(xiàn)了前沿算法-工程系統(tǒng)-產(chǎn)品全鏈路的閉環(huán),旨在以多種形式為公司內(nèi)部各業(yè)務(wù)提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動體驗與消費的能力和行業(yè)解決方案。 

目前,智能創(chuàng)作團隊已通過字節(jié)跳動旗下的云服務(wù)平臺火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。更多大模型算法相關(guān)崗位開放中,歡迎點擊「閱讀原文」查看。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-07-17 11:02:36

模型開源

2023-07-27 13:58:19

2024-01-24 13:17:00

AI技術(shù)

2025-02-18 09:27:20

2025-02-25 09:30:00

2023-04-28 15:53:55

框架模型

2023-10-23 12:43:05

模型訓(xùn)練

2024-10-12 10:57:39

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2021-12-30 10:11:38

模型人工智能深度學(xué)習(xí)

2024-12-24 10:30:00

2021-09-03 16:41:26

模型人工智能深度學(xué)習(xí)

2024-09-14 14:15:00

數(shù)據(jù)訓(xùn)練

2023-10-29 22:25:23

模型AI

2025-04-03 11:16:10

2022-07-17 13:07:26

模型開源

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2023-08-15 14:18:19

智能研究

2025-01-03 15:39:02

2023-10-16 12:31:17

人工智能數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號