擴散模型圖像理解力刷新SOTA!字節(jié)復(fù)旦團隊提出全新「元提示」策略
Text-to-image(T2I)擴散模型在生成高清晰度圖像方面顯示出了卓越的能力,這一成就得益于其在大規(guī)模圖像-文本對上的預(yù)訓(xùn)練。
這引發(fā)了一個自然的問題:擴散模型是否可以用于解決視覺感知任務(wù)?
近期,來自字節(jié)跳動和復(fù)旦大學(xué)的技術(shù)團隊提出了一種簡單而有效的方案:利用擴散模型處理視覺感知任務(wù)。
論文地址:https://arxiv.org/abs/2312.14733
開源項目:https://github.com/fudan-zvg/meta-prompts
團隊的關(guān)鍵洞察是引入可學(xué)習(xí)的元提示(meta prompts)到預(yù)訓(xùn)練的擴散模型中,以提取適合特定感知任務(wù)的特征。
技術(shù)介紹
團隊將text-to-image擴散模型作為特征提取器應(yīng)用于視覺感知任務(wù)中。
輸入圖像首先通過VQVAE編碼器進行圖像壓縮。這一步將圖像分辨率降低到原始大小的1/8,產(chǎn)生latent space中的特征表示,即。值得注意的是,VQVAE編碼器的參數(shù)是固定的,不參與后續(xù)訓(xùn)練。
接下來,保持未添加噪聲的被送入到UNet進行特征提取。為了更好地適應(yīng)不同任務(wù),UNet同時接收調(diào)制的timestep embeddings和多個meta prompts,產(chǎn)生與形狀一致的特征。
在整個過程中,為了增強特征表達,該方法進行了步的recurrent refinement。這使得UNet內(nèi)不同層的特征能夠更好地交互融合。在第次循環(huán)中,UNet的參數(shù)由特定的可學(xué)習(xí)的時間調(diào)制特征調(diào)節(jié)。
最終,UNet生成的多尺度特征輸入到專門為目標(biāo)視覺任務(wù)設(shè)計的解碼器中。
可學(xué)習(xí)的元提示(meta prompts)設(shè)計
Stable diffusion model采用UNet架構(gòu),通過交叉注意力將文本提示融入圖像特征中,實現(xiàn)了文生圖。這種整合確保了圖像生成在語境和語義上的準(zhǔn)確性。
然而,視覺感知任務(wù)的多樣性超出了這一范疇,因為圖像理解面臨著不同的挑戰(zhàn),往往缺乏文本信息作為指導(dǎo),使得以文本驅(qū)動的方法有時顯得不切實際。
為應(yīng)對這一挑戰(zhàn),技術(shù)團隊的方法采用了更為多樣的策略——不依賴外部文本提示,而是設(shè)計了一種內(nèi)部的可學(xué)習(xí)元提示,稱為meta prompts,這些meta prompts被集成到擴散模型中,以適應(yīng)感知任務(wù)。
Meta prompts以矩陣 的形式表示,其中表示meta prompts的數(shù)量,表示維度。具備meta prompts的感知擴散模型避免了對外部文本提示的需求,如數(shù)據(jù)集類別標(biāo)簽或圖像標(biāo)題,也無需預(yù)訓(xùn)練的文本編碼器來生成最終的文本提示。
Meta prompts可以根據(jù)目標(biāo)任務(wù)和數(shù)據(jù)集進行端到端的訓(xùn)練,從而為去噪UNet建立特別定制的適應(yīng)條件。這些meta prompts包含豐富的、適應(yīng)于特定任務(wù)的語義信息。比如:
- 在語義分割任務(wù)中,meta prompts有效地展示了對類別的識別能力,相同的meta prompts傾向于激活同一類別的特征。
- 在深度估計任務(wù)中,meta prompts表現(xiàn)出對深度的感知能力,激活值隨深度變化,使prompts能夠集中關(guān)注一致距離的物體。
- 在姿態(tài)估計中,meta prompts展現(xiàn)出一套不同的能力,特別是關(guān)鍵點的感知,這有助于人體姿態(tài)檢測。
這些定性結(jié)果共同突顯了技術(shù)團隊提出的meta prompts在各種任務(wù)中對任務(wù)相關(guān)激活能力的有效性。
作為文本提示的替代品,meta prompts很好地填補了了text-to-image擴散模型與視覺感知任務(wù)之間的溝壑。
基于元提示的特征重組
擴散模型通過其固有的設(shè)計,在去噪UNet中生成多尺度特征,這些特征在接近輸出層時聚焦于更細致、低級的細節(jié)信息。
雖然這種低級細節(jié)對于強調(diào)紋理和細粒度的任務(wù)來說足夠,但視覺感知任務(wù)通常需要理解既包括低級細節(jié)的又包括高級語義解釋的內(nèi)容。
因此,不僅需要生成豐富的特征,確定這些多尺度特征的哪種組合方式可以為當(dāng)前任務(wù)提供最佳表征也非常重要。
這就是meta prompts的作用所在——
這些prompts在訓(xùn)練過程中保存了與所使用數(shù)據(jù)集特定相關(guān)的上下文知識。這種上下文知識使meta prompts能夠充當(dāng)特征重組的過濾器,引導(dǎo)特征選取過程,從UNet產(chǎn)生的眾多特征中篩選出與任務(wù)最相關(guān)的特征。
團隊使用點積的方式將UNet的多尺度特征的豐富性與meta prompts的任務(wù)適應(yīng)性結(jié)合起來。
考慮多尺度特征,其中每個。和表示特征圖的高度和寬度。Meta prompts 。每個尺度上重排的特征的計算為:
最后,這些經(jīng)過meta prompts過濾的特征隨后輸入到特定任務(wù)的解碼器中。
基于可學(xué)習(xí)的時間調(diào)制特征的recurrent refinement
在擴散模型中,添加噪聲然后多步去噪的迭代過程構(gòu)成了圖像生成的框架。
受此機制的啟發(fā),技術(shù)團隊為視覺感知任務(wù)設(shè)計了一個簡單的recurrent refinement過程——沒有向輸出特征中添加噪聲,而是直接將UNet的輸出特征循環(huán)輸入到UNet中。
同時為了解決隨著模型通過循環(huán),輸入特征的分布會發(fā)生變化但UNet的參數(shù)保持不變的不一致的問題,技術(shù)團隊對于每個循環(huán)引入了可學(xué)習(xí)的獨特的timestep embeddings,以調(diào)制UNet的參數(shù)。
這確保了網(wǎng)絡(luò)對于不同步驟中輸入特征的變化性保持適應(yīng)性和響應(yīng)性,優(yōu)化了特征提取過程,并增強了模型在視覺識別任務(wù)中的性能。
結(jié)果顯示,該方法在多個感知任務(wù)數(shù)據(jù)集上都取得了最優(yōu)。
應(yīng)用落地和展望
該文章提出的方法和技術(shù)有廣泛的應(yīng)用前景,可以在多個領(lǐng)域內(nèi)推動技術(shù)的發(fā)展和創(chuàng)新:
- 視覺感知任務(wù)的改進:該研究能夠提升各種視覺感知任務(wù)的性能,如圖像分割、深度估計和姿態(tài)估計。這些改進可應(yīng)用于自動駕駛、醫(yī)學(xué)影像分析、機器人視覺系統(tǒng)等領(lǐng)域。
- 增強的計算機視覺模型:所提出的技術(shù)可以使計算機視覺模型在處理復(fù)雜場景時更加準(zhǔn)確和高效,特別是在缺乏明確文本描述的情況下。這對于圖像內(nèi)容理解等應(yīng)用尤為重要。
- 跨領(lǐng)域應(yīng)用:該研究的方法和發(fā)現(xiàn)可以激勵跨領(lǐng)域的研究和應(yīng)用,比如在藝術(shù)創(chuàng)作、虛擬現(xiàn)實、增強現(xiàn)實中,用于提高圖像和視頻的質(zhì)量和互動性。
- 長期展望:隨著技術(shù)的進步,這些方法可能會進一步完善,帶來更先進的圖像生成和內(nèi)容理解技術(shù)。
團隊介紹
智能創(chuàng)作團隊是字節(jié)跳動AI&多媒體技術(shù)中臺,覆蓋了計算機視覺、音視頻編輯、特效處理等技術(shù)領(lǐng)域,借助公司豐富的業(yè)務(wù)場景、基礎(chǔ)設(shè)施資源和技術(shù)協(xié)作氛圍,實現(xiàn)了前沿算法-工程系統(tǒng)-產(chǎn)品全鏈路的閉環(huán),旨在以多種形式為公司內(nèi)部各業(yè)務(wù)提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動體驗與消費的能力和行業(yè)解決方案。
目前,智能創(chuàng)作團隊已通過字節(jié)跳動旗下的云服務(wù)平臺火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。更多大模型算法相關(guān)崗位開放中,歡迎點擊「閱讀原文」查看。