自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<form id="afdec"></form>

<cite id="afdec"><track id="afdec"></track></cite>

^{<blockquote id="afdec"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

擴散模型圖像理解力刷新SOTA！字節(jié)復(fù)旦團隊提出全新「元提示」策略

作者：新智元 2024-01-16 17:17:30

人工智能新聞

過去一年擴散模型風(fēng)頭正勁，徹底改變了文生圖領(lǐng)域！那么，擴散模型能否處理視覺感知任務(wù)？字節(jié)跳動和復(fù)旦大學(xué)技術(shù)團隊在最新研究中提出了一個簡單有效的方案。

Text-to-image（T2I）擴散模型在生成高清晰度圖像方面顯示出了卓越的能力，這一成就得益于其在大規(guī)模圖像-文本對上的預(yù)訓(xùn)練。

這引發(fā)了一個自然的問題：擴散模型是否可以用于解決視覺感知任務(wù)？

近期，來自字節(jié)跳動和復(fù)旦大學(xué)的技術(shù)團隊提出了一種簡單而有效的方案：利用擴散模型處理視覺感知任務(wù)。

論文地址：https://arxiv.org/abs/2312.14733

開源項目：https://github.com/fudan-zvg/meta-prompts

團隊的關(guān)鍵洞察是引入可學(xué)習(xí)的元提示（meta prompts）到預(yù)訓(xùn)練的擴散模型中，以提取適合特定感知任務(wù)的特征。

技術(shù)介紹

團隊將text-to-image擴散模型作為特征提取器應(yīng)用于視覺感知任務(wù)中。

輸入圖像首先通過VQVAE編碼器進行圖像壓縮。這一步將圖像分辨率降低到原始大小的1/8，產(chǎn)生latent space中的特征表示，即。值得注意的是，VQVAE編碼器的參數(shù)是固定的，不參與后續(xù)訓(xùn)練。

接下來，保持未添加噪聲的被送入到UNet進行特征提取。為了更好地適應(yīng)不同任務(wù)，UNet同時接收調(diào)制的timestep embeddings和多個meta prompts，產(chǎn)生與形狀一致的特征。

在整個過程中，為了增強特征表達，該方法進行了步的recurrent refinement。這使得UNet內(nèi)不同層的特征能夠更好地交互融合。在第次循環(huán)中，UNet的參數(shù)由特定的可學(xué)習(xí)的時間調(diào)制特征調(diào)節(jié)。

最終，UNet生成的多尺度特征輸入到專門為目標(biāo)視覺任務(wù)設(shè)計的解碼器中。

可學(xué)習(xí)的元提示（meta prompts）設(shè)計

Stable diffusion model采用UNet架構(gòu)，通過交叉注意力將文本提示融入圖像特征中，實現(xiàn)了文生圖。這種整合確保了圖像生成在語境和語義上的準(zhǔn)確性。

然而，視覺感知任務(wù)的多樣性超出了這一范疇，因為圖像理解面臨著不同的挑戰(zhàn)，往往缺乏文本信息作為指導(dǎo)，使得以文本驅(qū)動的方法有時顯得不切實際。

為應(yīng)對這一挑戰(zhàn)，技術(shù)團隊的方法采用了更為多樣的策略——不依賴外部文本提示，而是設(shè)計了一種內(nèi)部的可學(xué)習(xí)元提示，稱為meta prompts，這些meta prompts被集成到擴散模型中，以適應(yīng)感知任務(wù)。

Meta prompts以矩陣的形式表示，其中表示meta prompts的數(shù)量，表示維度。具備meta prompts的感知擴散模型避免了對外部文本提示的需求，如數(shù)據(jù)集類別標(biāo)簽或圖像標(biāo)題，也無需預(yù)訓(xùn)練的文本編碼器來生成最終的文本提示。

Meta prompts可以根據(jù)目標(biāo)任務(wù)和數(shù)據(jù)集進行端到端的訓(xùn)練，從而為去噪UNet建立特別定制的適應(yīng)條件。這些meta prompts包含豐富的、適應(yīng)于特定任務(wù)的語義信息。比如：

- 在語義分割任務(wù)中，meta prompts有效地展示了對類別的識別能力，相同的meta prompts傾向于激活同一類別的特征。

- 在深度估計任務(wù)中，meta prompts表現(xiàn)出對深度的感知能力，激活值隨深度變化，使prompts能夠集中關(guān)注一致距離的物體。

- 在姿態(tài)估計中，meta prompts展現(xiàn)出一套不同的能力，特別是關(guān)鍵點的感知，這有助于人體姿態(tài)檢測。

這些定性結(jié)果共同突顯了技術(shù)團隊提出的meta prompts在各種任務(wù)中對任務(wù)相關(guān)激活能力的有效性。

作為文本提示的替代品，meta prompts很好地填補了了text-to-image擴散模型與視覺感知任務(wù)之間的溝壑。

基于元提示的特征重組

擴散模型通過其固有的設(shè)計，在去噪UNet中生成多尺度特征，這些特征在接近輸出層時聚焦于更細致、低級的細節(jié)信息。

雖然這種低級細節(jié)對于強調(diào)紋理和細粒度的任務(wù)來說足夠，但視覺感知任務(wù)通常需要理解既包括低級細節(jié)的又包括高級語義解釋的內(nèi)容。

因此，不僅需要生成豐富的特征，確定這些多尺度特征的哪種組合方式可以為當(dāng)前任務(wù)提供最佳表征也非常重要。

這就是meta prompts的作用所在——

這些prompts在訓(xùn)練過程中保存了與所使用數(shù)據(jù)集特定相關(guān)的上下文知識。這種上下文知識使meta prompts能夠充當(dāng)特征重組的過濾器，引導(dǎo)特征選取過程，從UNet產(chǎn)生的眾多特征中篩選出與任務(wù)最相關(guān)的特征。

團隊使用點積的方式將UNet的多尺度特征的豐富性與meta prompts的任務(wù)適應(yīng)性結(jié)合起來。

考慮多尺度特征，其中每個。和表示特征圖的高度和寬度。Meta prompts 。每個尺度上重排的特征的計算為：

最后，這些經(jīng)過meta prompts過濾的特征隨后輸入到特定任務(wù)的解碼器中。

基于可學(xué)習(xí)的時間調(diào)制特征的recurrent refinement

在擴散模型中，添加噪聲然后多步去噪的迭代過程構(gòu)成了圖像生成的框架。

受此機制的啟發(fā)，技術(shù)團隊為視覺感知任務(wù)設(shè)計了一個簡單的recurrent refinement過程——沒有向輸出特征中添加噪聲，而是直接將UNet的輸出特征循環(huán)輸入到UNet中。

同時為了解決隨著模型通過循環(huán)，輸入特征的分布會發(fā)生變化但UNet的參數(shù)保持不變的不一致的問題，技術(shù)團隊對于每個循環(huán)引入了可學(xué)習(xí)的獨特的timestep embeddings，以調(diào)制UNet的參數(shù)。

這確保了網(wǎng)絡(luò)對于不同步驟中輸入特征的變化性保持適應(yīng)性和響應(yīng)性，優(yōu)化了特征提取過程，并增強了模型在視覺識別任務(wù)中的性能。

結(jié)果顯示，該方法在多個感知任務(wù)數(shù)據(jù)集上都取得了最優(yōu)。

應(yīng)用落地和展望

該文章提出的方法和技術(shù)有廣泛的應(yīng)用前景，可以在多個領(lǐng)域內(nèi)推動技術(shù)的發(fā)展和創(chuàng)新：

視覺感知任務(wù)的改進：該研究能夠提升各種視覺感知任務(wù)的性能，如圖像分割、深度估計和姿態(tài)估計。這些改進可應(yīng)用于自動駕駛、醫(yī)學(xué)影像分析、機器人視覺系統(tǒng)等領(lǐng)域。
增強的計算機視覺模型：所提出的技術(shù)可以使計算機視覺模型在處理復(fù)雜場景時更加準(zhǔn)確和高效，特別是在缺乏明確文本描述的情況下。這對于圖像內(nèi)容理解等應(yīng)用尤為重要。
跨領(lǐng)域應(yīng)用：該研究的方法和發(fā)現(xiàn)可以激勵跨領(lǐng)域的研究和應(yīng)用，比如在藝術(shù)創(chuàng)作、虛擬現(xiàn)實、增強現(xiàn)實中，用于提高圖像和視頻的質(zhì)量和互動性。
長期展望：隨著技術(shù)的進步，這些方法可能會進一步完善，帶來更先進的圖像生成和內(nèi)容理解技術(shù)。

團隊介紹

智能創(chuàng)作團隊是字節(jié)跳動AI&多媒體技術(shù)中臺，覆蓋了計算機視覺、音視頻編輯、特效處理等技術(shù)領(lǐng)域，借助公司豐富的業(yè)務(wù)場景、基礎(chǔ)設(shè)施資源和技術(shù)協(xié)作氛圍，實現(xiàn)了前沿算法-工程系統(tǒng)-產(chǎn)品全鏈路的閉環(huán)，旨在以多種形式為公司內(nèi)部各業(yè)務(wù)提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動體驗與消費的能力和行業(yè)解決方案。

目前，智能創(chuàng)作團隊已通過字節(jié)跳動旗下的云服務(wù)平臺火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。更多大模型算法相關(guān)崗位開放中，歡迎點擊「閱讀原文」查看。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="9opbi"></sub>

<cite id="9opbi"></cite>