自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2025 | EmoEdit:情感可編輯?深大VCC帶你見證魔法!

人工智能 新聞
心理學(xué)研究表明,視覺刺激是情感喚起的重要來源之一,而圖像內(nèi)容則是人類理解視覺信息的關(guān)鍵。這便引出一個(gè)值得探索的問題:我們能否通過編輯圖像,有效引導(dǎo)觀眾的情感?

EmoEdit 由深圳大學(xué)可視計(jì)算研究中心黃惠教授課題組完成,第一作者為楊景媛助理教授。深圳大學(xué)可視計(jì)算研究中心(VCC)以計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、人機(jī)交互、機(jī)器學(xué)習(xí)、具身智能、可視化和可視分析為學(xué)科基礎(chǔ),致力前沿探索與跨學(xué)科創(chuàng)新。中心主任黃惠為深圳大學(xué)講席教授、計(jì)算機(jī)學(xué)科帶頭人、計(jì)算機(jī)與軟件學(xué)院院長(zhǎng)。

圖片

論文標(biāo)題:EmoEdit: Evoking Emotions through Image Manipulation

論文鏈接:https://arxiv.org/pdf/2405.12661

你有沒有想過,情感也能被編輯?

圖片

當(dāng)你翻開相冊(cè),看到一張平淡無奇的風(fēng)景照,是否希望它能更溫暖、更浪漫,甚至更憂郁?現(xiàn)在,EmoEdit 讓這一切成為可能 —— 只需輸入一個(gè)簡(jiǎn)單的情感詞,EmoEdit 便能巧妙調(diào)整畫面,使觀眾感知你想傳遞的情感。

情感無處不在,我們的每一次觸動(dòng),往往源自身邊微小的細(xì)節(jié)。心理學(xué)研究表明,視覺刺激是情感喚起的重要來源之一,而圖像內(nèi)容則是人類理解視覺信息的關(guān)鍵。這便引出一個(gè)值得探索的問題:我們能否通過編輯圖像,有效引導(dǎo)觀眾的情感?

圖像情感編輯(Affective Image Manipulation, AIM)具有雙重目標(biāo):

  • 保持編輯后圖像與原圖的結(jié)構(gòu)一致性;
  • 精準(zhǔn)且顯著地喚起目標(biāo)情感。

然而,這兩者本質(zhì)上存在一定沖突,如何權(quán)衡成為關(guān)鍵挑戰(zhàn)。盡管當(dāng)前先進(jìn)的生成模型在圖像編輯任務(wù)中表現(xiàn)出強(qiáng)大能力,但難以權(quán)衡結(jié)構(gòu)保持和情感喚起(如下圖所示)?,F(xiàn)有方法主要依賴顏色調(diào)整或風(fēng)格變化進(jìn)行情感遷移,但情感表達(dá)仍不夠精準(zhǔn)和顯著,難以呈現(xiàn)更豐富且生動(dòng)的情感效果。

圖片

為解決上述問題,本文的主要貢獻(xiàn)如下:

  • 提出 EmoEdit,一種基于內(nèi)容感知的 AIM 框架,僅需目標(biāo)情感類別作為提示詞,即可在任意用戶圖像上實(shí)現(xiàn)多樣化的情感編輯;
  • 構(gòu)建首個(gè)大規(guī)模 AIM 數(shù)據(jù)集 EmoEditSet,涵蓋 40,120 組圖像對(duì),提供高質(zhì)量、語義豐富的情感編輯基準(zhǔn),推動(dòng)視覺情感研究;
  • 設(shè)計(jì)即插即用的情感增強(qiáng)模塊 Emotion Adapter,通過融合 EmoEditSet 的情感知識(shí),有效提升擴(kuò)散模型的情感感知能力。

EmoEditSet 的構(gòu)建

圖片

鑒于 EmoSet 現(xiàn)有標(biāo)簽的局限性,我們?cè)?CLIP 空間中對(duì)情感圖片進(jìn)行聚類,并利用 GPT-4V 總結(jié)各類的共性語義,構(gòu)建情感因素樹。其中,每個(gè)葉節(jié)點(diǎn)因素均能有效激發(fā)根節(jié)點(diǎn)的目標(biāo)情感。

同時(shí),我們從 MagicBrush、MA5K 和 Unsplash 等多個(gè)來源收集源圖像,并利用 IP2P 和情感因素樹生成目標(biāo)圖像。此外,考慮到 GPT-4V 與擴(kuò)散模型在知識(shí)表達(dá)上的差異,我們合并語義相近的視覺因素,并剔除內(nèi)容過于抽象的因素,以提升數(shù)據(jù)集的整體質(zhì)量。

Emotion Adapter 的設(shè)計(jì)

圖片

微調(diào)雖能增強(qiáng)模型的情感知識(shí),但成本高、泛化性差,且易導(dǎo)致災(zāi)難性遺忘。Q-Former 可利用一種模態(tài)的上下文優(yōu)化對(duì)另一模態(tài)的理解?;诖?,我們?cè)O(shè)計(jì) Emotion Adapter,以提高情感感知能力。

圖片

圖片

Emotion Adapter 結(jié)合情感詞典,目標(biāo)情感和輸入圖像,旨在生成最合適的情感嵌入。

在訓(xùn)練過程中,我們通過擴(kuò)散損失和指令損失共同優(yōu)化網(wǎng)絡(luò):

圖片

其中,擴(kuò)散損失側(cè)重于像素級(jí)相似性,而指令損失則有助于更好地平衡語義準(zhǔn)確性。

實(shí)驗(yàn)結(jié)果

圖片

在對(duì)比實(shí)驗(yàn)中,我們從全局編輯、局部編輯和情感遷移三個(gè)維度選擇了對(duì)比方法。與其他方法相比,EmoEdit 編輯后的圖像不僅有效保留了原始構(gòu)圖特征,還能顯著傳達(dá)目標(biāo)情感,凸顯了其在平衡圖像結(jié)構(gòu)與情感表達(dá)方面的優(yōu)勢(shì)。

圖片

在消融實(shí)驗(yàn)中,缺少 Emotion Adapter(w/o EmoAda)時(shí),圖像幾乎相同。擴(kuò)散損失有效保留了原始結(jié)構(gòu),而指令損失則提高了語義清晰度。例如,在 “滿足” 情感下,EmoEdit 增加了「躺椅」,展現(xiàn)了結(jié)構(gòu)完整性、語義清晰度和上下文契合度。

圖片

我們觀察到,隨著圖像引導(dǎo)系數(shù)的降低,情感強(qiáng)度增加,而結(jié)構(gòu)保持程度減少。盡管情感喚起和結(jié)構(gòu)保持通常存在矛盾,EmoEdit 仍能有效平衡二者。用戶可以根據(jù)需求和偏好調(diào)整引導(dǎo)系數(shù),定制圖像編輯效果,從而滿足多樣化的編輯需求。

圖片

在定量評(píng)估中,我們采用涵蓋像素、語義和情感三個(gè)層面的六項(xiàng)指標(biāo)。結(jié)果表明,EmoEdit 在大多數(shù)指標(biāo)上優(yōu)于對(duì)比方法,進(jìn)一步驗(yàn)證了其在圖像情感編輯任務(wù)中的卓越性能。

圖片

Emotion Adapter 可顯著增強(qiáng)其他模型的情感表達(dá)能力。例如,在 ControlNet 中,插入 Emotion Adapter 之前,模型僅能將輸入圖像轉(zhuǎn)換為黑白;引入后,則能生成包含「墓碑」等情感相關(guān)元素的圖像,大幅提升情感保真度和上下文契合度。這進(jìn)一步驗(yàn)證了 Emotion Adapter 在增強(qiáng)情感表達(dá)方面的有效性。

圖片

Emotion Adapter 不僅適用于圖像編輯,還可拓展至風(fēng)格圖像生成。通過一次訓(xùn)練,它即可將情感極性(積極、消極)編碼為準(zhǔn)確、多元的語義表示。例如,在 「莫奈」風(fēng)格生成的圖像中,「日落」喚起「敬畏」(積極),而「墓地」則傳遞 「悲傷」(消極),充分展現(xiàn)了其在風(fēng)格圖像生成任務(wù)中的魯棒性。

總結(jié)與展望

莎士比亞曾言:The emotion expressed by wordless simplicity is the most abundant.

「至簡(jiǎn)無言處,情深自豐盈」

近年來,我們課題組先后提出了情感計(jì)算領(lǐng)域的 Emo 系列研究工作:

  • EmoSet(ICCV 2023):首個(gè)具有豐富屬性標(biāo)注的大規(guī)模視覺情感數(shù)據(jù)集;
  • EmoGen(CVPR 2024):首個(gè)針對(duì)圖像情感內(nèi)容生成的研究;
  • EmoEdit(CVPR 2025):首個(gè)聚焦于圖像情感內(nèi)容編輯的研究。

我們希望通過這一系列探索,為情感計(jì)算(Affective Computing)與生成式人工智能(AIGC)的交叉領(lǐng)域貢獻(xiàn)新的思路與方法。未來,我們將持續(xù)深耕這一領(lǐng)域,也期待更多志同道合的朋友加入,共同探索「情感」這片藍(lán)海!

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-04-15 08:57:00

3D生成AI

2010-08-30 10:03:13

2012-05-18 11:28:57

TitaniumCommunity W

2025-04-22 09:22:00

模型檢測(cè)AI

2025-02-27 12:30:00

2012-10-15 13:37:55

IBMdw

2025-04-03 09:27:44

2025-04-25 00:20:00

大模型tokenizer

2025-04-08 09:30:00

模型AI機(jī)器人

2024-12-09 10:50:00

2025-03-11 13:49:20

2025-01-21 10:45:00

訓(xùn)練模型架構(gòu)

2015-06-10 15:13:02

見證不凡

2025-03-24 09:41:22

2025-04-07 08:35:00

3DAI生成

2025-03-17 09:20:00

視覺生成模型

2018-12-18 10:37:22

華為昆明軟件產(chǎn)業(yè)峰會(huì)

2017-12-11 15:32:48

邊緣計(jì)算華為威派格

2023-04-27 13:32:16

AutoGPTAPI智能

2021-03-04 07:24:32

開發(fā)者搜索編程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)