人物交互圖像,現(xiàn)在更懂你的提示詞了,北大推出基于語義感知的人物交互圖像生成框架
該論文的第一作者和通訊作者均來自北京大學(xué)王選計算機研究所的 MIPL實驗室,第一作者為博士生徐鑄,通訊作者為博士生導(dǎo)師劉洋。MIPL 實驗室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會上有多項代表性成果發(fā)表,多次榮獲國內(nèi)外 CV 領(lǐng)域重量級競賽的冠軍獎項,和國內(nèi)外知名高校、科研機構(gòu)廣泛開展合作。
人物交互圖像生成指生成滿足文本描述需求,內(nèi)容為人與物體交互的圖像,并要求圖像盡可能真實且符合語義。近年來,文本生成圖像模型在生成真實圖像方面取得出了顯著的進(jìn)展,但這些模型在生成以人物交互為主體內(nèi)容的高保真圖像生成方面仍然面臨挑戰(zhàn)。其困難主要源于兩個方面:一是人體姿勢的復(fù)雜性和多樣性給合理的人物生成帶來挑戰(zhàn);二是交互邊界區(qū)域(交互語義豐富區(qū)域)不可靠的生成可能導(dǎo)致人物交互語義表達(dá)的不足。
針對上述問題,來自北京大學(xué)的研究團隊提出了一種姿勢和交互感知的人物交互圖像生成框架(SA-HOI), 利用人體姿勢的生成質(zhì)量和交互邊界區(qū)域信息作為去噪過程的指導(dǎo),生成了更合理,更真實的人物交互圖像。為了全面測評生成圖像的質(zhì)量,他們還提出了一個全面的人物交互圖像生成基準(zhǔn)。
- 論文鏈接:https://proceedings.mlr.press/v235/xu24e.html
- 項目主頁:https://sites.google.com/view/sa-hoi/
- 源代碼鏈接:https://github.com/XZPKU/SA-HOI
- 實驗室主頁:http://www.wict.pku.edu.cn/mipl
SA-HOI 是一種語義感知的人物交互圖像生成方法,從人體姿態(tài)和交互語義兩方面提升人物交互圖像生成的整體質(zhì)量并減少存在的生成問題。通過結(jié)合圖像反演的方法,生成了迭代式反演和圖像修正流程,可以使生成圖像逐步自我修正,提升質(zhì)量。
研究團隊在論文中還提出了第一個涵蓋人 - 物體、人 - 動物和人 - 人交互的人物交互圖像生成基準(zhǔn),并為人物交互圖像生成設(shè)計了針對性的評估指標(biāo)。大量實驗表明,該方法在針對人物交互圖像生成的評估指標(biāo)和常規(guī)圖像生成的評估指標(biāo)下均優(yōu)于現(xiàn)有的基于擴散的圖像生成方法。
方法介紹
圖 1:語義感知的人物交互圖像生成方法框架圖
論文中提出的方法如圖 1 所示,主要由兩個設(shè)計組成:姿態(tài)和交互指導(dǎo)(Pose and Interaction Guidance, PIG)和迭代反演和修正流程(Iterative Inversion and Refinement Pipeline, IIR)。
在 PIG 中,對于給定的人物交互文本描述和噪聲
,首先使用穩(wěn)定擴散模型(Stable Diffusion [2])生成
作為初始圖像,并使用姿態(tài)檢測器 [3] 獲取人類體關(guān)節(jié)位置
和相應(yīng)的置信分?jǐn)?shù)
, 構(gòu)建姿態(tài)掩碼
高亮低質(zhì)量姿態(tài)區(qū)域。
對于交互指導(dǎo),利用分割模型定位交互邊界區(qū)域,得到關(guān)鍵點和相應(yīng)的置信分?jǐn)?shù)
, 并在交互掩碼
中高亮交互區(qū)域,以增強交互邊界的語義表達(dá)。對于每個去噪步驟,
和
作為約束來對這些高亮的區(qū)域進(jìn)行修正,從而減少這些區(qū)域中存在的生成問題。此外, IIR 結(jié)合圖像反演模型 N,從需要進(jìn)一步修正的圖像中提取噪聲 n 和文本描述的嵌入 t,然后使用 PIG 對該圖像進(jìn)行下一次修正,利用質(zhì)量評估器 Q 對修正后的圖像質(zhì)量進(jìn)行評估,以 < 反饋、評估、修正 > 的操作來逐步提高圖像質(zhì)量。
姿態(tài)和交互指導(dǎo)
圖 2:姿勢和交互指導(dǎo)采樣偽代碼
姿勢和交互引導(dǎo)采樣的偽代碼如圖 2 所示,在每個去噪步驟中,我們首先按照穩(wěn)定擴散模型(Stable Diffusion)中的設(shè)計獲取預(yù)測的噪聲 ?t 和中間重構(gòu) 。然后我們在 上應(yīng)用高斯模糊 G 來獲得退化的潛在特征 和 ,隨后將對應(yīng)潛在特征中的信息引入去噪過程中。
和
被用于生成
和
,并在
和
中突出低姿勢質(zhì)量區(qū)域,指導(dǎo)模型減少這些區(qū)域的畸變生成。為了指導(dǎo)模型改進(jìn)低質(zhì)量區(qū)域,將通過如下公式來高亮低姿勢得分區(qū)域:
其中 ,x、y 是圖像的逐像素坐標(biāo),H,W 是圖像大小,σ 是高斯分布的方差。
表示以第 i 個關(guān)節(jié)為中心的注意力,通過結(jié)合所有關(guān)節(jié)的注意力,我們可以形成最終的注意力圖
,并使用閾值將
轉(zhuǎn)換為一個掩碼
。
其中 ?t 是在時間步 t 生成掩碼的閾值。類似地,對于交互指導(dǎo),論文作者利用分割模型得到物體的外輪廓點 O 以及人體關(guān)節(jié)點 C,計算人與物體之間的距離矩陣 D,從中采樣得到交互邊界的關(guān)鍵點 ,利用和姿勢指導(dǎo)相同的方法生成交互注意力
與掩碼
,并應(yīng)用于計算最終的預(yù)測噪聲。
迭代式反演和圖像修正流程
為了實時獲取生成圖像的質(zhì)量評估,論文作者引入質(zhì)量評估器 Q,用于作為迭代式 < 評估 + 修正 > 操作的指導(dǎo)。對于第 k 輪的圖像 ,采用評估器 Q 獲取其質(zhì)量分?jǐn)?shù)
,然后基于
生成
。為了在優(yōu)化后保留
的主要內(nèi)容,需要相應(yīng)的噪聲作為去噪的初始值。
然而,這樣的噪聲不是現(xiàn)成可得的,為此引入圖像反演方法來獲取其噪聲潛在特征
和文本嵌入
,作為 PIG 的輸入,生成優(yōu)化后的結(jié)果
。
通過比較前后迭代輪次中的質(zhì)量分?jǐn)?shù),可以判斷是否要繼續(xù)進(jìn)行優(yōu)化:當(dāng)和
之間沒有顯著差異,即低于閾值 θ,可以認(rèn)為該流程可能已經(jīng)對圖像做出了充足的修正,因此結(jié)束優(yōu)化并輸出質(zhì)量分?jǐn)?shù)最高的圖像。
人物交互圖像生成基準(zhǔn)
圖 3:人物交互圖像生成基準(zhǔn)(數(shù)據(jù)集 + 測評指標(biāo))
考慮到?jīng)]有針對人物交互圖像生成任務(wù)設(shè)計的現(xiàn)有模型和基準(zhǔn),論文作者收集并整合了一個人物交互圖像生成基準(zhǔn),包括一個含有 150 個人物交互類別的真實人物交互圖像數(shù)據(jù)集,以及若干為人物交互圖像生成定制的測評指標(biāo)。
該數(shù)據(jù)集從開源人物交互檢測數(shù)據(jù)集 HICO-DET [5] 中篩選得到 150 個人物交互類別,涵蓋了人 - 物體、人 - 動物和人 - 人三種不同交互場景。共計收集了 5k 人物交互真實圖像作為該論文的參考數(shù)據(jù)集,用于評估生成人物交互圖像的質(zhì)量。
為了更好地評估生成的人物交互圖像質(zhì)量,論文作者為人物交互生成量身定制了幾個測評標(biāo)準(zhǔn),從可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面評估生成圖像??煽啃陨希撐淖髡咭胱藙莘植季嚯x和人 - 物體距離分布,評估生成結(jié)果和真實圖像是否接近:生成結(jié)果在分布意義上越接近真實圖像,就說明質(zhì)量越好??尚行陨?,采用計算姿勢置信度分?jǐn)?shù)來衡量生成人體關(guān)節(jié)的可信度和合理性。保真度上,采用人物交互檢測任務(wù),以及圖文檢索任務(wù)評估生成圖像與輸入文本之間的語義一致性。
實驗結(jié)果
與現(xiàn)有方法的對比實驗結(jié)果如表 1 和表 2 所示,分別對比了人物交互圖像生成指標(biāo)和常規(guī)圖像生成指標(biāo)上的性能。
表 1:與現(xiàn)有方法在人物交互圖像生成指標(biāo)的對比實驗結(jié)果
表 2:與現(xiàn)有方法在常規(guī)圖像生成指標(biāo)的對比實驗結(jié)果
實驗結(jié)果表明,該論文中的方法在人體生成質(zhì)量,交互語義表達(dá),人物交互距離,人體姿態(tài)分布,整體圖像質(zhì)量等多個維度的測評上都優(yōu)于現(xiàn)有模型。
此外,論文作者還進(jìn)行了主觀評測,邀請眾多用戶從人體質(zhì)量,物體外觀,交互語義和整體質(zhì)量等多個角度進(jìn)行評分,實驗結(jié)果證明 SA-HOI 的方法在各個角度都更符合人類審美。
表 3:與現(xiàn)有方法的主觀評測結(jié)果
定性實驗上,下圖展示了不同方法對同一個人物交互類別描述生成結(jié)果的對比。在上方的組圖中,采用了新方法的模型準(zhǔn)確表達(dá)了 “親吻” 的語義,并且生成的人體姿勢也更合理。在下方的組圖中,論文中的方法也成功緩解了其他方法中存在的人體扭曲和畸變,并且通過在手與手提箱交互的區(qū)域生成手提箱的拉桿來增強 “拿手提箱” 這個交互的語義表達(dá),從而得到在人體姿態(tài)和交互語義兩方面都優(yōu)于其他方法的結(jié)果。
圖 4:人物交互圖像生成結(jié)果可視化
更多研究細(xì)節(jié),可參考原論文。