自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人物交互圖像,現(xiàn)在更懂你的提示詞了,北大推出基于語義感知的人物交互圖像生成框架

人工智能 新聞
來自北京大學(xué)的研究團隊提出了一種姿勢和交互感知的人物交互圖像生成框架(SA-HOI), 利用人體姿勢的生成質(zhì)量和交互邊界區(qū)域信息作為去噪過程的指導(dǎo),生成了更合理,更真實的人物交互圖像。

該論文的第一作者和通訊作者均來自北京大學(xué)王選計算機研究所的 MIPL實驗室,第一作者為博士生徐鑄,通訊作者為博士生導(dǎo)師劉洋。MIPL 實驗室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會上有多項代表性成果發(fā)表,多次榮獲國內(nèi)外 CV 領(lǐng)域重量級競賽的冠軍獎項,和國內(nèi)外知名高校、科研機構(gòu)廣泛開展合作。

人物交互圖像生成指生成滿足文本描述需求,內(nèi)容為人與物體交互的圖像,并要求圖像盡可能真實且符合語義。近年來,文本生成圖像模型在生成真實圖像方面取得出了顯著的進(jìn)展,但這些模型在生成以人物交互為主體內(nèi)容的高保真圖像生成方面仍然面臨挑戰(zhàn)。其困難主要源于兩個方面:一是人體姿勢的復(fù)雜性和多樣性給合理的人物生成帶來挑戰(zhàn);二是交互邊界區(qū)域(交互語義豐富區(qū)域)不可靠的生成可能導(dǎo)致人物交互語義表達(dá)的不足。

針對上述問題,來自北京大學(xué)的研究團隊提出了一種姿勢和交互感知的人物交互圖像生成框架(SA-HOI), 利用人體姿勢的生成質(zhì)量和交互邊界區(qū)域信息作為去噪過程的指導(dǎo),生成了更合理,更真實的人物交互圖像。為了全面測評生成圖像的質(zhì)量,他們還提出了一個全面的人物交互圖像生成基準(zhǔn)。

圖片

  • 論文鏈接:https://proceedings.mlr.press/v235/xu24e.html
  • 項目主頁:https://sites.google.com/view/sa-hoi/
  • 源代碼鏈接:https://github.com/XZPKU/SA-HOI
  • 實驗室主頁:http://www.wict.pku.edu.cn/mipl

SA-HOI 是一種語義感知的人物交互圖像生成方法,從人體姿態(tài)和交互語義兩方面提升人物交互圖像生成的整體質(zhì)量并減少存在的生成問題。通過結(jié)合圖像反演的方法,生成了迭代式反演和圖像修正流程,可以使生成圖像逐步自我修正,提升質(zhì)量。

研究團隊在論文中還提出了第一個涵蓋人 - 物體、人 - 動物和人 - 人交互的人物交互圖像生成基準(zhǔn),并為人物交互圖像生成設(shè)計了針對性的評估指標(biāo)。大量實驗表明,該方法在針對人物交互圖像生成的評估指標(biāo)和常規(guī)圖像生成的評估指標(biāo)下均優(yōu)于現(xiàn)有的基于擴散的圖像生成方法。

方法介紹

圖片

圖 1:語義感知的人物交互圖像生成方法框架圖

論文中提出的方法如圖 1 所示,主要由兩個設(shè)計組成:姿態(tài)和交互指導(dǎo)(Pose and Interaction Guidance, PIG)和迭代反演和修正流程(Iterative Inversion and Refinement Pipeline, IIR)。

在 PIG 中,對于給定的人物交互文本描述圖片和噪聲圖片,首先使用穩(wěn)定擴散模型(Stable Diffusion [2])生成圖片作為初始圖像,并使用姿態(tài)檢測器 [3] 獲取人類體關(guān)節(jié)位置圖片 和相應(yīng)的置信分?jǐn)?shù) 圖片 , 構(gòu)建姿態(tài)掩碼 圖片 高亮低質(zhì)量姿態(tài)區(qū)域。

對于交互指導(dǎo),利用分割模型定位交互邊界區(qū)域,得到關(guān)鍵點圖片和相應(yīng)的置信分?jǐn)?shù)圖片, 并在交互掩碼圖片中高亮交互區(qū)域,以增強交互邊界的語義表達(dá)。對于每個去噪步驟,圖片 和 圖片 作為約束來對這些高亮的區(qū)域進(jìn)行修正,從而減少這些區(qū)域中存在的生成問題。此外, IIR 結(jié)合圖像反演模型 N,從需要進(jìn)一步修正的圖像中提取噪聲 n 和文本描述的嵌入 t,然后使用 PIG 對該圖像進(jìn)行下一次修正,利用質(zhì)量評估器 Q 對修正后的圖像質(zhì)量進(jìn)行評估,以 < 反饋、評估、修正 > 的操作來逐步提高圖像質(zhì)量。

姿態(tài)和交互指導(dǎo)

圖片

圖 2:姿勢和交互指導(dǎo)采樣偽代碼

姿勢和交互引導(dǎo)采樣的偽代碼如圖 2 所示,在每個去噪步驟中,我們首先按照穩(wěn)定擴散模型(Stable Diffusion)中的設(shè)計獲取預(yù)測的噪聲 ?t 和中間重構(gòu) 。然后我們在 上應(yīng)用高斯模糊 G 來獲得退化的潛在特征 和 ,隨后將對應(yīng)潛在特征中的信息引入去噪過程中。

圖片 和 圖片 被用于生成 圖片 圖片,并在 圖片 和 圖片 中突出低姿勢質(zhì)量區(qū)域,指導(dǎo)模型減少這些區(qū)域的畸變生成。為了指導(dǎo)模型改進(jìn)低質(zhì)量區(qū)域,將通過如下公式來高亮低姿勢得分區(qū)域:

圖片

其中 圖片,x、y 是圖像的逐像素坐標(biāo),H,W 是圖像大小,σ 是高斯分布的方差。圖片 表示以第 i 個關(guān)節(jié)為中心的注意力,通過結(jié)合所有關(guān)節(jié)的注意力,我們可以形成最終的注意力圖圖片,并使用閾值將 圖片 轉(zhuǎn)換為一個掩碼 圖片。

其中 ?t 是在時間步 t 生成掩碼的閾值。類似地,對于交互指導(dǎo),論文作者利用分割模型得到物體的外輪廓點 O 以及人體關(guān)節(jié)點 C,計算人與物體之間的距離矩陣 D,從中采樣得到交互邊界的關(guān)鍵點 圖片,利用和姿勢指導(dǎo)相同的方法生成交互注意力 圖片與掩碼 圖片,并應(yīng)用于計算最終的預(yù)測噪聲。

迭代式反演和圖像修正流程

為了實時獲取生成圖像的質(zhì)量評估,論文作者引入質(zhì)量評估器 Q,用于作為迭代式 < 評估 + 修正 > 操作的指導(dǎo)。對于第 k 輪的圖像圖片 ,采用評估器 Q 獲取其質(zhì)量分?jǐn)?shù)圖片 ,然后基于 圖片 生成圖片。為了在優(yōu)化后保留圖片 的主要內(nèi)容,需要相應(yīng)的噪聲作為去噪的初始值。

然而,這樣的噪聲不是現(xiàn)成可得的,為此引入圖像反演方法圖片來獲取其噪聲潛在特征圖片 和文本嵌入圖片,作為 PIG 的輸入,生成優(yōu)化后的結(jié)果圖片。

通過比較前后迭代輪次中的質(zhì)量分?jǐn)?shù),可以判斷是否要繼續(xù)進(jìn)行優(yōu)化:當(dāng)圖片和 圖片 之間沒有顯著差異,即低于閾值 θ,可以認(rèn)為該流程可能已經(jīng)對圖像做出了充足的修正,因此結(jié)束優(yōu)化并輸出質(zhì)量分?jǐn)?shù)最高的圖像。

人物交互圖像生成基準(zhǔn)

圖片

圖 3:人物交互圖像生成基準(zhǔn)(數(shù)據(jù)集 + 測評指標(biāo))

考慮到?jīng)]有針對人物交互圖像生成任務(wù)設(shè)計的現(xiàn)有模型和基準(zhǔn),論文作者收集并整合了一個人物交互圖像生成基準(zhǔn),包括一個含有 150 個人物交互類別的真實人物交互圖像數(shù)據(jù)集,以及若干為人物交互圖像生成定制的測評指標(biāo)。

該數(shù)據(jù)集從開源人物交互檢測數(shù)據(jù)集 HICO-DET [5] 中篩選得到 150 個人物交互類別,涵蓋了人 - 物體、人 - 動物和人 - 人三種不同交互場景。共計收集了 5k 人物交互真實圖像作為該論文的參考數(shù)據(jù)集,用于評估生成人物交互圖像的質(zhì)量。

為了更好地評估生成的人物交互圖像質(zhì)量,論文作者為人物交互生成量身定制了幾個測評標(biāo)準(zhǔn),從可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面評估生成圖像??煽啃陨希撐淖髡咭胱藙莘植季嚯x和人 - 物體距離分布,評估生成結(jié)果和真實圖像是否接近:生成結(jié)果在分布意義上越接近真實圖像,就說明質(zhì)量越好??尚行陨?,采用計算姿勢置信度分?jǐn)?shù)來衡量生成人體關(guān)節(jié)的可信度和合理性。保真度上,采用人物交互檢測任務(wù),以及圖文檢索任務(wù)評估生成圖像與輸入文本之間的語義一致性。

實驗結(jié)果

與現(xiàn)有方法的對比實驗結(jié)果如表 1 和表 2 所示,分別對比了人物交互圖像生成指標(biāo)和常規(guī)圖像生成指標(biāo)上的性能。

圖片

表 1:與現(xiàn)有方法在人物交互圖像生成指標(biāo)的對比實驗結(jié)果

圖片

表 2:與現(xiàn)有方法在常規(guī)圖像生成指標(biāo)的對比實驗結(jié)果

實驗結(jié)果表明,該論文中的方法在人體生成質(zhì)量,交互語義表達(dá),人物交互距離,人體姿態(tài)分布,整體圖像質(zhì)量等多個維度的測評上都優(yōu)于現(xiàn)有模型。

此外,論文作者還進(jìn)行了主觀評測,邀請眾多用戶從人體質(zhì)量,物體外觀,交互語義和整體質(zhì)量等多個角度進(jìn)行評分,實驗結(jié)果證明 SA-HOI 的方法在各個角度都更符合人類審美。

圖片

表 3:與現(xiàn)有方法的主觀評測結(jié)果

定性實驗上,下圖展示了不同方法對同一個人物交互類別描述生成結(jié)果的對比。在上方的組圖中,采用了新方法的模型準(zhǔn)確表達(dá)了 “親吻” 的語義,并且生成的人體姿勢也更合理。在下方的組圖中,論文中的方法也成功緩解了其他方法中存在的人體扭曲和畸變,并且通過在手與手提箱交互的區(qū)域生成手提箱的拉桿來增強 “拿手提箱” 這個交互的語義表達(dá),從而得到在人體姿態(tài)和交互語義兩方面都優(yōu)于其他方法的結(jié)果。

圖片

圖 4:人物交互圖像生成結(jié)果可視化

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2017-02-17 12:30:40

外設(shè)

2017-09-09 06:04:22

深度學(xué)習(xí)人物圖像神經(jīng)網(wǎng)絡(luò)

2023-12-07 10:22:26

人工圖像生成器Meta圖像生成模型

2021-11-02 09:25:00

AI 數(shù)據(jù)人工智能

2024-08-13 15:00:00

大模型提示學(xué)習(xí)

2022-12-18 19:49:45

AI

2021-07-24 13:20:40

iOS應(yīng)用系統(tǒng)

2023-05-16 08:00:00

開源項目MONAI醫(yī)學(xué)圖像

2017-05-27 14:00:06

深度學(xué)習(xí)人臉建模

2015-08-03 09:10:21

編程語言哈利波特

2024-08-29 15:05:57

2022-08-09 08:02:36

Python人物關(guān)系紅樓夢

2018-03-09 15:25:47

IOT語義交叉

2024-10-24 23:37:33

2024-05-11 07:00:00

AIIC-LightP照片換背景

2014-06-24 09:31:02

信息安全IT安全首席安全官

2025-03-24 10:37:15

2024-02-19 13:10:38

模型訓(xùn)練

2023-12-18 08:57:22

GAN網(wǎng)絡(luò)

2018-02-26 16:41:53

定義IOT語義
點贊
收藏

51CTO技術(shù)棧公眾號