自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?

人工智能 新聞
結(jié)合蘋果在近段時間發(fā)布的一系列生成式 AI 理論研究成果,看來我們期待一下蘋果接下來要發(fā)布的新 AI 功能了。

拍張照片,輸入文字指令,手機就開始自動修圖?

這一神奇功能,來自蘋果剛剛開源的圖片編輯神器「MGIE」。

圖片

把背景中的人移除

圖片

在桌子上添加披薩

最近一段時間,AI 在圖片編輯這一應(yīng)用上取得了不小的進展。一方面,在 LLM 的基礎(chǔ)上,多模態(tài)大模型(MLLM)可以自然地將圖像視為輸入,并提供視覺感知響應(yīng)。另一方面,基于指令的編輯技術(shù)可以不依賴于詳細描述或區(qū)域掩碼,而是允許人類下達指令,直接表達如何編輯以及編輯圖像的哪個方面。這種方法極具實用性,因為這種引導(dǎo)更符合人類的直覺。

基于上述技術(shù)的啟發(fā),蘋果提出了 MGIE(MLLM-Guided Image Editing),將 MLLM 用于解決指令引導(dǎo)不足的問題。

圖片

  • 論文標(biāo)題:Guiding Instruction-based Image Editing via Multimodal Large Language Models
  • 論文鏈接:https://openreview.net/pdf?id=S1RKWSyZ2Y
  • 項目主頁:https://mllm-ie.github.io/

如圖 2 所示,MGIE 由 MLLM 和擴散模型組成。MLLM 通過學(xué)習(xí)獲得簡明的表達指令,并提供明確的視覺相關(guān)引導(dǎo)。通過端到端訓(xùn)練,擴散模型會同步更新,并利用預(yù)期目標(biāo)的潛在想象力執(zhí)行圖像編輯。這樣,MGIE 就能從固有的視覺推導(dǎo)中獲益,并解決模糊的人類指令,從而實現(xiàn)合理的編輯。

圖片

在人類指令的引導(dǎo)下,MGIE 可進行 Photoshop 風(fēng)格的修改、全局照片優(yōu)化和局部對象修改。以下圖為例,在沒有額外語境的情況下,很難捕捉到「健康」的含義,但 MGIE 可以將「蔬菜配料」與披薩精確地聯(lián)系起來,并按照人類的期望進行相關(guān)編輯。

圖片

這讓我們想起,庫克前不久在財報電話會議上表達的「雄心壯志」:「我認為蘋果在生成式 AI 方面存在著巨大的機會,但我不想談更多細節(jié)?!顾嘎兜男畔?,蘋果正在積極開發(fā)生成式 AI 軟件功能,且這些功能在 2024 年晚些時候就能向客戶提供。

結(jié)合蘋果在近段時間發(fā)布的一系列生成式 AI 理論研究成果,看來我們期待一下蘋果接下來要發(fā)布的新 AI 功能了。

論文細節(jié)

該研究提出的 MGIE 方法能夠通過給定的指令 X 將輸入圖片 V 編輯為目標(biāo)圖片 圖片。對于那些不精確的指令,MGIE 中的 MLLM 會進行學(xué)習(xí)推導(dǎo),從而得到簡潔的表達指令 ε。為了在語言和視覺模態(tài)之間架起橋梁,研究者還在 ε 之后添加了特殊的 token [IMG],并采用編輯頭(edit head)圖片對它們進行轉(zhuǎn)換。轉(zhuǎn)換后的信息將作為 MLLM 中的潛在視覺想象,引導(dǎo)擴散模型圖片實現(xiàn)預(yù)期的編輯目標(biāo)。然后,MGIE 能夠理解具有視覺感知的模糊命令,從而進行合理的圖像編輯(架構(gòu)圖如上圖 2 所示)。

簡潔的表達指令

通過特征對齊和指令調(diào)整,MLLM 能夠跨模態(tài)感知提供與視覺相關(guān)的響應(yīng)。對于圖像編輯,該研究使用提示「what will this image be like if [instruction]」作為圖像的語言輸入,并導(dǎo)出編輯命令的詳細解釋。然而,這些解釋往往過于冗長、甚至誤導(dǎo)了用戶意圖。為了獲得更簡潔的描述,該研究應(yīng)用預(yù)訓(xùn)練摘要器讓 MLLM 學(xué)習(xí)生成摘要輸出。這一過程可以總結(jié)為如下方式:

圖片

 通過潛在想象進行圖片編輯

該研究采用編輯頭 圖片將 [IMG] 轉(zhuǎn)化為實際的視覺引導(dǎo)。其中 圖片 是一個序列到序列模型,它將來自 MLLM 的連續(xù)視覺 tokens 映射到語義上有意義的潛在 U = {u_1, u_2, ..., u_L} 并作為編輯引導(dǎo):

圖片

為了實現(xiàn)通過視覺想象 U 引導(dǎo)圖像編輯這一過程,該研究考慮使用擴散模型圖片,該模型在包含變分自動編碼器(VAE)的同時,還能解決潛在空間中的去噪擴散問題。

圖片

算法 1 展示了 MGIE 學(xué)習(xí)過程。MLLM 通過指令損失 L_ins 導(dǎo)出簡潔指令 ε。借助 [IMG] 的潛在想象,圖片轉(zhuǎn)變其模態(tài)并引導(dǎo) 圖片合成結(jié)果圖像。編輯損失 L_edit 用于擴散訓(xùn)練。由于大多數(shù)權(quán)重可以被凍結(jié)(MLLM 內(nèi)的自注意力塊),因而可以實現(xiàn)參數(shù)高效的端到端訓(xùn)練。 

圖片

實驗評估

對于輸入圖片,在相同的指令下,不同方法之間的比較,如第一行的指令是「把白天變成黑夜」:

圖片

表 1 顯示了模型僅在數(shù)據(jù)集 IPr2Pr 上訓(xùn)練的零樣本編輯結(jié)果。對于涉及 Photoshop 風(fēng)格修改的 EVR 和 GIER,編輯結(jié)果更接近引導(dǎo)意圖(例如,LGIE 在 EVR 上獲得了更高的 82.0 CVS)。對于 MA5k 上的全局圖片優(yōu)化,由于相關(guān)訓(xùn)練三元組的稀缺,InsPix2Pix 很難處理。LGIE 和 MGIE 可以通過 LLM 的學(xué)習(xí)提供詳細的解釋,但 LGIE 仍然局限于其單一的模態(tài)。通過訪問圖像,MGIE 可以得出明確的指令,例如哪些區(qū)域應(yīng)該變亮或哪些對象更加清晰,從而帶來顯著的性能提升(例如,更高的 66.3 SSIM 和更低的 0.3 拍照距離),在 MagicBrush 上也發(fā)現(xiàn)了類似的結(jié)果。MGIE 還從精確的視覺想象中獲得最佳性能,并修改指定目標(biāo)作為目標(biāo)(例如,更高的 82.2 DINO 視覺相似度和更高的 30.4 CTS 全局字幕對齊)。

圖片

為了研究針對特定目的的基于指令的圖像編輯,表 2 對每個數(shù)據(jù)集上的模型進行了微調(diào)。對于 EVR 和 GIER,所有模型在適應(yīng) Photoshop 風(fēng)格的編輯任務(wù)后都獲得了改進。MGIE 在編輯的各個方面始終優(yōu)于 LGIE。這也說明了使用表達指令進行學(xué)習(xí)可以有效地增強圖像編輯,而視覺感知在獲得最大增強的明確引導(dǎo)方面起著至關(guān)重要的作用。

圖片

α_X 和 α_V 之間的權(quán)衡。圖像編輯有兩個目標(biāo):操作作為指令的目標(biāo)和保留作為輸入圖像的剩余部分。圖 3 顯示了指令 (α_X) 和輸入一致性 (α_V) 之間的權(quán)衡曲線。該研究將 α_X 固定為 7.5,α_V 在 [1.0, 2.2] 范圍內(nèi)變化。α_V 越大,編輯結(jié)果與輸入越相似,但與指令的一致性越差。X 軸計算的是 CLIP 方向相似度,即編輯結(jié)果與指令的一致程度;Y 軸是 CLIP 視覺編碼器與輸入圖像的特征相似度。通過具體的表達指令,實驗在所有設(shè)置中都超越了 InsPix2Pix。此外, MGIE 還能通過明確的視覺相關(guān)引導(dǎo)進行學(xué)習(xí),從而實現(xiàn)全面提升。無論是要求更高的輸入相關(guān)性還是編輯相關(guān)性,這都支持穩(wěn)健的改進。

圖片

消融研究

除此以外,研究者還進行了消融實驗,考慮了不同的架構(gòu) FZ、FT 以及 E2E 在表達指令上的性能 。結(jié)果表明,在 FZ、FT、E2E 中,MGIE 持續(xù)超過 LGIE。這表明具有關(guān)鍵視覺感知的表達指令在所有消融設(shè)置中始終具有優(yōu)勢。

圖片

為什么 MLLM 引導(dǎo)有用?圖 5 顯示了輸入或 ground-truth 目標(biāo)圖像與表達式指令之間的 CLIP-Score 值。輸入圖像的 CLIP-S 分數(shù)越高,說明指令與編輯源相關(guān),而更好地與目標(biāo)圖像保持一致可提供明確、相關(guān)的編輯引導(dǎo)。如圖所示,MGIE 與輸入 / 目標(biāo)更加一致,這就解釋了為什么其表達性指令很有幫助。有了對預(yù)期結(jié)果的清晰敘述,MGIE 可以在圖像編輯方面取得最大的改進。

圖片

人工評估。除了自動指標(biāo)外,研究者還進行了人工評估。圖 6 顯示了生成的表達指令的質(zhì)量,圖 7 對比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相關(guān)性和整體質(zhì)量方面的圖像編輯結(jié)果。

圖片

推理效率。盡管 MGIE 依靠 MLLM 來推動圖像編輯,但它只推出了簡明的表達式指令(少于 32 個 token),因此效率與 InsPix2Pix 不相上下。表 4 列出了在英偉達 A100 GPU 上的推理時間成本。對于單個輸入,MGIE 可以在 10 秒內(nèi)完成編輯任務(wù)。在數(shù)據(jù)并行化程度更高的情況下,所需的時間也差不多(當(dāng)批大小為 8 時,需要 37 秒)。整個過程只需一個 GPU(40GB)即可完成。

圖片

定性比較。圖 8 展示了所有使用數(shù)據(jù)集的可視化對比,圖 9 進一步對比了 LGIE 或 MGIE 的表達指令。

圖片

圖片

在項目主頁中,研究者還提供了更多 demo(https://mllm-ie.github.io/)。更多研究細節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-02-05 13:34:16

模型訓(xùn)練

2024-02-08 09:33:37

蘋果AI

2023-12-01 08:09:45

開源圖片編輯器

2012-05-07 17:59:02

蘋果

2018-08-30 15:27:14

蘋果Mesa數(shù)據(jù)中心

2013-09-22 15:47:23

蘋果iPhone

2019-08-29 08:55:52

iPhone蘋果改名

2021-06-11 15:22:39

蘋果 iOS系統(tǒng)

2020-03-04 10:54:54

開源技術(shù) 數(shù)據(jù)

2015-08-04 10:22:45

網(wǎng)絡(luò)空間安全國家網(wǎng)絡(luò)安全

2023-03-28 22:54:40

2019-08-20 09:23:15

Apple PenciiPhone蘋果

2022-06-26 18:09:43

Linux開源

2011-10-03 22:28:39

蘋果iPhone 5iOS 5

2021-07-28 15:59:09

蘋果 iOS系統(tǒng)

2024-05-22 09:36:42

開源NET

2023-06-25 14:55:28

編輯圖片鴻蒙

2019-05-06 13:39:49

蘋果iPhone蘋果客服

2011-06-03 09:41:22

蘋果iPhoneiPad

2015-09-10 04:42:10

iPone蘋果發(fā)布會
點贊
收藏

51CTO技術(shù)棧公眾號