罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?
拍張照片,輸入文字指令,手機就開始自動修圖?
這一神奇功能,來自蘋果剛剛開源的圖片編輯神器「MGIE」。
把背景中的人移除
在桌子上添加披薩
最近一段時間,AI 在圖片編輯這一應(yīng)用上取得了不小的進展。一方面,在 LLM 的基礎(chǔ)上,多模態(tài)大模型(MLLM)可以自然地將圖像視為輸入,并提供視覺感知響應(yīng)。另一方面,基于指令的編輯技術(shù)可以不依賴于詳細描述或區(qū)域掩碼,而是允許人類下達指令,直接表達如何編輯以及編輯圖像的哪個方面。這種方法極具實用性,因為這種引導(dǎo)更符合人類的直覺。
基于上述技術(shù)的啟發(fā),蘋果提出了 MGIE(MLLM-Guided Image Editing),將 MLLM 用于解決指令引導(dǎo)不足的問題。
- 論文標(biāo)題:Guiding Instruction-based Image Editing via Multimodal Large Language Models
- 論文鏈接:https://openreview.net/pdf?id=S1RKWSyZ2Y
- 項目主頁:https://mllm-ie.github.io/
如圖 2 所示,MGIE 由 MLLM 和擴散模型組成。MLLM 通過學(xué)習(xí)獲得簡明的表達指令,并提供明確的視覺相關(guān)引導(dǎo)。通過端到端訓(xùn)練,擴散模型會同步更新,并利用預(yù)期目標(biāo)的潛在想象力執(zhí)行圖像編輯。這樣,MGIE 就能從固有的視覺推導(dǎo)中獲益,并解決模糊的人類指令,從而實現(xiàn)合理的編輯。
在人類指令的引導(dǎo)下,MGIE 可進行 Photoshop 風(fēng)格的修改、全局照片優(yōu)化和局部對象修改。以下圖為例,在沒有額外語境的情況下,很難捕捉到「健康」的含義,但 MGIE 可以將「蔬菜配料」與披薩精確地聯(lián)系起來,并按照人類的期望進行相關(guān)編輯。
這讓我們想起,庫克前不久在財報電話會議上表達的「雄心壯志」:「我認為蘋果在生成式 AI 方面存在著巨大的機會,但我不想談更多細節(jié)?!顾嘎兜男畔?,蘋果正在積極開發(fā)生成式 AI 軟件功能,且這些功能在 2024 年晚些時候就能向客戶提供。
結(jié)合蘋果在近段時間發(fā)布的一系列生成式 AI 理論研究成果,看來我們期待一下蘋果接下來要發(fā)布的新 AI 功能了。
論文細節(jié)
該研究提出的 MGIE 方法能夠通過給定的指令 X 將輸入圖片 V 編輯為目標(biāo)圖片 。對于那些不精確的指令,MGIE 中的 MLLM 會進行學(xué)習(xí)推導(dǎo),從而得到簡潔的表達指令 ε。為了在語言和視覺模態(tài)之間架起橋梁,研究者還在 ε 之后添加了特殊的 token [IMG],并采用編輯頭(edit head)
對它們進行轉(zhuǎn)換。轉(zhuǎn)換后的信息將作為 MLLM 中的潛在視覺想象,引導(dǎo)擴散模型
實現(xiàn)預(yù)期的編輯目標(biāo)。然后,MGIE 能夠理解具有視覺感知的模糊命令,從而進行合理的圖像編輯(架構(gòu)圖如上圖 2 所示)。
簡潔的表達指令
通過特征對齊和指令調(diào)整,MLLM 能夠跨模態(tài)感知提供與視覺相關(guān)的響應(yīng)。對于圖像編輯,該研究使用提示「what will this image be like if [instruction]」作為圖像的語言輸入,并導(dǎo)出編輯命令的詳細解釋。然而,這些解釋往往過于冗長、甚至誤導(dǎo)了用戶意圖。為了獲得更簡潔的描述,該研究應(yīng)用預(yù)訓(xùn)練摘要器讓 MLLM 學(xué)習(xí)生成摘要輸出。這一過程可以總結(jié)為如下方式:
通過潛在想象進行圖片編輯
該研究采用編輯頭 將 [IMG] 轉(zhuǎn)化為實際的視覺引導(dǎo)。其中
是一個序列到序列模型,它將來自 MLLM 的連續(xù)視覺 tokens 映射到語義上有意義的潛在 U = {u_1, u_2, ..., u_L} 并作為編輯引導(dǎo):
為了實現(xiàn)通過視覺想象 U 引導(dǎo)圖像編輯這一過程,該研究考慮使用擴散模型,該模型在包含變分自動編碼器(VAE)的同時,還能解決潛在空間中的去噪擴散問題。
算法 1 展示了 MGIE 學(xué)習(xí)過程。MLLM 通過指令損失 L_ins 導(dǎo)出簡潔指令 ε。借助 [IMG] 的潛在想象,轉(zhuǎn)變其模態(tài)并引導(dǎo)
合成結(jié)果圖像。編輯損失 L_edit 用于擴散訓(xùn)練。由于大多數(shù)權(quán)重可以被凍結(jié)(MLLM 內(nèi)的自注意力塊),因而可以實現(xiàn)參數(shù)高效的端到端訓(xùn)練。
實驗評估
對于輸入圖片,在相同的指令下,不同方法之間的比較,如第一行的指令是「把白天變成黑夜」:
表 1 顯示了模型僅在數(shù)據(jù)集 IPr2Pr 上訓(xùn)練的零樣本編輯結(jié)果。對于涉及 Photoshop 風(fēng)格修改的 EVR 和 GIER,編輯結(jié)果更接近引導(dǎo)意圖(例如,LGIE 在 EVR 上獲得了更高的 82.0 CVS)。對于 MA5k 上的全局圖片優(yōu)化,由于相關(guān)訓(xùn)練三元組的稀缺,InsPix2Pix 很難處理。LGIE 和 MGIE 可以通過 LLM 的學(xué)習(xí)提供詳細的解釋,但 LGIE 仍然局限于其單一的模態(tài)。通過訪問圖像,MGIE 可以得出明確的指令,例如哪些區(qū)域應(yīng)該變亮或哪些對象更加清晰,從而帶來顯著的性能提升(例如,更高的 66.3 SSIM 和更低的 0.3 拍照距離),在 MagicBrush 上也發(fā)現(xiàn)了類似的結(jié)果。MGIE 還從精確的視覺想象中獲得最佳性能,并修改指定目標(biāo)作為目標(biāo)(例如,更高的 82.2 DINO 視覺相似度和更高的 30.4 CTS 全局字幕對齊)。
為了研究針對特定目的的基于指令的圖像編輯,表 2 對每個數(shù)據(jù)集上的模型進行了微調(diào)。對于 EVR 和 GIER,所有模型在適應(yīng) Photoshop 風(fēng)格的編輯任務(wù)后都獲得了改進。MGIE 在編輯的各個方面始終優(yōu)于 LGIE。這也說明了使用表達指令進行學(xué)習(xí)可以有效地增強圖像編輯,而視覺感知在獲得最大增強的明確引導(dǎo)方面起著至關(guān)重要的作用。
α_X 和 α_V 之間的權(quán)衡。圖像編輯有兩個目標(biāo):操作作為指令的目標(biāo)和保留作為輸入圖像的剩余部分。圖 3 顯示了指令 (α_X) 和輸入一致性 (α_V) 之間的權(quán)衡曲線。該研究將 α_X 固定為 7.5,α_V 在 [1.0, 2.2] 范圍內(nèi)變化。α_V 越大,編輯結(jié)果與輸入越相似,但與指令的一致性越差。X 軸計算的是 CLIP 方向相似度,即編輯結(jié)果與指令的一致程度;Y 軸是 CLIP 視覺編碼器與輸入圖像的特征相似度。通過具體的表達指令,實驗在所有設(shè)置中都超越了 InsPix2Pix。此外, MGIE 還能通過明確的視覺相關(guān)引導(dǎo)進行學(xué)習(xí),從而實現(xiàn)全面提升。無論是要求更高的輸入相關(guān)性還是編輯相關(guān)性,這都支持穩(wěn)健的改進。
消融研究
除此以外,研究者還進行了消融實驗,考慮了不同的架構(gòu) FZ、FT 以及 E2E 在表達指令上的性能 。結(jié)果表明,在 FZ、FT、E2E 中,MGIE 持續(xù)超過 LGIE。這表明具有關(guān)鍵視覺感知的表達指令在所有消融設(shè)置中始終具有優(yōu)勢。
為什么 MLLM 引導(dǎo)有用?圖 5 顯示了輸入或 ground-truth 目標(biāo)圖像與表達式指令之間的 CLIP-Score 值。輸入圖像的 CLIP-S 分數(shù)越高,說明指令與編輯源相關(guān),而更好地與目標(biāo)圖像保持一致可提供明確、相關(guān)的編輯引導(dǎo)。如圖所示,MGIE 與輸入 / 目標(biāo)更加一致,這就解釋了為什么其表達性指令很有幫助。有了對預(yù)期結(jié)果的清晰敘述,MGIE 可以在圖像編輯方面取得最大的改進。
人工評估。除了自動指標(biāo)外,研究者還進行了人工評估。圖 6 顯示了生成的表達指令的質(zhì)量,圖 7 對比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相關(guān)性和整體質(zhì)量方面的圖像編輯結(jié)果。
推理效率。盡管 MGIE 依靠 MLLM 來推動圖像編輯,但它只推出了簡明的表達式指令(少于 32 個 token),因此效率與 InsPix2Pix 不相上下。表 4 列出了在英偉達 A100 GPU 上的推理時間成本。對于單個輸入,MGIE 可以在 10 秒內(nèi)完成編輯任務(wù)。在數(shù)據(jù)并行化程度更高的情況下,所需的時間也差不多(當(dāng)批大小為 8 時,需要 37 秒)。整個過程只需一個 GPU(40GB)即可完成。
定性比較。圖 8 展示了所有使用數(shù)據(jù)集的可視化對比,圖 9 進一步對比了 LGIE 或 MGIE 的表達指令。
在項目主頁中,研究者還提供了更多 demo(https://mllm-ie.github.io/)。更多研究細節(jié),可參考原論文。