自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="xt0ax"></sub>}

^{<sub id="xt0ax"></sub>}

^{<blockquote id="xt0ax"></blockquote>}

<cite id="xt0ax"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

罕見！蘋果開源圖片編輯神器MGIE，要上iPhone?

作者：機器之心 2024-02-05 12:45:33

人工智能新聞

結(jié)合蘋果在近段時間發(fā)布的一系列生成式 AI 理論研究成果，看來我們期待一下蘋果接下來要發(fā)布的新 AI 功能了。

拍張照片，輸入文字指令，手機就開始自動修圖？

這一神奇功能，來自蘋果剛剛開源的圖片編輯神器「MGIE」。

把背景中的人移除

在桌子上添加披薩

最近一段時間，AI 在圖片編輯這一應(yīng)用上取得了不小的進展。一方面，在 LLM 的基礎(chǔ)上，多模態(tài)大模型（MLLM）可以自然地將圖像視為輸入，并提供視覺感知響應(yīng)。另一方面，基于指令的編輯技術(shù)可以不依賴于詳細描述或區(qū)域掩碼，而是允許人類下達指令，直接表達如何編輯以及編輯圖像的哪個方面。這種方法極具實用性，因為這種引導(dǎo)更符合人類的直覺。

基于上述技術(shù)的啟發(fā)，蘋果提出了 MGIE（MLLM-Guided Image Editing），將 MLLM 用于解決指令引導(dǎo)不足的問題。

論文標(biāo)題：Guiding Instruction-based Image Editing via Multimodal Large Language Models
論文鏈接：https://openreview.net/pdf?id=S1RKWSyZ2Y
項目主頁：https://mllm-ie.github.io/

如圖 2 所示，MGIE 由 MLLM 和擴散模型組成。MLLM 通過學(xué)習(xí)獲得簡明的表達指令，并提供明確的視覺相關(guān)引導(dǎo)。通過端到端訓(xùn)練，擴散模型會同步更新，并利用預(yù)期目標(biāo)的潛在想象力執(zhí)行圖像編輯。這樣，MGIE 就能從固有的視覺推導(dǎo)中獲益，并解決模糊的人類指令，從而實現(xiàn)合理的編輯。

在人類指令的引導(dǎo)下，MGIE 可進行 Photoshop 風(fēng)格的修改、全局照片優(yōu)化和局部對象修改。以下圖為例，在沒有額外語境的情況下，很難捕捉到「健康」的含義，但 MGIE 可以將「蔬菜配料」與披薩精確地聯(lián)系起來，并按照人類的期望進行相關(guān)編輯。

這讓我們想起，庫克前不久在財報電話會議上表達的「雄心壯志」：「我認為蘋果在生成式 AI 方面存在著巨大的機會，但我不想談更多細節(jié)?！顾嘎兜男畔?，蘋果正在積極開發(fā)生成式 AI 軟件功能，且這些功能在 2024 年晚些時候就能向客戶提供。

結(jié)合蘋果在近段時間發(fā)布的一系列生成式 AI 理論研究成果，看來我們期待一下蘋果接下來要發(fā)布的新 AI 功能了。

論文細節(jié)

該研究提出的 MGIE 方法能夠通過給定的指令 X 將輸入圖片 V 編輯為目標(biāo)圖片。對于那些不精確的指令，MGIE 中的 MLLM 會進行學(xué)習(xí)推導(dǎo)，從而得到簡潔的表達指令 ε。為了在語言和視覺模態(tài)之間架起橋梁，研究者還在 ε 之后添加了特殊的 token [IMG]，并采用編輯頭（edit head）對它們進行轉(zhuǎn)換。轉(zhuǎn)換后的信息將作為 MLLM 中的潛在視覺想象，引導(dǎo)擴散模型實現(xiàn)預(yù)期的編輯目標(biāo)。然后，MGIE 能夠理解具有視覺感知的模糊命令，從而進行合理的圖像編輯（架構(gòu)圖如上圖 2 所示）。

簡潔的表達指令

通過特征對齊和指令調(diào)整，MLLM 能夠跨模態(tài)感知提供與視覺相關(guān)的響應(yīng)。對于圖像編輯，該研究使用提示「what will this image be like if [instruction]」作為圖像的語言輸入，并導(dǎo)出編輯命令的詳細解釋。然而，這些解釋往往過于冗長、甚至誤導(dǎo)了用戶意圖。為了獲得更簡潔的描述，該研究應(yīng)用預(yù)訓(xùn)練摘要器讓 MLLM 學(xué)習(xí)生成摘要輸出。這一過程可以總結(jié)為如下方式：

通過潛在想象進行圖片編輯

該研究采用編輯頭將 [IMG] 轉(zhuǎn)化為實際的視覺引導(dǎo)。其中是一個序列到序列模型，它將來自 MLLM 的連續(xù)視覺 tokens 映射到語義上有意義的潛在 U = {u_1, u_2, ..., u_L} 并作為編輯引導(dǎo)：

為了實現(xiàn)通過視覺想象 U 引導(dǎo)圖像編輯這一過程，該研究考慮使用擴散模型，該模型在包含變分自動編碼器（VAE）的同時，還能解決潛在空間中的去噪擴散問題。

算法 1 展示了 MGIE 學(xué)習(xí)過程。MLLM 通過指令損失 L_ins 導(dǎo)出簡潔指令 ε。借助 [IMG] 的潛在想象，轉(zhuǎn)變其模態(tài)并引導(dǎo) 合成結(jié)果圖像。編輯損失 L_edit 用于擴散訓(xùn)練。由于大多數(shù)權(quán)重可以被凍結(jié)（MLLM 內(nèi)的自注意力塊），因而可以實現(xiàn)參數(shù)高效的端到端訓(xùn)練。

實驗評估

對于輸入圖片，在相同的指令下，不同方法之間的比較，如第一行的指令是「把白天變成黑夜」：

表 1 顯示了模型僅在數(shù)據(jù)集 IPr2Pr 上訓(xùn)練的零樣本編輯結(jié)果。對于涉及 Photoshop 風(fēng)格修改的 EVR 和 GIER，編輯結(jié)果更接近引導(dǎo)意圖（例如，LGIE 在 EVR 上獲得了更高的 82.0 CVS）。對于 MA5k 上的全局圖片優(yōu)化，由于相關(guān)訓(xùn)練三元組的稀缺，InsPix2Pix 很難處理。LGIE 和 MGIE 可以通過 LLM 的學(xué)習(xí)提供詳細的解釋，但 LGIE 仍然局限于其單一的模態(tài)。通過訪問圖像，MGIE 可以得出明確的指令，例如哪些區(qū)域應(yīng)該變亮或哪些對象更加清晰，從而帶來顯著的性能提升（例如，更高的 66.3 SSIM 和更低的 0.3 拍照距離），在 MagicBrush 上也發(fā)現(xiàn)了類似的結(jié)果。MGIE 還從精確的視覺想象中獲得最佳性能，并修改指定目標(biāo)作為目標(biāo)（例如，更高的 82.2 DINO 視覺相似度和更高的 30.4 CTS 全局字幕對齊）。

為了研究針對特定目的的基于指令的圖像編輯，表 2 對每個數(shù)據(jù)集上的模型進行了微調(diào)。對于 EVR 和 GIER，所有模型在適應(yīng) Photoshop 風(fēng)格的編輯任務(wù)后都獲得了改進。MGIE 在編輯的各個方面始終優(yōu)于 LGIE。這也說明了使用表達指令進行學(xué)習(xí)可以有效地增強圖像編輯，而視覺感知在獲得最大增強的明確引導(dǎo)方面起著至關(guān)重要的作用。

α_X 和 α_V 之間的權(quán)衡。圖像編輯有兩個目標(biāo)：操作作為指令的目標(biāo)和保留作為輸入圖像的剩余部分。圖 3 顯示了指令 (α_X) 和輸入一致性 (α_V) 之間的權(quán)衡曲線。該研究將 α_X 固定為 7.5，α_V 在 [1.0, 2.2] 范圍內(nèi)變化。α_V 越大，編輯結(jié)果與輸入越相似，但與指令的一致性越差。X 軸計算的是 CLIP 方向相似度，即編輯結(jié)果與指令的一致程度；Y 軸是 CLIP 視覺編碼器與輸入圖像的特征相似度。通過具體的表達指令，實驗在所有設(shè)置中都超越了 InsPix2Pix。此外， MGIE 還能通過明確的視覺相關(guān)引導(dǎo)進行學(xué)習(xí)，從而實現(xiàn)全面提升。無論是要求更高的輸入相關(guān)性還是編輯相關(guān)性，這都支持穩(wěn)健的改進。

消融研究

除此以外，研究者還進行了消融實驗，考慮了不同的架構(gòu) FZ、FT 以及 E2E 在表達指令上的性能。結(jié)果表明，在 FZ、FT、E2E 中，MGIE 持續(xù)超過 LGIE。這表明具有關(guān)鍵視覺感知的表達指令在所有消融設(shè)置中始終具有優(yōu)勢。

為什么 MLLM 引導(dǎo)有用？圖 5 顯示了輸入或 ground-truth 目標(biāo)圖像與表達式指令之間的 CLIP-Score 值。輸入圖像的 CLIP-S 分數(shù)越高，說明指令與編輯源相關(guān)，而更好地與目標(biāo)圖像保持一致可提供明確、相關(guān)的編輯引導(dǎo)。如圖所示，MGIE 與輸入 / 目標(biāo)更加一致，這就解釋了為什么其表達性指令很有幫助。有了對預(yù)期結(jié)果的清晰敘述，MGIE 可以在圖像編輯方面取得最大的改進。

人工評估。除了自動指標(biāo)外，研究者還進行了人工評估。圖 6 顯示了生成的表達指令的質(zhì)量，圖 7 對比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相關(guān)性和整體質(zhì)量方面的圖像編輯結(jié)果。

推理效率。盡管 MGIE 依靠 MLLM 來推動圖像編輯，但它只推出了簡明的表達式指令（少于 32 個 token），因此效率與 InsPix2Pix 不相上下。表 4 列出了在英偉達 A100 GPU 上的推理時間成本。對于單個輸入，MGIE 可以在 10 秒內(nèi)完成編輯任務(wù)。在數(shù)據(jù)并行化程度更高的情況下，所需的時間也差不多（當(dāng)批大小為 8 時，需要 37 秒）。整個過程只需一個 GPU（40GB）即可完成。

定性比較。圖 8 展示了所有使用數(shù)據(jù)集的可視化對比，圖 9 進一步對比了 LGIE 或 MGIE 的表達指令。

在項目主頁中，研究者還提供了更多 demo（https://mllm-ie.github.io/）。更多研究細節(jié)，可參考原論文。

責(zé)任編輯：張燕妮來源：機器之心

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營