自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="kltud"></u>

<blockquote id="kltud"><i id="kltud"></i></blockquote><sub id="kltud"><s id="kltud"><li id="kltud"></li></s></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

六年、六屆學(xué)生接力，共鑄上交大圖像合成工具箱libcom

作者：機(jī)器之心 2024-10-12 13:50:00

人工智能新聞

該綜述介紹了圖像合成（image composition）領(lǐng)域需要解決的問題和應(yīng)運而生的子任務(wù)，總結(jié)了各個子任務(wù)的數(shù)據(jù)集、傳統(tǒng)方法、深度學(xué)習(xí)方法和實驗現(xiàn)象，從鴻蒙初辟寫到塵埃落地。

如果你對 arXiv 的版本號有所了解，你就知道這篇論文已經(jīng)更新了 4 次，現(xiàn)在已經(jīng)來到了第 5 個版本。實際上，這個 arXiv 編號屬于上海交通大學(xué)牛力團(tuán)隊一篇持續(xù)更新了四年的綜述報告。

該綜述介紹了圖像合成（image composition）領(lǐng)域需要解決的問題和應(yīng)運而生的子任務(wù)，總結(jié)了各個子任務(wù)的數(shù)據(jù)集、傳統(tǒng)方法、深度學(xué)習(xí)方法和實驗現(xiàn)象，從鴻蒙初辟寫到塵埃落地。

論文標(biāo)題：Making Images Real Again: A Comprehensive Survey on Deep Image Composition
論文地址：https://arxiv.org/abs/2106.14490v5

除了持續(xù)更新這份關(guān)于圖像合成的綜述，牛力團(tuán)隊還在持之以恒地研發(fā)和迭代一個圖像合成工具箱：libcom。而這項工作更是已經(jīng)持續(xù)了六年！

該團(tuán)隊自 2018 年底就開始從事圖像合成領(lǐng)域的研究，從數(shù)據(jù)（10 + 原創(chuàng)數(shù)據(jù)集）到模型（30 + 原創(chuàng)模型）、論文（20 + 已發(fā)表論文），再到工具箱（libcom），歷時六年，耗資數(shù)百萬，由六屆學(xué)生接力完成。

其中，所有數(shù)據(jù)集的每張圖片都經(jīng)過 2~3 人檢查，以嚴(yán)格保證數(shù)據(jù)集的質(zhì)量。所有模型的代碼都經(jīng)過 2~3 人檢查，以確保沒有嚴(yán)重的 bug。該團(tuán)隊打趣地表示：「如果有嚴(yán)重的 bug 請盡快打臉?！?/span>

在多年研究積累的基礎(chǔ)上，該實驗室于 2023 年底推出了盡量無需訓(xùn)練微調(diào)、對任意圖片開箱即用的圖像合成工具箱 libcom。并且牛力老師表示：「該工具箱的形式也是我們首創(chuàng)的，體現(xiàn)了我們對 image composition 領(lǐng)域的理解?！?/span>

截至 2024 年 10 月，libcom 已被下載安裝了 1.2 萬次。

項目地址：https://github.com/bcmi/libcom

可以看到，libcom 的 logo 是一個半人馬的形象，實際上這正是為了體現(xiàn)圖像合成的目標(biāo)：融合不同的圖像元素。這個半人馬就是人和馬的融合，同時 logo 中還添加了裝飾性的藍(lán)圈和黃圈的融合。另一個有趣的細(xì)節(jié)是，由于藍(lán)色和黃色的過渡色是綠色，因此半人馬系上了一條綠色的腰帶。

具體能力上，libcom 集成了十幾項圖像合成功能（每個功能都有一到兩個簡單有效的方法），實現(xiàn)了對圖像合成的全方位覆蓋，并且每一個功能都有對應(yīng)的倉庫。牛力老師謙虛地說：「經(jīng)過近一年的迭代，大多數(shù)功能的效果還湊合?！?/span>

另外值得一提的是，每個功能對應(yīng)的倉庫中都有訓(xùn)練代碼。這是該團(tuán)隊專門為用戶微調(diào)準(zhǔn)備的：如果用戶發(fā)現(xiàn)某項功能在自己的數(shù)據(jù)集上表現(xiàn)欠佳，原因很可能是數(shù)據(jù)差異，因此用戶只需用自己收集的訓(xùn)練數(shù)據(jù)微調(diào)模型，替換掉原來的 checkpoint，就能讓這些功能發(fā)揮出自己的完整實力。

libcom 的功能

在介紹 libcom 的十幾項功能之前，我們首先要了解什么是圖像合成（image composition）。

圖像合成是圖像編輯（image editing）技術(shù)的一種，而圖像編輯的原子操作包括增、刪、改。其中「增」這個研究方向就叫做圖像合成，指的是在圖像中添加元素。另外，「刪」是指從圖像中擦除元素，該研究方向叫做圖像填充（image inpainting）?！父摹故侵父淖儓D像中元素的屬性，該研究方向叫做屬性編輯（attribute manipulation）。其余復(fù)雜的圖像編輯操作皆可轉(zhuǎn)化為「增」、「刪」、「改」這三個原子操作的排列組合。

因此，可以說圖像合成在圖像編輯的版圖中三分天下居其一，并且其在虛擬現(xiàn)實、藝術(shù)創(chuàng)作、電商廣告、數(shù)據(jù)增廣等領(lǐng)域有著廣泛應(yīng)用。

libcom 的十幾項功能涵蓋了圖像合成的方方面面，從評估合成圖的質(zhì)量到得到高質(zhì)量合成圖：

1. get_composite_image：通過剪切粘貼、alpha 融合和泊松融合混合前景背景，如下圖所示。這些是最簡單的傳統(tǒng)圖像融合方法。

2. OPAScoreModel：輸入合成圖和前景掩碼，判斷前景物體的放置（位置、大?。┦欠窈侠?。輸出的分?jǐn)?shù)介于 [0,1] 之間，1 表示合理，0 表示不合理。在下圖中，左邊的合成圖分?jǐn)?shù)為 1，右邊的合成圖分?jǐn)?shù)為 0。

3. FOPAHeatMapModel: 輸入一對背景圖片和前景物體，輸出該物體按照不同尺寸放在背景圖片不同位置得到的合成圖的合理性分?jǐn)?shù)。假設(shè)有 K 個離散的前景物體尺寸，背景圖片大小為 H*W, 則輸出 H*W*K 的熱力圖。熱力圖上的每個像素對應(yīng)一個放置的合理性分?jǐn)?shù)，因此根據(jù)熱力圖可以獲取合理的前景物體放置框。下圖展示了單個前景物體尺寸的熱力圖以及根據(jù)熱力圖得到的前景物體放置框。

4. color_transfer: 傳統(tǒng)的顏色遷移方法，用于將背景的顏色遷移到前景，適用于簡單場景的圖像和諧化。下圖是合成圖和顏色遷移后的結(jié)果。

5. ImageHarmonizationModel：輸入合成圖和前景掩碼，圖像和諧化模型調(diào)整前景的光照使其與背景和諧，輸出和諧化結(jié)果。

6. PainterlyHarmonizationModel：藝術(shù)圖像和諧化與圖像和諧化類似，區(qū)別在于背景是藝術(shù)圖片。輸入合成圖和前景掩碼，藝術(shù)圖像和諧化模型調(diào)整前景的風(fēng)格 (顏色、紋理、筆觸等) 使其與背景一致，輸出和諧化結(jié)果。

7. HarmonyScoreModel: 輸入合成圖和前景掩碼，判斷前景和背景的光照是否匹配，輸出前景與背景的和諧化分?jǐn)?shù)。分?jǐn)?shù)介于 [0,1] 之間，1 表示和諧，0 表示不和諧。在下圖中，左邊的合成圖分?jǐn)?shù)為 0.25，右邊的合成圖分?jǐn)?shù)為 0.72。

8. InharmoniousLocalizationModel: 輸入一張圖片，輸出該圖片不和諧區(qū)域的掩碼。下圖展示了合成圖和模型預(yù)測的不和諧區(qū)域。

9. FOSScoreModel: 輸入一張合成圖，預(yù)測前景和背景在幾何和語義上的適配性分?jǐn)?shù)，包括前景和背景的透視角度是否一致、前景物體的語義上下文是否合理等等。輸出的適配性分?jǐn)?shù)介于 [0,1] 之間，1 表示適配，0 表示不適配。

10. ShadowGenerationModel: 輸入一張合成圖和前景掩碼，為前景物體在背景上生成合理的陰影。該功能不是很穩(wěn)定，通常每隨機(jī)生成 5 張會有 1~2 張的陰影形狀較好。下圖展示了隨機(jī)采樣 5 次生成的結(jié)果。

11. ControlComModel：輸入一對背景圖片和前景物體，把前景物體插入背景圖片指定位置（黃色邊界框），保持前景物體的姿態(tài)不變，做圖像融合或者圖像和諧化。兩者的區(qū)別在于圖像和諧化需要進(jìn)一步調(diào)整前景物體的光照使其與背景和諧。

12. MureObjectStitchModel: 輸入一對背景圖片和前景物體 (支持多張參考圖)，把前景物體插入背景圖片指定位置（黃色邊界框），調(diào)整前景物體的姿態(tài)和光照，得到合理的合成圖。模型對于細(xì)節(jié)簡單的物體和常見物體效果較好。對于細(xì)節(jié)復(fù)雜的物體，該團(tuán)隊建議用前景物體的 5~10 張圖片花 10 分鐘微調(diào)模型，這樣一來，該模型的細(xì)節(jié)保留能力會大幅提升。該團(tuán)隊也提供了微調(diào)模型的代碼。微調(diào)模型之后替換原來的 checkpoint 即可。

libcom 背后的技術(shù)

通常而言，圖像合成的用法是把一個前景物體插入到一張背景圖片中，得到一張合成圖。但是通過簡單的剪切粘貼得到的合成圖會存在諸多問題，我們可以將這些問題都看作是前景和背景不一致問題，其中包括外觀不一致性、幾何不一致性、語義不一致性。三種不一致性又可進(jìn)一步分解成若干子問題（邊界、光照、陰影、放置、遮擋、視角等）。

為了解決這些子問題，研究社區(qū)又提出了很多子任務(wù)（如圖像融合、圖像和諧化、陰影生成、物體放置等）。在圖像合成中，不一致性（inconsistency）、子問題（issue）、子任務(wù)（sub-task）三者之間的關(guān)系如下圖所示。

上述這些子任務(wù)可以串行（sequential pipeline）或者并行（parallel pipeline）執(zhí)行，以解決前景和背景之間的不一致性，得到高質(zhì)量合成圖。

串行流程和并行流程如下圖所示，綠勾和紅叉表示是否執(zhí)行該子任務(wù)。

給定一對背景圖片和前景物體，串行流程是先在背景中尋找前景物體的合理放置，通過圖像混合解決邊界不自然的問題，通過圖像和諧化解決前背景光照不和諧的問題，通過陰影生成為前景物體在背景上生成合理的陰影。

而并行流程則是在一個模型中同時執(zhí)行多個子任務(wù)，直接輸出最終的合成圖。并行流程也叫做生成式圖像合成，近兩年隨著擴(kuò)散模型的爆火而進(jìn)入大眾的視野。

libcom 的功能中有的基于串行流程，有的基于并行流程。

責(zé)任編輯：張燕妮來源：機(jī)器之心

圖像合成 AI 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營