自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

400萬樣本,數(shù)據(jù)才是AIGC的王道!UltraEdit:基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集

發(fā)布于 2024-8-27 09:59
瀏覽
0收藏

一、概述

UltraEdit 是一種大規(guī)模的、自動(dòng)生成的數(shù)據(jù)集,專門用于基于指令的圖像編輯。該數(shù)據(jù)集包含了約400萬個(gè)編輯樣本,覆蓋了750,000個(gè)獨(dú)特的指令,涵蓋了9種以上的編輯類型。UltraEdit 的核心優(yōu)勢(shì)在于其利用大型語言模型(LLMs)的創(chuàng)造力和人類評(píng)估者提供的上下文編輯示例,提供了更廣泛的編輯指令;其數(shù)據(jù)源基于真實(shí)圖像,包括照片和藝術(shù)作品,這比僅由文本到圖像模型生成的數(shù)據(jù)集提供了更大的多樣性并減少了偏見;此外,它還支持基于區(qū)域的編輯,并增強(qiáng)了高質(zhì)量的自動(dòng)生成區(qū)域注釋。


項(xiàng)目地址:https://ultra-editing.github.io/
代碼地址:https://github.com/HaozheZhao/UltraEdit
論文地址:https://arxiv.org/pdf/2407.05282

效果:

代碼中也給出了通過UltraEdit訓(xùn)練集訓(xùn)練的SD3的模型,并且提供了一個(gè)gradio的界面,我部署測(cè)試了下這個(gè)模型,整體來說效果還過得去,當(dāng)然這個(gè)模型不是重點(diǎn)。

400萬樣本,數(shù)據(jù)才是AIGC的王道!UltraEdit:基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集-AI.x社區(qū)

400萬樣本,數(shù)據(jù)才是AIGC的王道!UltraEdit:基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集-AI.x社區(qū)

二、原理

核心點(diǎn):

  1. 多樣性編輯指令:結(jié)合了大型語言模型和人類評(píng)估者生成的編輯指令,提高了指令的多樣性和質(zhì)量。
  2. 真實(shí)圖像基礎(chǔ):使用真實(shí)圖像作為數(shù)據(jù)源,減少了模型訓(xùn)練時(shí)的偏見,提高了生成樣本的多樣性。
  3. 基于區(qū)域的編輯支持:通過高質(zhì)量的自動(dòng)生成區(qū)域注釋,增強(qiáng)了對(duì)特定區(qū)域編輯的支持。

UltraEdit架構(gòu):

400萬樣本,數(shù)據(jù)才是AIGC的王道!UltraEdit:基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集-AI.x社區(qū)

  • 圖上部:使用 LLM 和上下文示例來根據(jù)收集的圖像標(biāo)題生成編輯說明和目標(biāo)標(biāo)題
  1. 手動(dòng)創(chuàng)建初始指令:首先,通過人工創(chuàng)建數(shù)百條編輯指令。這些指令是與人類評(píng)估者合作產(chǎn)生的,他們根據(jù)COCO數(shù)據(jù)集中的圖像和標(biāo)題來編寫合適的編輯指令。
  2. 利用LLM擴(kuò)展指令:然后,使用大型語言模型(LLM)來擴(kuò)展這些人工編寫的指令,生成更多樣的編輯示例。這一步驟通過結(jié)合上下文學(xué)習(xí)(in-context learning)和LLM的創(chuàng)造力,顯著增加了指令的多樣性。
  3. 生成指令和標(biāo)題:LLM不僅生成編輯指令,還生成編輯后的圖像的標(biāo)題。這些標(biāo)題用于后續(xù)的圖像生成和評(píng)估過程。
  4. 指令和標(biāo)題的輸出格式:輸出格式遵循“原始圖像標(biāo)題;編輯指令;新圖像標(biāo)題”的模式,確保結(jié)果的一致性和實(shí)用性。
  • 圖中部:使用P2P控制和現(xiàn)成的T2I擴(kuò)散模型生成源圖像和目標(biāo)圖像
  1. 使用真實(shí)圖像作為錨點(diǎn):在生成編輯樣本時(shí),不完全依賴T2I模型合成所有圖像,而是使用真實(shí)圖像作為錨點(diǎn),以減少這些模型可能存在的偏見。
  2. 圖像-圖像擴(kuò)散流程:使用常規(guī)的Img2Img擴(kuò)散流程,將噪聲擾動(dòng)的潛在嵌入和源標(biāo)題作為條件,生成源圖像。
  3. 提示到提示(P2P)控制:使用P2P控制和目標(biāo)標(biāo)題生成目標(biāo)圖像,這一步驟在相同的潛在空間中進(jìn)行,確保了源圖像和目標(biāo)圖像的一致性。
  4. 使用SDXL-Turbo作為擴(kuò)散骨干:利用SDXL-Turbo模型進(jìn)行高質(zhì)量的圖像生成,只需2-4步擴(kuò)散步驟,就能保持與SDXL相當(dāng)?shù)纳少|(zhì)量。
  • 圖下部:根據(jù)指令生成一個(gè)編輯區(qū)域,然后調(diào)用修改后的修復(fù)擴(kuò)散管道來生成圖像
  1. 對(duì)象檢測(cè)與編輯對(duì)象識(shí)別:使用“recognize-anything”模型對(duì)源圖像進(jìn)行對(duì)象檢測(cè),識(shí)別出圖像中的所有對(duì)象。結(jié)合LLM、對(duì)象列表、源標(biāo)題、目標(biāo)標(biāo)題和編輯指令,確定需要編輯的具體對(duì)象或區(qū)域。
  2. 編輯區(qū)域的生成:對(duì)于需要變換的對(duì)象,使用GroundingDINO和SAM技術(shù)來獲得對(duì)象的邊界框和精細(xì)掩碼。如果編輯指令涉及整個(gè)圖像的變換,整個(gè)圖像被定義為編輯區(qū)域。利用這些掩碼生成一個(gè)軟掩碼,以便在生成過程中平滑地過渡編輯區(qū)域和非編輯區(qū)域。
  3. 修改的圖像生成流程:采用修改后的圖像生成流程,交替進(jìn)行常規(guī)擴(kuò)散步驟和僅在編輯區(qū)域內(nèi)的修復(fù)擴(kuò)散步驟。這一流程通過考慮編輯區(qū)域的掩碼來引導(dǎo)圖像的生成,從而在指定區(qū)域內(nèi)實(shí)現(xiàn)精確編輯。
  4. 軟掩碼的融合:將精細(xì)掩碼與邊界框掩碼融合,創(chuàng)建一個(gè)軟掩碼,用于在生成過程中指示哪些區(qū)域應(yīng)該被編輯。

高質(zhì)量圖像生成的評(píng)估和篩選:

個(gè)人認(rèn)為數(shù)據(jù)集的質(zhì)量評(píng)估在UltraEdit數(shù)據(jù)集的構(gòu)建過程中扮演著最關(guān)鍵的角色,確保了生成的圖像編輯樣本符合高標(biāo)準(zhǔn)的質(zhì)量和準(zhǔn)確性。為了保證數(shù)據(jù)集的質(zhì)量,UltraEdit數(shù)據(jù)集做了如下工作:

1、自動(dòng)化質(zhì)量評(píng)估指標(biāo)

  • CLIP圖像相似度(CLIP Image Similarity):評(píng)估生成圖像與目標(biāo)圖像在視覺上的相似度。
  • DINOv2相似度(DINOv2 Similarity):衡量生成圖像與源圖像在語義上的相似性。
  • 結(jié)構(gòu)相似性指數(shù)(SSIM):量化生成圖像與源圖像在像素級(jí)別的一致性,確保圖像質(zhì)量。
  • CLIP方向相似度(CLIP Directional Similarity, CLIPdir):評(píng)估圖像變化與標(biāo)題變化之間的一致性,確保生成圖像遵循編輯指令。

2、生成過程的迭代與篩選

  • 多次迭代:對(duì)于每個(gè)編輯指令,擴(kuò)散模型多次迭代生成多個(gè)圖像變體。
  • 基于指標(biāo)的篩選:使用上述自動(dòng)化度量標(biāo)準(zhǔn)篩選出高質(zhì)量圖像。

3、編輯區(qū)域的準(zhǔn)確性

  • 區(qū)域掩碼的精確性:確保生成的編輯區(qū)域掩碼準(zhǔn)確反映了需要編輯的圖像部分。
  • 編輯操作的精度:評(píng)估編輯操作是否精確地在指定區(qū)域內(nèi)執(zhí)行。

三、效果

數(shù)據(jù)集的對(duì)比

400萬樣本,數(shù)據(jù)才是AIGC的王道!UltraEdit:基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集-AI.x社區(qū)

  • 定量評(píng)估

400萬樣本,數(shù)據(jù)才是AIGC的王道!UltraEdit:基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集-AI.x社區(qū)

定性評(píng)估

400萬樣本,數(shù)據(jù)才是AIGC的王道!UltraEdit:基于指令的細(xì)粒度圖像編輯數(shù)據(jù)集-AI.x社區(qū)

四、小結(jié)

文章主要目的是構(gòu)建精細(xì)化編輯的數(shù)據(jù)集,以下是主要關(guān)鍵點(diǎn):

  • 使用大語言模型LLM 來根據(jù)收集的圖像標(biāo)題生成編輯說明和目標(biāo)標(biāo)題
  • 使用自由形式編輯來生成數(shù)據(jù)集,不依賴于特定的圖像區(qū)域或掩碼
  • 使用區(qū)域編輯的方式來生成數(shù)據(jù)集,專注于圖像的特定區(qū)域或?qū)ο蟮纳?/li>
  • 評(píng)估和篩選出高質(zhì)量的數(shù)據(jù)集

個(gè)人認(rèn)為,這篇文章很有價(jià)值,因?yàn)閿?shù)據(jù)才是AIGC最基礎(chǔ)最需要做的工作,但是靠人工來整理收集還是效率太低了,結(jié)合大模型與文生圖模型來做一部分?jǐn)?shù)據(jù)整理的工作簡直不要太爽,但是如何保證生圖的質(zhì)量非常關(guān)鍵,一是生圖模型有較好的效果,二是數(shù)據(jù)質(zhì)量評(píng)估體系的建立是否完善。


本文轉(zhuǎn)自 AI生成未來 ,作者:grooter


原文鏈接:??https://mp.weixin.qq.com/s/8GuPUv-MsyEm1FhrhX3v7Q??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦