自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatDiT:一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器 原創(chuàng)

發(fā)布于 2025-4-29 10:36
瀏覽
0收藏

摘要

最近的研究表明,預(yù)訓(xùn)練的擴(kuò)散變換器(DiTs)具備 inherent in-context 生成能力,能夠通過最小或無需架構(gòu)修改即可適應(yīng)多種視覺任務(wù)。這些能力通過連接多個(gè)輸入和目標(biāo)圖像的自注意力 token,并結(jié)合分組和掩碼生成 pipeline 來實(shí)現(xiàn)?;谶@一基礎(chǔ),我們提出了 ChatDiT,這是一個(gè)零樣本、通用、交互式的視覺生成框架,利用預(yù)訓(xùn)練的擴(kuò)散變換器,無需額外的調(diào)整、適配器或修改。用戶可以與 ChatDiT 交互,創(chuàng)建交錯(cuò)的圖文文章、多頁圖畫書、編輯圖像、設(shè)計(jì)知識產(chǎn)權(quán)衍生產(chǎn)品,或通過一個(gè)或多個(gè)對話輪次進(jìn)行角色設(shè)計(jì)設(shè)置,使用自由形式的自然語言。ChatDiT 核心是一個(gè)由三個(gè)關(guān)鍵組件組成的多代理系統(tǒng):一個(gè)解釋用戶上傳圖像和指令的指令解析代理,一個(gè)制定單步或多步生成動作的策略規(guī)劃代理,以及一個(gè)使用擴(kuò)散變換器的 in-context 工具箱執(zhí)行這些動作的執(zhí)行代理。我們對 ChatDiT 在 IDEA-Bench 上進(jìn)行了全面評估,IDEA-Bench 包含 100 個(gè)真實(shí)世界的設(shè)計(jì)任務(wù)和 275 個(gè)案例,具有多樣的指令和不同數(shù)量的輸入和目標(biāo)圖像。盡管 ChatDiT 的實(shí)現(xiàn)簡單且無需訓(xùn)練,但它在所有競爭對手中脫穎而出,包括那些專門設(shè)計(jì)并在廣泛多任務(wù)數(shù)據(jù)集上訓(xùn)練的模型。雖然這項(xiàng)工作突顯了預(yù)訓(xùn)練文本到圖像模型在零樣本任務(wù)泛化中的未開發(fā)潛力,但我們指出 ChatDiT 在 IDEA-Bench 上的 Top-1 性能得分為 23.19(滿分 100),反映了在利用 DiTs 進(jìn)行通用目的生成時(shí)的挑戰(zhàn)。我們進(jìn)一步確定了預(yù)訓(xùn)練 DiTs 在零樣本適應(yīng)任務(wù)時(shí)的關(guān)鍵局限性。我們發(fā)布了所有代碼、代理、結(jié)果和中間輸出,以促進(jìn)進(jìn)一步研究。

1. 引言

近年來,文本生成圖像模型取得了顯著進(jìn)展,能夠生成與提示高度契合的高質(zhì)量圖像 [Ramesh et al., 2021, Esser et al., 2021, Ramesh et al., 2022, Rombach et al., 2022, Saharia et al., 2022a, Betker et al., 2023, Podell et al., 2023, Esser et al., 2024, Baldridge et al., 2024, Labs, 2024]。此外,各類適配器的開發(fā)進(jìn)一步增強(qiáng)了這些模型的可控性 [Zhang et al., 2023, Ye et al., 2023, Huang et al., 2023, Ruiz et al., 2023, Wang et al., 2024a, Hertz et al., 2024]。然而,在實(shí)際應(yīng)用中,復(fù)雜的需求往往超出現(xiàn)有適配器的能力。例如,生成一本繪本需要在多個(gè)元素之間保持組合的一致性和復(fù)雜的變化。雖然近期的一些研究嘗試開發(fā)能夠處理多種任務(wù)的統(tǒng)一模型 [Ge et al., 2023, Zhou et al., 2024a, Sheynin et al., 2024, Sun et al., 2024, Wang et al., 2024b],但這些方法通常依賴于大量特定任務(wù)的數(shù)據(jù)和廣泛的多任務(wù)訓(xùn)練。盡管這些模型具備零樣本(zero-shot)的泛化能力,但在未知任務(wù)上的穩(wěn)定性較差、擴(kuò)展困難,并且未能有效利用大量任務(wù)無關(guān)的數(shù)據(jù)。

新興研究,如群組擴(kuò)散變換器(Group Diffusion Transformers)[Huang et al., 2024a],提出了一種基于群組數(shù)據(jù)訓(xùn)練的任務(wù)無關(guān)方法。這種方法允許融合多樣的關(guān)系數(shù)據(jù)來源,例如插圖文章、視頻幀和繪本,使得訓(xùn)練數(shù)據(jù)具有高度的冗余性。這些模型展現(xiàn)了在多任務(wù)上的零樣本泛化潛力。在此基礎(chǔ)上,上下文中的LoRA(In-context LoRA)[Huang et al., 2024b]通過強(qiáng)調(diào)文本到圖像擴(kuò)散變換器固有的上下文生成能力,簡化了這一概念。通過使用每個(gè)任務(wù)10–100組圖像的小數(shù)據(jù)集微調(diào),In-context LoRA在各種任務(wù)中取得了令人印象深刻的成果。然而,其對每個(gè)任務(wù)訓(xùn)練的依賴限制了其在未知任務(wù)中的泛化能力。

在本研究中,我們旨在最大限度地挖掘In-context LoRA [Huang et al., 2024b]所揭示的核心觀察:擴(kuò)散變換器本質(zhì)上具有上下文生成能力,從而具備零樣本任務(wù)泛化的潛力。我們提出了一種無需訓(xùn)練、零樣本、交互式的通用圖像生成框架,直接基于原始形式的擴(kuò)散變換器,無需微調(diào)、適配器或結(jié)構(gòu)性修改。

ChatDiT:一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器-AI.x社區(qū)

ChatDiT多智能體框架概述。該框架由三個(gè)核心智能體順序執(zhí)行組成:指令解析智能體解釋用戶指令并分析輸入,策略規(guī)劃智能體制定上下文生成策略,執(zhí)行智能體使用預(yù)訓(xùn)練的擴(kuò)散變換器執(zhí)行計(jì)劃的行動??蛇x的Markdown智能體將輸出整合成連貫的插圖文章。子智能體在每個(gè)核心智能體內(nèi)部處理專門任務(wù),確保生成的靈活性和精確性。

(這個(gè)框架由三個(gè)核心智能體組成,它們依次執(zhí)行各自的任務(wù),并且每個(gè)核心智能體下面還有專門處理特定任務(wù)的子智能體。

1. 指令解析智能體(Instruction-Parsing Agent):這是框架的第一個(gè)智能體,它的任務(wù)是解釋用戶的指令和分析用戶上傳的圖片。它包含三個(gè)子智能體:

   - 計(jì)數(shù)智能體(Counting Agent):估算用戶希望生成的輸出圖片數(shù)量。

   - 描述智能體(Description Agent):為每個(gè)上傳的輸入圖片生成詳細(xì)描述,捕捉關(guān)鍵屬性和上下文。

   - 提示智能體(Prompting Agent):為目標(biāo)圖片創(chuàng)建描述,以指導(dǎo)生成過程。

2. 策略規(guī)劃智能體(Strategy-Planning Agent):基于指令解析智能體的輸出,這個(gè)智能體負(fù)責(zé)制定一步一步的生成計(jì)劃。它包括:

   - 參考智能體(Referencing Agent):為每個(gè)輸出選擇合適的參考圖片,并將參考圖片和輸出分組。

   - 面板化智能體(Panelizing Agent):為分組的參考和輸出構(gòu)建上下文提示,為圖像生成管道準(zhǔn)備輸入。

3. 執(zhí)行智能體(Execution Agent):這個(gè)智能體使用上下文工具包來執(zhí)行策略規(guī)劃智能體制定的計(jì)劃,生成目標(biāo)圖片。

此外,還有一個(gè)可選的Markdown智能體,它將生成的圖片和相應(yīng)的描述格式化為插圖文章,如故事書或教學(xué)內(nèi)容,以提高輸出的可讀性和連貫性。

整個(gè)框架的設(shè)計(jì)允許從自然語言指令到結(jié)構(gòu)化、分步驟的生成計(jì)劃的轉(zhuǎn)換,使得用戶可以靈活地創(chuàng)建復(fù)雜的圖像輸出,而無需進(jìn)行額外的微調(diào)或架構(gòu)修改。這種設(shè)計(jì)不僅提高了生成任務(wù)的靈活性和精確性,而且還使得ChatDiT能夠處理多樣化的任務(wù)和復(fù)雜的輸入輸出配置。圖1通過可視化的方式,清晰地展示了ChatDiT框架的工作流程和各個(gè)組件之間的相互作用。

首先,我們引入了一種擴(kuò)散變換器的上下文工具包,使其能夠基于提示并可選地結(jié)合參考圖像集合生成一組圖像(而非單個(gè)輸出)。該工具包采用類似于In-context LoRA的簡單管道,其中輸入圖像和目標(biāo)圖像被拼接為多面板布局,并通過綜合提示進(jìn)行描述。任務(wù)的核心是通過混合擴(kuò)散(Blend Diffusion)[Avrahami et al., 2022]在無需訓(xùn)練的情況下對目標(biāo)區(qū)域進(jìn)行補(bǔ)圖。該管道接受提示、零到多張參考圖像,并生成一個(gè)或多個(gè)輸出圖像。

我們方法的核心——ChatDiT,是一個(gè)多代理系統(tǒng),包含以下三個(gè)主要代理:

1.指令解析代理(Instruction-Parsing Agent):解析用戶指令和上傳的圖像,以確定所需輸出圖像的數(shù)量,并為每個(gè)輸入和目標(biāo)圖像生成詳細(xì)描述。

2.策略規(guī)劃代理(Strategy-Planning Agent):基于解析的指令,制定逐步生成計(jì)劃。每一步包括多面板提示、選擇的參考圖像ID(如適用)以及圖像生成所需的參數(shù)。

3.執(zhí)行代理(Execution Agent):利用上下文工具包執(zhí)行規(guī)劃的步驟,通過上下文操作生成所有目標(biāo)圖像。

此外,可選的Markdown代理支持生成連貫的文本-圖像交叉文章,確保輸出具有良好的可讀性。所有代理均通過大語言模型(LLMs)實(shí)現(xiàn),并采用JSON格式輸入和輸出(Markdown代理的輸出為文本格式)??傮w框架如圖1所示。

我們在IDEA-Bench [Liang et al., 2024]上對ChatDiT進(jìn)行了評估。IDEA-Bench是一個(gè)包含100種多樣化設(shè)計(jì)任務(wù)和275個(gè)測試案例的綜合基準(zhǔn),涵蓋了廣泛的指令和輸入輸出配置。生成結(jié)果示例如圖2所示,與其他方法的定量和定性比較分別見表1和圖5。盡管ChatDiT簡單且無需訓(xùn)練,但它在零樣本能力上優(yōu)于所有競爭方法,包括基于重述的文本生成圖像方法和專門的多任務(wù)框架。

ChatDiT:一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器-AI.x社區(qū)

精選單輪生成示例展示了ChatDiT在IDEA-Bench上的能力[梁等人,2024]。ChatDiT通過自由形式的自然語言交互,以零樣本的方式處理多樣化的任務(wù)、指令和輸入輸出配置,展現(xiàn)了其多功能性。這里顯示的用戶信息是對IDEA-Bench中原始詳細(xì)指令的簡化總結(jié),以節(jié)省空間。

(ChatDiT框架在IDEA-Bench基準(zhǔn)測試中的一系列精選單輪生成示例。這些示例體現(xiàn)了ChatDiT處理多樣化任務(wù)、指令和輸入輸出配置的能力,所有這些都通過自由形式的自然語言交互以零樣本的方式完成。圖中展示的用戶消息是對IDEA-Bench中原始詳細(xì)指令的簡化總結(jié),這樣做是為了節(jié)省空間。通過這些示例,我們可以看到ChatDiT在執(zhí)行具體任務(wù)時(shí)的表現(xiàn),包括生成與文本提示相符的圖像、根據(jù)現(xiàn)有圖像創(chuàng)建新的圖像變體、以及在保持某些元素不變的情況下對圖像進(jìn)行編輯等。

這些示例不僅展示了ChatDiT在圖像生成和編輯方面的多功能性,還證明了它能夠理解和執(zhí)行復(fù)雜的自然語言指令,生成高質(zhì)量和內(nèi)容相關(guān)的圖像。每個(gè)示例都包含了用戶的具體指令和ChatDiT據(jù)此生成的圖像結(jié)果,直觀地展示了框架的性能和潛力。這些圖像結(jié)果反映了ChatDiT在遵循用戶指令、保持圖像質(zhì)量和細(xì)節(jié)以及處理多樣化視覺任務(wù)方面的能力??偟膩碚f,圖2為讀者提供了ChatDiT實(shí)際應(yīng)用效果的直觀展示,證明了其作為一個(gè)通用、交互式視覺生成框架的有效性。)

我們進(jìn)一步展示了ChatDiT的多樣性:圖3展示了其生成交錯(cuò)文本-圖像文章的能力,圖4則展現(xiàn)了其多輪對話生成的輸出。盡管仍存在一些不足——例如在身份和細(xì)節(jié)保留方面的困難,以及在處理長上下文(即輸入和/或輸出數(shù)量過多)時(shí)指令遵從性的下降——ChatDiT確立了一個(gè)強(qiáng)有力的基線,并揭示了預(yù)訓(xùn)練擴(kuò)散模型未被充分利用的上下文生成潛力,為如何進(jìn)一步提升這些模型以實(shí)現(xiàn)更好的零樣本泛化提供了有價(jià)值的見解。

ChatDiT:一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器-AI.x社區(qū)

圖3:ChatDiT生成插圖文章的精選示例。ChatDiT能夠根據(jù)用戶的自然語言指令生成交錯(cuò)的文本-圖像文章。它能夠自主估計(jì)所需圖像的數(shù)量,利用上下文能力規(guī)劃和執(zhí)行生成過程,并將輸出無縫集成到連貫且視覺上吸引人的插圖文章中。

(這些示例說明了ChatDiT如何根據(jù)用戶的自然語言指令自主估計(jì)所需圖像的數(shù)量,并規(guī)劃和執(zhí)行生成過程,最終將輸出無縫集成到連貫且視覺上吸引人的插圖文章中。這些文章不僅包括圖像,還包含與圖像內(nèi)容相關(guān)的文本描述,增強(qiáng)了信息的傳達(dá)和用戶體驗(yàn)。

在這些示例中,ChatDiT展示了其理解和處理復(fù)雜場景的能力,例如創(chuàng)造一個(gè)冒險(xiǎn)者進(jìn)入古代叢林神廟尋寶的故事,或者描述一個(gè)未來體育賽事中使用高科技懸浮滑板和外骨骼的運(yùn)動員。這些故事通過多個(gè)章節(jié)和場景展開,ChatDiT需要生成一系列圖像來講述故事的不同部分,同時(shí)保持整體的視覺和敘事連貫性。

此外,圖3中的示例還展示了ChatDiT在處理更抽象的指令時(shí)的表現(xiàn),比如創(chuàng)造一個(gè)恐怖驚悚漫畫,講述一個(gè)偵探在鬧鬼的游樂園調(diào)查一系列離奇謀殺案的故事。在這個(gè)例子中,ChatDiT需要理解并表達(dá)故事的情緒和氛圍,同時(shí)創(chuàng)造出與故事情境相匹配的圖像。

這些插圖文章的生成展示了ChatDiT在整合文本和圖像、創(chuàng)造敘事流程以及維護(hù)視覺一致性方面的高級能力。盡管當(dāng)前的實(shí)現(xiàn)可能存在一些不完美之處,但這些示例證明了ChatDiT在創(chuàng)建交互式和動態(tài)界面方面的潛力,為未來更復(fù)雜的文本圖像集成任務(wù)提供了基礎(chǔ)。圖3中的示例為讀者提供了ChatDiT在實(shí)際應(yīng)用中如何工作的直觀理解,以及它在生成豐富、多模態(tài)內(nèi)容方面的潛力。)

(示例1,創(chuàng)建一部恐怖驚悚漫畫,講述一個(gè)偵探調(diào)查一系列發(fā)生在一個(gè)鬧鬼的游樂園的離奇謀殺案,最終發(fā)現(xiàn)殺手是一個(gè)被困在其中一個(gè)游樂設(shè)施中的古老靈魂。

鬼魂游樂園:偵探的噩夢

我們的故事在一個(gè)充滿神秘和明顯不安的場景中展開。在第一幅圖中,我們被介紹給這位堅(jiān)韌的偵探,他的任務(wù)是揭開一個(gè)被時(shí)間和衰敗遺忘的游樂園中一系列可怕謀殺案背后的真相。偵探走進(jìn)公園陰暗的入口,身穿風(fēng)衣,頭戴軟呢帽,手持手電筒,在詭異的背景中顯得孤獨(dú)。閃爍的燈光在小徑上投下令人不安的陰影,生銹的游樂設(shè)施像被遺忘的怪物一樣隱約可見。空氣中彌漫著一種未言明的恐懼,偵探準(zhǔn)備挖掘內(nèi)部可能隱藏的任何恐怖。

在第二幅圖中,調(diào)查深入進(jìn)行。在這里,我們發(fā)現(xiàn)偵探在一個(gè)血跡斑斑的過山車上,這是公園中一系列離奇謀殺案之一的現(xiàn)場。偵探跪在一個(gè)裝飾著神秘雕刻的邪惡游樂設(shè)施車旁,他既條理分明又警惕。黑暗的天空和扭曲的軌道增強(qiáng)了這種陰森的氛圍,而鮮紅色的血跡與柔和的背景形成了鮮明的對比,證明了一個(gè)令人不寒而栗的罪行——指向了某種超自然的存在。

第三幅圖將焦點(diǎn)轉(zhuǎn)移到了謎團(tuán)的核心——鬧鬼的旋轉(zhuǎn)木馬。與公園的其他部分不同,這個(gè)旋轉(zhuǎn)木馬散發(fā)著超自然的光芒。栩栩如生的馬似乎在觀察著偵探的每一個(gè)動作,當(dāng)他走近時(shí)。隨著一個(gè)幽靈般的實(shí)體開始形成,盤旋在游樂設(shè)施上方,緊張的氣氛不斷升級。超現(xiàn)實(shí)的燈光——綠色和紫色的弧線——將這個(gè)古老的幽靈帶入了可怕的細(xì)節(jié),暗示著將它束縛的古老詛咒。

最后,在令人毛骨悚然的高潮中,故事達(dá)到了頂點(diǎn)。偵探現(xiàn)在面對面地面對古老的靈魂,目睹了它全部的可怕輝煌。這個(gè)靈魂與公園的聯(lián)系變得無可辯駁;一個(gè)來自被遺忘時(shí)代的幽靈戰(zhàn)士,因惡意和悲傷而被困在這個(gè)領(lǐng)域內(nèi)...)

(請生成一組6張圖片,描繪一個(gè)冒險(xiǎn)者進(jìn)入一個(gè)古老的叢林神廟尋找寶藏,所有圖片都采用相同的西方漫畫書風(fēng)格。

標(biāo)題:《冒險(xiǎn)者的叢林神廟尋寶》

在未被馴服的叢林中心,樹木編織成神秘和冒險(xiǎn)的天篷,我們的故事開始了。一個(gè)勇敢的冒險(xiǎn)者的故事在西方漫畫風(fēng)格的生動面板中展開。

第一章:叢林小徑

冒險(xiǎn)者勇敢地穿過糾纏的藤蔓和郁郁蔥蔥的下層植被,一個(gè)古老神廟的輪廓在霧中隱約可見。每一步都沉重地充滿了期待,他推開厚厚的藤蔓,他那磨損的背包在他身邊搖擺。叢林是活著的,低語著它遺忘的榮耀的秘密,同時(shí)投下戲劇性的陰影,與隱藏寶藏的承諾共舞。

第二章:神廟入口

當(dāng)叢林敞開,露出神廟的入口時(shí),巨大的石柱高聳入云,上面刻著經(jīng)受住時(shí)間考驗(yàn)的符文。冒險(xiǎn)者手持火把,照亮了復(fù)雜的雕刻,每一塊都講述了一個(gè)關(guān)于古老儀式和失落文明的故事。茂密的植被似乎在守護(hù)著入口,仿佛自然本身也不愿釋放它所握有的秘密。

第三章:危險(xiǎn)之路

神廟內(nèi)的空氣充滿了古老的寒意,每一步都回響著那些曾經(jīng)冒險(xiǎn)的人的故事。突然,天花板塌陷,露出了一個(gè)致命的陷阱——一系列尖刺帶著致命的意圖下降。冒險(xiǎn)者,憑借本能和一生的求生技能,及時(shí)跳起,尖刺擦過他身后的空氣。墻上的壁畫似乎在默默審判,歷史再次重演。

第四章:寶藏揭曉

隨著守護(hù)者的覺醒,混亂隨之而來——神廟開始在他們周圍坍塌。地面震動,仿佛叢林的根在拒絕幾個(gè)世紀(jì)的干擾。冒險(xiǎn)者在絕望中奔向自由,每一步都回響著墜落的石頭的力量。一瞥肩膀足以讓他看到神廟的壯麗讓步于廢墟,但他心中燃燒著生存的火焰和征服的刺激。

第五章:守護(hù)者覺醒

但神廟還隱藏著另一個(gè)秘密——一個(gè)守護(hù)者從石頭沉睡中醒來。雕像,一個(gè)雕刻的石頭的威嚴(yán)形象,以超自然的姿態(tài)移動,它的眼睛發(fā)出詭異的光芒。我們的冒險(xiǎn)者,手持火把,擺好架勢,準(zhǔn)備迎接他知道必將發(fā)生的對峙。氣氛隨著人與神話之間的沖突而緊張,過去與現(xiàn)在的碰撞。

第六章:逃離坍塌的神廟

在守護(hù)者覺醒帶來的混亂中,神廟開始在他們周圍坍塌。地面震動,仿佛叢林的根在拒絕幾個(gè)世紀(jì)的干擾。冒險(xiǎn)者在絕望中奔向自由,每一步都回響著墜落的石頭的力量。一瞥肩膀足以讓他看到神廟的壯麗讓步于廢墟,但他心中燃燒著生存的火焰和征服的刺激。

ChatDiT:一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器-AI.x社區(qū)圖片

ChatDiT:一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器-AI.x社區(qū)

圖4:ChatDiT的精選多輪對話示例。通過引用對話歷史中的圖像,ChatDiT能夠根據(jù)自由形式的用戶指令執(zhí)行無縫的多輪生成和編輯。

這種迭代過程使得在保持對話輪次之間的上下文一致性的同時(shí),能夠動態(tài)細(xì)化和適應(yīng)輸出。

每個(gè)指令消息中指定的關(guān)鍵修改都用黃色突出顯示。

(ChatDiT框架在處理多輪對話和迭代圖像生成任務(wù)方面的能力。通過參考對話歷史中的圖像,ChatDiT能夠響應(yīng)自由形式的用戶指令,執(zhí)行無縫的多輪生成和編輯。這種迭代過程允許在保持對話上下文一致性的同時(shí),動態(tài)地細(xì)化和適應(yīng)輸出結(jié)果。在每個(gè)指令消息中,關(guān)鍵的修改點(diǎn)都用黃色標(biāo)出,以便于識別和跟蹤對話過程中的主要變化。

這些示例說明了ChatDiT如何在多輪對話中利用歷史信息來改進(jìn)和調(diào)整生成的圖像。用戶可以提供反饋或新指令,ChatDiT則能夠理解這些指令,并在之前生成的圖像基礎(chǔ)上進(jìn)行編輯或生成新的圖像。這種能力使得ChatDiT不僅能夠生成單一的圖像,還能夠參與到一個(gè)持續(xù)的創(chuàng)意過程中,其中圖像和想法可以根據(jù)用戶的連續(xù)指令不斷進(jìn)化。

圖4中的多輪對話示例展示了ChatDiT在實(shí)際應(yīng)用中的靈活性和交互性,證明了它能夠理解和執(zhí)行一系列復(fù)雜的、基于上下文的圖像生成任務(wù)。這些任務(wù)可能包括根據(jù)用戶的反饋進(jìn)行細(xì)節(jié)調(diào)整、風(fēng)格變化或整個(gè)場景的轉(zhuǎn)換。通過這種方式,ChatDiT為用戶提供了一個(gè)強(qiáng)大的工具,用于創(chuàng)造性地探索和實(shí)現(xiàn)視覺想法。)

盡管ChatDiT在IDEA-Bench中取得了23.19分(滿分100)的最佳表現(xiàn),但這一結(jié)果凸顯了在實(shí)現(xiàn)真實(shí)世界、產(chǎn)品級通用應(yīng)用方面仍然存在的巨大差距。這一結(jié)果強(qiáng)調(diào)了在復(fù)雜任務(wù)中充分利用擴(kuò)散變換器能力的挑戰(zhàn)。我們在第4.6節(jié)討論了ChatDiT的主要局限性。為促進(jìn)未來研究和創(chuàng)新,我們公開了所有代碼、代理、結(jié)果和中間輸出。

 2. 相關(guān)工作

 2.1 圖像生成

文本到圖像生成模型已經(jīng)取得了顯著進(jìn)展,能夠從自然語言提示生成高保真度和風(fēng)格多樣的圖像。為了控制特定屬性,如身份保留、顏色適應(yīng)、風(fēng)格適應(yīng)、空間組合、姿勢指導(dǎo)、局部編輯、對象級編輯、質(zhì)量增強(qiáng)和跨圖像關(guān)系建模,研究人員引入了各種方法。然而,這些方法通常需要專門的訓(xùn)練或適配器,限制了它們在更廣泛、更復(fù)雜的任務(wù)中的應(yīng)用,這些任務(wù)涉及多個(gè)圖像和復(fù)雜的關(guān)聯(lián)。

 2.2 統(tǒng)一框架和零樣本泛化

最近的幾個(gè)框架旨在泛化廣泛的生成任務(wù),如 Emu Edit、Emu2、Emu3、TransFusion、Show-o、OmniGen 等。這些模型展示了令人印象深刻的通用性,但通常依賴于顯式的多任務(wù)訓(xùn)練或大規(guī)模的多樣化數(shù)據(jù)集整合。相比之下,最近的研究表明,標(biāo)準(zhǔn)的文本到圖像擴(kuò)散變換器已經(jīng)編碼了強(qiáng)大的 in-context 能力。In-context LoRA 通過訓(xùn)練小的 LoRA 適配器,使用少量的圖像組,揭示了模型在無需大規(guī)模重新訓(xùn)練的情況下處理多任務(wù)的潛力。我們的工作進(jìn)一步表明,即使沒有這種適應(yīng),預(yù)訓(xùn)練的擴(kuò)散變換器也可以表現(xiàn)出顯著的零樣本泛化能力。

 2.3 多代理系統(tǒng)和交互框架

隨著大型語言模型(LLMs)的興起,出現(xiàn)了利用推理和規(guī)劃處理復(fù)雜任務(wù)的多代理架構(gòu)。這些代理可以分析輸入、規(guī)劃策略并使用工具或 API 執(zhí)行動作。雖然多代理推理在語言領(lǐng)域中較為常見,但我們將其集成到視覺生成中,使用 LLM 基礎(chǔ)的代理解析、規(guī)劃和執(zhí)行多步驟工作流程,利用擴(kuò)散變換器。這種基礎(chǔ)與推理代理和潛在擴(kuò)散模型的結(jié)合,使得與復(fù)雜圖像生成任務(wù)的靈活、對話式界面成為可能。

 3. 方法

 3.1 問題表述

我們采用圖像生成范式,其中任務(wù)被表述為生成一組  n ≥1  個(gè)目標(biāo)圖像,這些圖像基于  m ≥ 0  個(gè)參考圖像和一個(gè)全面描述組合的  n + m  個(gè)圖像的提示。這種統(tǒng)一的表述非常靈活,可以涵蓋廣泛的設(shè)計(jì)任務(wù),如圖畫書生成、故事板創(chuàng)建、字體設(shè)計(jì)和轉(zhuǎn)換、身份保留生成、姿勢控制、圖像編輯和知識產(chǎn)權(quán)派生。

在這一框架中,參考圖像與目標(biāo)圖像之間的關(guān)系通過組提示隱式捕捉。通過將參考和目標(biāo)圖像拼接成一個(gè)單一的多面板布局,并將其與相應(yīng)的多面板提示配對,我們可以無縫地執(zhí)行基于參考和無參考的任務(wù)。這種靈活性源于通過變化面板數(shù)量和輸入輸出圖像配置來適應(yīng)不同任務(wù)要求的能力。

然而,直接使用多面板提示和圖像拼接作為主要界面可能較為繁瑣。為了使設(shè)計(jì)要求的傳達(dá)更加直觀,類似于消費(fèi)者與藝術(shù)家的溝通,我們采用了一種結(jié)合并行和迭代生成動作的策略,以保持輸入和目標(biāo)圖像之間的關(guān)系,同時(shí)保持對圖像級描述的保真度。該系統(tǒng)將用戶意圖轉(zhuǎn)換為與 in-context 工具箱兼容的格式,并計(jì)劃處理大型圖像集的有效生成策略。

 3.2 In-Context 工具箱

如前所述,圖像生成任務(wù)可以重新表述為多面板圖像生成和 inpainting 任務(wù),這些任務(wù)可以由純文本到圖像模型有效處理。對于 inpainting,采用無訓(xùn)練方法,其中目標(biāo)圖像的可見區(qū)域被相應(yīng)的參考圖像內(nèi)容替換,并在每個(gè)去噪步驟中添加不同水平的高斯噪聲。為了確保準(zhǔn)確的圖像生成,相關(guān)的提示必須足夠全面,以描述整個(gè)多面板內(nèi)容。

為了簡化這些任務(wù),我們開發(fā)了一個(gè) in-context 工具箱,集成了必要的功能,如面板合并和拆分以及提示處理。該工具箱使用統(tǒng)一的界面,簡化了用戶交互,并允許與系統(tǒng)的無縫集成。具體來說,該工具箱接受多面板提示和圖像列表作為輸入,并輸出相應(yīng)的圖像列表,表示為:

output_images = pipe(prompt, input_images, num_outputs)

這個(gè)界面設(shè)計(jì)用于與執(zhí)行代理無縫集成,將在后續(xù)部分詳細(xì)討論。

 3.3 多代理系統(tǒng)

如圖 1 所示,我們設(shè)計(jì)了一個(gè)多代理系統(tǒng),以解釋用戶意圖并以自由形式、任務(wù)不可知的方式生成輸出。該系統(tǒng)接受自然語言指令,可選地伴隨零個(gè)或多個(gè)上傳的圖像,并生成一個(gè)或多個(gè)生成的圖像。當(dāng)需要時(shí),輸出可以格式化為插圖文章。

該系統(tǒng)由三個(gè)主要代理組成,每個(gè)代理包含專門的子代理,以處理特定的責(zé)任:

1. 指令解析代理:此代理解釋用戶的指令并處理輸入圖像。它由三個(gè)子代理組成:

   - 計(jì)數(shù)代理:根據(jù)用戶指令估計(jì)所需的輸出圖像數(shù)量。

   - 描述代理:生成每個(gè)上傳輸入圖像的詳細(xì)描述,以捕捉關(guān)鍵屬性和上下文。

   - 提示代理:創(chuàng)建目標(biāo)圖像的描述,以指導(dǎo)生成過程。

2. 策略規(guī)劃代理:基于指令解析代理的輸出,此代理制定逐步生成策略。它包括:

   - 引用代理:選擇每個(gè)輸出的適當(dāng)參考圖像,并將參考和輸出組織成組。

   - 分面代理:構(gòu)建組參考和輸出的 in-context 提示,為圖像生成 pipeline 做準(zhǔn)備。

3. 執(zhí)行代理:此代理利用 in-context 工具箱執(zhí)行由策略規(guī)劃代理創(chuàng)建的生成計(jì)劃,生成最終的輸出圖像。

此外,根據(jù)需要可以使用 Markdown 代理將生成的圖像和伴隨描述格式化為插圖文章,如故事書或說明內(nèi)容。

由于 DiTs 在長上下文處理中的限制,策略規(guī)劃代理采用特定的策略來優(yōu)化生成過程:

- 對于文本到圖像的任務(wù),輸出數(shù)量限制為 4 個(gè),以確保提示的準(zhǔn)確性。如果需要超過 4 個(gè)輸出,后續(xù)圖像將通過迭代生成,基于前 3 個(gè)圖像進(jìn)行條件生成。

- 對于圖像到圖像的任務(wù),每個(gè)輸出圖像獨(dú)立生成,基于所有輸入圖像進(jìn)行條件生成,以確保一致性。

- 對于圖像到圖像的任務(wù),生成過程通過迭代進(jìn)行,基于所有輸入圖像和先前生成的輸出進(jìn)行條件生成。

這些策略在提示的準(zhǔn)確性與捕捉跨面板關(guān)系和保持輸出之間的一致性之間取得平衡。

多代理系統(tǒng)利用大型語言模型(LLMs)進(jìn)行指令解析、策略規(guī)劃和 Markdown 代理。執(zhí)行代理使用 in-context 工具箱處理圖像生成任務(wù)。為了確保 LLM 代理的穩(wěn)定性和一致性,我們強(qiáng)制使用基于 JSON 的輸入和輸出,除非 Markdown 代理輸出 markdown 格式的文本。

 4. 實(shí)驗(yàn)

 4.1 實(shí)現(xiàn)細(xì)節(jié)

我們使用 FLUX.1-dev 文本到圖像模型構(gòu)建 in-context 工具箱和執(zhí)行代理。LLM 代理——指令解析、策略規(guī)劃和 Markdown 代理——由 OpenAI 的 GPT-4o 實(shí)現(xiàn)。對于 inpainting 任務(wù),我們采用無訓(xùn)練方法,使用 FluxInpaintPipeline 直接實(shí)現(xiàn)基于參考的 inpainting,確保高質(zhì)量且上下文準(zhǔn)確的圖像生成。

 4.2 評估基準(zhǔn)

我們使用 IDEA-Bench 基準(zhǔn)評估 ChatDiT,該基準(zhǔn)包括 100 個(gè)真實(shí)世界的設(shè)計(jì)任務(wù),具有多樣的指令和不同的輸入輸出配置。涵蓋 275 個(gè)案例,基準(zhǔn)涵蓋了廣泛的任務(wù),如圖畫書創(chuàng)建、照片修飾、圖像編輯、視覺效果轉(zhuǎn)換和姿勢轉(zhuǎn)換。

ChatDiT 的性能與 OmniGen、Emu2、Anole、InstructPix2Pix、MagicBrush 等一般目的框架以及使用語言模型重寫方法的文本到圖像模型(如 DALL-E3、SD3、Pixart、InstructPix2Pix、MagicBrush、Anole、Emu2、OmniGen)進(jìn)行比較。這些重寫方法將用戶上傳的圖像和指令轉(zhuǎn)換為每個(gè)輸出圖像的單個(gè)提示,使文本到圖像模型能夠生成結(jié)果。盡管這些方法通常無法捕捉跨圖像關(guān)系,但它們作為 IDEA-Bench 建議的基線具有重要價(jià)值。

 4.3 在 IDEA-Bench 上的結(jié)果

表 1 展示了定量結(jié)果,圖 2 提供了示例生成輸出,圖 5 可視化了 ChatDiT 與現(xiàn)有方法在選定案例中的比較。總體而言,ChatDiT 在所有競爭對手中脫穎而出,包括那些專門設(shè)計(jì)并在多任務(wù)數(shù)據(jù)集上訓(xùn)練的模型。

ChatDiT:一個(gè)用于任務(wù)無關(guān)自由形式聊天的無訓(xùn)練基線擴(kuò)散變換器-AI.x社區(qū)

ChatDiT 在圖像到圖像和文本到圖像任務(wù)中表現(xiàn)出色,展示了生成高質(zhì)量輸出并保持對上下文的強(qiáng)烈保真度的能力。然而,挑戰(zhàn)仍然存在,特別是在涉及多個(gè)輸入和輸出圖像的任務(wù)中,上下文長度較長,需要管理的元素或主題眾多,影響了一致性和整體性能。

盡管 ChatDiT 展現(xiàn)出顯著的能力,但在保持人物肖像、動物表示和產(chǎn)品細(xì)節(jié)的精確度方面仍存在不足,尤其是在人物面部、動物和精細(xì)產(chǎn)品細(xì)節(jié)方面。這些局限性突顯了在保持細(xì)粒度視覺一致性和準(zhǔn)確性方面的進(jìn)一步改進(jìn)需求。

 4.4 交錯(cuò)的文本-圖像文章生成

ChatDiT 能夠生成交錯(cuò)的文本-圖像文章,通過將用戶指令與輸入和輸出圖像描述結(jié)合,并使用 Markdown 代理將其轉(zhuǎn)換為 markdown 格式。這一過程無縫集成了文本和視覺內(nèi)容,生成了連貫且引人入勝的文章。圖 3 展示了策展的示例。

盡管當(dāng)前實(shí)現(xiàn)存在一些不完善之處,但它展示了創(chuàng)建交互式和動態(tài)界面的潛力,未來迭代中可以進(jìn)一步完善,如更復(fù)雜的格式、改進(jìn)的敘事連貫性和擴(kuò)展的功能。

 4.5 多輪對話

圖 4 展示了使用 ChatDiT 進(jìn)行多輪對話的示例,系統(tǒng)根據(jù)動態(tài)、自由形式的用戶指令進(jìn)行迭代生成和編輯。通過引用先前生成的圖像并保持跨對話回合的上下文感知,ChatDiT 能夠在保持一致性的同時(shí)優(yōu)化輸出,同時(shí)保持對用戶意圖的保真度。

盡管 ChatDiT 在許多情況下表現(xiàn)出色,但挑戰(zhàn)仍然存在,特別是在保持細(xì)粒度細(xì)節(jié)和跨復(fù)雜對話維持一致身份方面。此外,累積錯(cuò)誤可能會顯著影響性能,隨著對話長度的增加。解決這些局限性是未來增強(qiáng)的重要方向。

 4.6 ChatDiT 的局限性

盡管 ChatDiT 展現(xiàn)出零樣本泛化能力,但幾個(gè)局限性仍然存在,突顯了進(jìn)一步改進(jìn)的領(lǐng)域:

1. 參考保真度不足:ChatDiT 在準(zhǔn)確引用輸入圖像的細(xì)節(jié)方面存在困難,尤其是在保持人物、動物、產(chǎn)品或場景的身份和細(xì)粒度細(xì)節(jié)方面。雖然該模型可以捕捉總體組成和主題,但風(fēng)格一致性、身份保真度和其他細(xì)微的視覺屬性方面存在差異。

2. 長上下文理解有限:隨著輸入或輸出圖像數(shù)量的增加,該模型的性能顯著下降。處理長上下文場景(如生成大型圖像集或處理許多參考圖像)時(shí),ChatDiT 的語義理解和生成質(zhì)量下降,導(dǎo)致連貫性和視覺保真度降低。

3. 表達(dá)敘事和情感的不足:ChatDiT 在生成具有強(qiáng)烈敘事流、情感深度或故事驅(qū)動場景的內(nèi)容方面表現(xiàn)出有限的能力。這種短coming 可以歸因于文本到圖像模型固有的挑戰(zhàn),即捕捉和表達(dá)情感或復(fù)雜的故事驅(qū)動場景。此外,該模型傾向于簡化復(fù)雜場景,偏愛生成視覺上簡單的輸出。

4. 高級上下文推理能力弱:ChatDiT 在執(zhí)行高級上下文任務(wù)時(shí)表現(xiàn)出困難。例如,當(dāng)提供一組輸入輸出圖像對和一個(gè)新的輸入時(shí),該模型通常無法推斷所需的動作或生成任務(wù)。這一局限性突顯了該模型在泛化高級關(guān)系和跨上下文示例進(jìn)行抽象推理方面的不足。

5. 處理多主體或多重元素的復(fù)雜性有限:ChatDiT 在管理涉及多個(gè)主體或元素的場景時(shí)存在困難,如角色之間的互動、擁擠的場景或具有復(fù)雜關(guān)系的對象。在這些情況下,生成的輸出通常會失去構(gòu)圖的一致性,導(dǎo)致不連貫或不完整的表示。

解決這些局限性將需要在細(xì)粒度參考對齊、長上下文理解、敘事和情感生成以及在上下文設(shè)置中改進(jìn)推理能力方面的進(jìn)步。這些發(fā)現(xiàn)為未來旨在增強(qiáng)擴(kuò)散變換器的通用目的能力的研究提供了基礎(chǔ)。

 5. 結(jié)論和討論

本文中,我們提出了 ChatDiT,這是一個(gè)基于預(yù)訓(xùn)練擴(kuò)散變換器的新型零樣本、通用、交互式視覺生成框架。通過利用擴(kuò)散模型的固有上下文生成能力,ChatDiT 允許用戶無縫創(chuàng)建復(fù)雜的多圖像輸出、編輯圖像、生成交錯(cuò)的文本-圖像文章和設(shè)計(jì)角色設(shè)置,所有這些都無需額外的微調(diào)或架構(gòu)修改。

盡管 ChatDiT 展現(xiàn)出顯著的零樣本能力,但幾個(gè)局限性仍然存在。這些包括在長上下文處理中的挑戰(zhàn),其中性能隨著輸入輸出復(fù)雜性的增加而下降,以及在人物面部、動物和精細(xì)設(shè)計(jì)細(xì)節(jié)的精確度方面的困難。此外,ChatDiT 在生成具有強(qiáng)烈敘事流和情感深度的內(nèi)容方面存在困難。這些局限性突顯了在細(xì)粒度參考對齊、長上下文理解和生成以及在復(fù)雜場景中捕捉細(xì)微情感和敘事線索方面的進(jìn)一步改進(jìn)需求。

總之,ChatDiT 代表了在利用預(yù)訓(xùn)練擴(kuò)散變換器進(jìn)行零樣本、通用視覺生成方面的重要一步。通過識別其局限性,我們?yōu)槲磥淼难芯刻峁┝朔较?,以進(jìn)一步釋放這些模型在實(shí)際、產(chǎn)品級應(yīng)用中的潛力。


本文轉(zhuǎn)載自公眾號AIRoobt ,作者:Lianghua Huang等

原文鏈接:??https://mp.weixin.qq.com/s/bslZxiTr0Q9ySSyCD_bc9A??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-4-29 15:42:35修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦