不用GAN不用擴散,無需訓練解鎖AI生圖新境界!判別模型成神秘第三極
判別模型與生成模型長期以來彼此獨立,前者專注于分類和識別,后者用于數(shù)據(jù)生成。
最近一項名為「直接上升合成」(Direct Ascent Synthesis,DAS)的獨立研究,顛覆了這一傳統(tǒng)觀念,揭示出判別模型中隱藏著令人驚嘆的生成能力。
論文鏈接:https://arxiv.org/abs/2502.07753
DAS的核心觀點挑戰(zhàn)了人們對判別模型和生成模型的傳統(tǒng)認知。
研究人員發(fā)現(xiàn),判別模型并非只能用于判別任務,其內(nèi)部實際上蘊含著豐富的生成知識。通過合適的優(yōu)化技術,判別模型可以突破傳統(tǒng)角色,成為強大的圖像合成工具。
以CLIP模型為例,它能夠?qū)D像映射到嵌入向量,這些嵌入向量不僅包含了圖像的語義信息,還捕捉到了自然圖像的結(jié)構(gòu)特征。
然而,傳統(tǒng)的反向映射嘗試,即將嵌入向量轉(zhuǎn)換回圖像時,往往會遇到問題。以往的方法通常會產(chǎn)生退化的結(jié)果,生成的圖像在數(shù)學上與目標嵌入向量匹配度很高,但在人類觀察者眼中卻像是毫無意義的噪聲。
這種現(xiàn)象在對抗樣本的研究中尤為明顯,也揭示了表示匹配與感知質(zhì)量之間的矛盾。
DAS的研究者們卻從中獲得了靈感,他們認為這種看似的限制實際上是一個機會。
在可能的反向映射空間中,既存在自然圖像,也存在對抗模式。通過精心設計的優(yōu)化方法,就有可能引導模型生成自然且有意義的圖像,從而挖掘出判別模型中隱藏的生成能力。
關鍵創(chuàng)新:多分辨率優(yōu)化
DAS的關鍵創(chuàng)新在于多分辨率優(yōu)化。它打破了傳統(tǒng)優(yōu)化直接在像素層面操作的局限,將圖像分解為多個不同分辨率的組件進行同時優(yōu)化:
其中,表示分辨率為r的圖像組件,圖像被表示為從1×1到224×224分辨率的一系列組件之和。
從正則化角度來看,多分辨率分解提供了一種自然的正則化方式。它通過強制不同分辨率之間的一致性,避免了優(yōu)化過程中出現(xiàn)退化的高頻解決方案,而這些高頻噪聲往往是傳統(tǒng)對抗優(yōu)化產(chǎn)生無意義圖像的原因。
同時,不同分辨率的組件能夠在合適的尺度上捕捉語義信息,比如低分辨率組件可以把握圖像的整體結(jié)構(gòu),高分辨率組件則專注于細節(jié),從而使生成的圖像在語義上更加連貫。
在優(yōu)化目標的設定上,DAS通過衡量生成圖像與目標描述(如文本描述對應的嵌入向量)的CLIP嵌入相似度來進行優(yōu)化:
其中,i對多個CLIP模型進行索引,j對增強操作進行索引。
公式具有幾個關鍵特性:1)所有分辨率的組件同時進行優(yōu)化;2)梯度根據(jù)各尺度的重要性自然地分布;3)通過尺度分解抑制高頻對抗模式。
梯度會根據(jù)不同分辨率組件的重要性自然地分布,進一步促進了生成過程朝著符合自然圖像統(tǒng)計結(jié)構(gòu)的方向發(fā)展。
最終生成圖像的功率譜遵循1/f2分布,這正是自然圖像的典型特征,證明了多分辨率優(yōu)化生成圖像的有效性。
DAS實現(xiàn)細節(jié)
研究者采用了幾種技術來確保穩(wěn)定且高質(zhì)量的生成:
數(shù)據(jù)增強
研究發(fā)現(xiàn),隨機的x-y位移和像素噪聲這兩種簡單的數(shù)據(jù)增強方式,與多分辨率先驗協(xié)同工作,能夠顯著提升生成的穩(wěn)定性和圖像質(zhì)量。
單獨使用其中任何一種增強方式效果都有限,但兩者結(jié)合,就能為模型在優(yōu)化過程中提供更多的變化和穩(wěn)定性,使得生成的圖像更加多樣化且自然。
更復雜的數(shù)據(jù)增強方式可能會進一步提高生成質(zhì)量,這為后續(xù)研究留下了探索空間。
位移處理
在處理圖像位移時,DAS采用了一種獨特的策略。與傳統(tǒng)的填充方法不同,它在生成圖像時,會將圖像尺寸擴大為(H+2s)×(W+2s),其中s是最大位移量。
這樣在進行位移增強時,圖像就有了足夠的緩沖空間,避免了因位移導致的邊界問題。最后,再將生成的圖像中心裁剪為所需的H×W尺寸,確保圖像的完整性和一致性。
模型集成
為了進一步提高生成質(zhì)量,DAS采用了模型集成的方法。它平均了三個CLIP模型(OpenAI ViT-B/32 和兩個 OpenCLIP ViT-B/32 變體,分別在不同數(shù)據(jù)集上訓練)的梯度。
雖然單個模型也能實現(xiàn)圖像生成,但通過模型集成,能夠在一定程度上提升生成圖像的質(zhì)量和穩(wěn)定性。
不過,研究人員也發(fā)現(xiàn),部分CLIP模型在轉(zhuǎn)換為生成器時表現(xiàn)不佳,目前還沒有明確的原因,有待后續(xù)研究。
框架擴展
DAS的框架具有很強的擴展性,在多目標向量方面,生成過程可以由多個加權目標引導,通過不同提示的組合,實現(xiàn)對生成圖像的精細控制。
在風格遷移和重建任務中,目標嵌入可以來自文本,也可以來自參考圖像。
基于CLIP模型強大的表示能力,即使經(jīng)過大幅度的維度壓縮,DAS仍然能夠在重建過程中保留圖像的語義內(nèi)容和風格元素。
實驗結(jié)果與分析
研究人員對DAS進行了全面的實驗,從多個角度驗證了其性能和優(yōu)勢。
實驗聚焦在四個關鍵方面:生成一致性、可控修改、重建保真度以及在不同應用中的通用性。
研究者采用3個CLIP模型進行集成:OpenAI ViT-B/32、兩個OpenCLIP ViT-B/32變體。上述模型均基于ViT架構(gòu),但也驗證了非ViT模型同樣可以取得類似的生成效果。
生成質(zhì)量與一致性
在生成質(zhì)量和一致性實驗中,研究人員選擇了兩個具有挑戰(zhàn)性的提示:火山爆發(fā)和冬夜的劍橋。
多次運行DAS生成圖像的結(jié)果顯示,它在生成過程中表現(xiàn)出了高度的可靠性。
在語義一致性方面,每次生成的圖像都能保持一致的高級特征,比如火山場景中的火山灰柱結(jié)構(gòu)和景觀融合,劍橋場景中的建筑主題和冬夜氛圍都非常穩(wěn)定。
在構(gòu)圖理解上,生成的圖像展現(xiàn)出了復雜而合理的構(gòu)圖,即使沒有經(jīng)過專門的構(gòu)圖訓練,也能自然地平衡前景和背景,體現(xiàn)出對場景結(jié)構(gòu)的理解。
此外,不同運行結(jié)果之間的差異呈現(xiàn)出自然圖像的特征,如光照變化、視角微調(diào)等,而非對抗模式,這表明多分辨率先驗成功地將優(yōu)化過程限制在了自然圖像流形內(nèi)。
可控修改
在可控修改實驗中,研究人員以一張原始圖像為基礎,根據(jù)不同的文本提示對圖像進行修改。
結(jié)果表明,DAS能夠?qū)崿F(xiàn)精確的局部調(diào)整和全局場景轉(zhuǎn)換。
在結(jié)構(gòu)保存方面,圖像的核心幾何結(jié)構(gòu)和空間關系在修改過程中得以保留,比如道路場景中,道路的基本形狀和位置不會因為修改提示而被破壞。
語義控制上,圖像的修改能夠準確響應文本提示,并且保持物理上的合理性,像下雪的道路場景中,雪會自然地堆積在路面上。
在多尺度協(xié)調(diào)方面,新添加的元素能夠在不同空間尺度上無縫融合,火山爆發(fā)場景中,不僅有大規(guī)模的地形變化,還有局部的大氣效果,兩者協(xié)調(diào)一致。
嵌入引導的重建
從CLIP嵌入中重建圖像是對DAS的一項嚴格測試,因為這需要從高度壓縮的表示(從150,528維壓縮到512維)中恢復高維圖像結(jié)構(gòu)。
實驗結(jié)果令人驚喜,DAS 能夠恢復出大量的語義和風格信息。
在語義保留上,主要的場景元素及其關系被一致地恢復出來。風格保留方面,顏色方案、光照條件和藝術特質(zhì)都能有效地轉(zhuǎn)移。
構(gòu)圖保真度上,整體的布局和空間組織保持完整。同時,在細節(jié)上還能呈現(xiàn)出自然的變化,使得重建圖像既保留了原始圖像的主要特征,又具有一定的多樣性。
專業(yè)應用
在生成國旗的任務中,DAS能夠處理精確的幾何圖案和象征元素,雖然生成的國旗并不完美,但已經(jīng)能夠清晰地識別出各個國家的國旗特征,像瑞士國旗的精確比例和巴西國旗復雜的星星圖案都能得到較好的呈現(xiàn)。
在圖像修復任務中,DAS可以根據(jù)給定的提示(如「夜晚的城市天際線」)生成與現(xiàn)有圖像上下文無縫融合的內(nèi)容,展示出其在處理邊界條件和結(jié)構(gòu)連續(xù)性方面的優(yōu)勢。
這表明,DAS能夠在多種復雜任務中發(fā)揮作用,且不需要針對特定任務進行專門的訓練或架構(gòu)修改。
風格遷移
在風格遷移方面,DAS 同樣表現(xiàn)出色。通過將起始圖像向風格圖像的嵌入方向優(yōu)化,DAS能有效地實現(xiàn)風格遷移。
與傳統(tǒng)的基于像素空間優(yōu)化的風格遷移方法相比,DAS生成的結(jié)果更加自然,高頻偽影更少,而且所需的優(yōu)化步驟也更少。
這使得DAS成為了傳統(tǒng)風格遷移技術的有力替代方案,為用戶帶來更加流暢和高質(zhì)量的風格遷移體驗。