自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越擴(kuò)散模型!自回歸新范式僅需2.9秒就生成高質(zhì)量圖像,中科大哈工大度小滿出品

人工智能 新聞
總的來(lái)說(shuō),STAR基于scale-wise自回歸的方式,解決了VAR中存在的引導(dǎo)條件有限、位置編碼不合理的問題,實(shí)現(xiàn)了更高效、性能更好的文本引導(dǎo)圖像生成。

超越擴(kuò)散模型!自回歸范式在圖像生成領(lǐng)域再次被驗(yàn)證——

中科大、哈工大、度小滿等機(jī)構(gòu)提出通用文生圖模型STAR。

僅需2.9秒就可生成高質(zhì)量圖像,超越當(dāng)前一眾包括SDXL在內(nèi)擴(kuò)散模型的性能。

圖片

此外在生成圖像真實(shí)度、圖文一致性和人類偏好上均表現(xiàn)優(yōu)秀。

圖片

來(lái)看看具體是如何做到的?

自回歸通用文生圖模型STAR

擴(kuò)散模由于其高質(zhì)量和多元的生成,一度在文生圖領(lǐng)域占有主導(dǎo)地位。

它通過逐步的去噪過程,為圖像生成提供了更強(qiáng)的穩(wěn)定性和可控性,然而也導(dǎo)致生成過程極其耗時(shí)。

而自回歸模型的潛力,在受到大語(yǔ)言模型啟發(fā)下,開始在這一領(lǐng)域逐漸被探索。

比如VAR指出是因?yàn)樽曰貧w模型逐個(gè)預(yù)測(cè)token的行為不符合圖像模態(tài)的特點(diǎn),提出“next-scale prediction”范式,將視覺自回歸建模為逐個(gè)預(yù)測(cè)更大尺度scale的token map。這一方式避免了原始基于next-token的自回歸方案難以建模圖像模態(tài)的問題,重新為視覺生成定義了新的自回歸范式,從而使得生成的圖像具有更高的真實(shí)度,不過仍然有很多局限,性能仍落后于擴(kuò)散模型。

作者提出基于尺度的文生圖自回歸模型STAR,重新思考VAR中的“next-scale prediction”范式。

具體來(lái)說(shuō),所提出的STAR包括兩部分:

增強(qiáng)的文本引導(dǎo)和改進(jìn)的位置編碼,以高效地實(shí)現(xiàn)高質(zhì)量圖像生成。

增強(qiáng)的文本引導(dǎo)

為了更好地處理各種復(fù)雜的文本描述并生成相應(yīng)的圖像,研究者提出幾項(xiàng)關(guān)鍵解決方案:

1、文本特征作為起始token map,根據(jù)起始token map生成更高分辨率的token map這不僅增強(qiáng)了模型對(duì)新文本場(chǎng)景的適應(yīng)性,確保模型可以泛化到新的文本提示,從整體上保證了文本描述與生成圖像之間的一致性

2、在每個(gè)transformer層引入交叉注意力機(jī)制,從更精細(xì)的粒度控制圖像生成,使得生成的圖像更加精確地貼合文本。

具體網(wǎng)絡(luò)格式如下:

圖片

歸一化旋轉(zhuǎn)位置編碼(Normalized RoPE)

對(duì)于next-scale prediction范式,如何利用同一個(gè)transformer生成不同尺度的token map是一個(gè)重要的問題,隨之而來(lái)的是如何編碼這些token map中的tokens的位置。

傳統(tǒng)的正余弦編碼難以處理不同尺度的token map,同時(shí)編碼多個(gè)尺度容易導(dǎo)致尺度之間的混淆。

可學(xué)習(xí)的絕對(duì)位置編碼需要為每個(gè)尺度的token map學(xué)習(xí)對(duì)應(yīng)的位置編碼,導(dǎo)致額外的學(xué)習(xí)參數(shù),提升了訓(xùn)練難度,尤其是大尺度情況下的訓(xùn)練變得更加困難;除此之外固定個(gè)數(shù)的位置編碼限制了更大分辨率圖像生成的可能。

研究者提出二維的歸一化旋轉(zhuǎn)位置編碼(Normalized RoPE)

圖片

任意token間的相對(duì)位置被歸一化到統(tǒng)一的尺度,從而確保了對(duì)不同尺度的token map中的相對(duì)位置有統(tǒng)一的理解,避免對(duì)不同尺度位置同時(shí)編碼的混淆,更好地適配scale-prediction任務(wù)。

除此之外,這一新的位置編碼不需要額外的參數(shù),更易于訓(xùn)練,為更高分辨率圖像生成提供了潛在的可能。

訓(xùn)練策略

研究者選擇先在256*256圖像上以較大的batch size訓(xùn)練生成,隨后在512*512圖像上微調(diào),以獲得512的生成結(jié)果。由于歸一化位置編碼,模型很快收斂,僅需少量微調(diào)即可生成高質(zhì)量512分辨率圖像。

相比目前的方法,所提出的STAR在FID,CLIP score和ImageReward上表現(xiàn)優(yōu)異,體現(xiàn)了STAR良好的生成真實(shí)度,圖文一致性和人類偏好。除此之外,STAR生成一張512分辨率的高質(zhì)量圖像僅需約2.9秒,相比現(xiàn)有的擴(kuò)散文生圖模型具有顯著優(yōu)勢(shì)。

具體地,在MJHQ-30k上的FID達(dá)到4.73,超越了PixArt-α等模型;CLIP score達(dá)到0.291,與SDXL相當(dāng):

圖片

在ImageReward benchmark上,STAR達(dá)到了0.87的image reward,與領(lǐng)先的PixArt-α相當(dāng):

圖片
相比現(xiàn)有的方法,STAR可以生成多元的圖像類型。

在人物攝影、藝術(shù)繪畫、靜物、風(fēng)景等場(chǎng)景下均能獲得很好的效果,生成的人臉、毛發(fā)、材質(zhì)達(dá)到了令人驚嘆的細(xì)節(jié):

圖片

總的來(lái)說(shuō),STAR基于scale-wise自回歸的方式,解決了VAR中存在的引導(dǎo)條件有限、位置編碼不合理的問題,實(shí)現(xiàn)了更高效、性能更好的文本引導(dǎo)圖像生成。

廣泛的實(shí)驗(yàn)證明,所提出的方法在生成圖像真實(shí)度、圖文一致性和人類偏好上均表現(xiàn)優(yōu)秀。僅需約2.9秒的時(shí)間內(nèi),在512分辨率圖像生成上,實(shí)現(xiàn)超越先進(jìn)的文生圖擴(kuò)散模型(PixArt-α、Playground、SDXL等)的性能。

基于自回歸的STAR為目前diffusion支配的文本控制圖像生成領(lǐng)域提供了新的可能。

項(xiàng)目網(wǎng)站:https://krennic999.github.io/STAR/ 

論文鏈接:https://arxiv.org/pdf/2406.10797

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-04-17 13:22:55

人工智能

2024-11-12 13:10:49

2023-08-28 13:06:47

2024-10-16 14:10:00

AI視頻生成

2024-12-04 09:15:00

AI模型

2025-01-09 09:29:57

2023-08-21 13:49:00

圖像技術(shù)

2025-04-01 05:10:00

2024-12-09 10:15:00

AI技術(shù)

2024-12-02 10:40:00

AI模型

2023-11-30 13:04:56

LCM圖像

2024-11-06 13:03:49

2021-11-17 16:13:45

IBM 處理器量子

2024-06-17 07:10:00

2022-11-09 13:43:59

中小企業(yè)

2023-05-31 16:15:51

模型圖像

2025-02-12 10:17:12

2025-02-27 13:45:00

2024-09-02 08:22:00

模型數(shù)據(jù)集

2011-05-31 13:43:46

外鏈
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)