自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2024年了,Diffusion模型還有什么可做的?

發(fā)布于 2024-7-8 09:47
瀏覽
0收藏

純屬brainstorm,歡迎大家一起探討。我會(huì)盡可能舉一些具體例子來分析。部分點(diǎn)在我之前的一個(gè)相關(guān)回答中也有,大家可以移步參考:


當(dāng)前基于diffusion model的文生圖模型有些什么缺陷?

(https://www.zhihu.com/question/647244779/answer/3422163670)


這個(gè)回答對(duì)之前的回答做進(jìn)一步的補(bǔ)充完善。我們通過 “數(shù)據(jù)、模型、優(yōu)化” 三個(gè)角度,再加上能做的 “任務(wù)” ,可以將diffusion models的全流程解剖一下,然后一個(gè)一個(gè)來看,個(gè)人比較看好的方向加粗標(biāo)出

  • 數(shù)據(jù)
  • 生成圖像的分辨率
  • 生成特定領(lǐng)域圖像
  • 模型
  • 壓縮模型
  • 網(wǎng)絡(luò)架構(gòu)
  • 文本編碼
  • 采樣
  • 優(yōu)化
  • 對(duì)齊特定人類偏好
  • 推理
  • 任務(wù)
  • 視頻生成
  • Instruction-Based Editing

數(shù)據(jù)

“數(shù)據(jù)”角度主要還是關(guān)注生成圖像的一些特性,比如說生成圖像的resolution、domain等等。

生成圖像分辨率

關(guān)注生成圖像的“分辨率”其實(shí)就是做“High-Resolution Image Synthesis”,個(gè)人一直認(rèn)為屬于是 “簡(jiǎn)單但難解的工程問題” ,原因很簡(jiǎn)單,分辨率成倍增大,生成模型要生成的像素點(diǎn)就需要以2次方倍的速度增加。


經(jīng)典的例子一般通過優(yōu)化壓縮模型或者是采用“生成 + 超分”來做。


對(duì)于前者來說,比較經(jīng)典的例子就是Stable Diffusion了,將DDPM在pixel space的diffusion process直接搬到VQGAN的隱空間里做,大家都很熟悉了,這里就不再展開。

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

Stable Diffusion的模型架構(gòu)圖

個(gè)人感覺這里一個(gè)可能的點(diǎn)是怎樣優(yōu)化壓縮模型,采用更激進(jìn)的下采樣策略,同時(shí)又能保證壓縮模型帶來的精度損失在可接受的范圍內(nèi) ,來實(shí)現(xiàn)更高分辨率的生成。舉個(gè)具體例子,Stable Diffusion的VQGAN目前是將512×512的圖像,壓縮至64×64的latent feature(下采樣8倍),假設(shè)我們能夠拿到這樣一個(gè)“超級(jí)壓縮模型”,能夠?qū)崿F(xiàn)512×512到16×16(下采樣32倍),那么直接拿Stable Diffusion這一套去用,理論上就能實(shí)現(xiàn)2048×2048的更高分辨率生成。

生成 + 超分”的范式可以關(guān)注近期清華 + 智譜AI做的Cogview 3(https://arxiv.org/abs/2403.05121),目前已經(jīng)能做到最高2048×2048的生成,超分階

段采用了Relay Diffusion,Relay Diffusion是關(guān)于diffusion models的noise scheduling來增強(qiáng)高分辨率生成的工作,挺有意思的,而noise scheduling又屬于比較小眾的賽道,這一塊也還有研究空間。

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

Cogview 3的結(jié)果

關(guān)于Relay Diffusion以及Cogview 3的解析,可以參考我的文章:


從Relay Diffusion到Cogview 3:淺談Noise Scheduling與擴(kuò)散模型(https://zhuanlan.zhihu.com/p/686899891)

生成特定領(lǐng)域圖像

這一塊其實(shí)涉獵面就挺廣的,“特定領(lǐng)域”(specific domain)指的可以是特定“美感”的圖片,也可以是灰度圖像、線稿圖、醫(yī)療圖像這類專業(yè)領(lǐng)域的圖片。近期的Playground v2.5其實(shí)也是基于這個(gè)motivation開展工作的,對(duì)比證明了SDXL生成“特定背景下”的圖片仍然面臨困難:

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

Playground v2.5的motivation

能做的點(diǎn),一方面是方法,雖然說Civitai上面眾多的SD插件已經(jīng)證明了LoRA微調(diào)是比較有效的方案,但是training-free solution還可以研究;另一方面就是生成什么domain的圖像,這就涉及這樣做具體有什么應(yīng)用價(jià)值,以及故事應(yīng)該怎么講的問題。


近期有一些做生成醫(yī)療圖像的工作,尚不清楚其具體應(yīng)用價(jià)值,不過也一同分享出來,有需要的朋友可以參考。例如LLM-CXR(https://arxiv.org/abs/2305.11490):

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

LLM-CXR的方法流程圖

MedXChat(https://arxiv.org/abs/2312.02233):

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

MedXChat的方法流程圖

模型

模型上主要還是按照現(xiàn)有主流latent diffusion models的設(shè)計(jì),分為壓縮模型、網(wǎng)絡(luò)架構(gòu)、文本編碼三塊,加上模型采樣過程的優(yōu)化。

壓縮模型

壓縮模型本質(zhì)是一個(gè)圖像壓縮問題,即怎樣盡可能多地節(jié)約數(shù)據(jù)容量,同時(shí)又能夠保證數(shù)據(jù)精度的損失可以接受。正是因?yàn)檫@樣,懂壓縮模型的人其實(shí)相對(duì)較少,怎樣能結(jié)合生成的特點(diǎn)設(shè)計(jì)壓縮模型,其實(shí)還有較大研究空間。


近期的一些相關(guān)研究,例如Wuerstchen(https://arxiv.org/pdf/2306.00637.pdf),提出級(jí)semantic compression將圖像在像素空間的信息加入到latent diffusion models中

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

Wuerstchen的方法流程圖

另外近期的Stable Diffusion 3(https://arxiv.org/pdf/2403.03206.pdf)也在壓縮模型上做出了改進(jìn),將VQGAN latent feature的channel數(shù)量增大了,從而減少壓縮模型編碼-解碼過程中的精度損失 ,其重構(gòu)性能在多個(gè)指標(biāo)上都有顯著提升:

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

Stable Diffusion 3改進(jìn)后VQGAN的重構(gòu)性能

盡管如此,現(xiàn)有的改進(jìn)都偏工程化,壓縮模型方面仍有較大的改進(jìn)空間。關(guān)于Stable Diffusion 3的具體分析,可以參考我的往期文章:


一文解讀:Stable Diffusion 3究竟厲害在哪里?(https://zhuanlan.zhihu.com/p/685457842)

網(wǎng)絡(luò)架構(gòu)

網(wǎng)絡(luò)架構(gòu)方面不得不提Diffusion Transformer(https://arxiv.org/abs/2212.09748),既然2024年初OpenAI的Sora(https://openai.com/research/video-generation-models-as-world-simulators)、StabilityAI的Stable Diffusion 3都不約而同采用了這一架構(gòu);同時(shí),PixArt系列的工作也一直采用的是這一架構(gòu),更加證明了其可行性。這些AI巨頭的動(dòng)作勢(shì)必會(huì)帶動(dòng)一系列基于Diffusion Transformer的工作。

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

Diffusion Transformer的模型架構(gòu)圖

關(guān)于Diffusion Transformer的具體解讀,可以參考我的往期文章:

Diffusion Transformer Family:關(guān)于Sora和Stable Diffusion 3你需要知道的一切(https://zhuanlan.zhihu.com/p/684448966)

文本編碼

文本編碼這一塊其實(shí)是個(gè)人比較看好的發(fā)展方向,因?yàn)槟壳癗LP社區(qū)大語言模型的發(fā)展也非???,而大多數(shù)diffusion models還是沿用以往工作的CLIP或者T5-XXL來做文本編碼。如何將LLM跟diffusion models做結(jié)合,以及結(jié)合后有什么應(yīng)用價(jià)值 ,目前的工作還不多,例子可以參考ACM MM 2024的SUR-Adapter(https://arxiv.org/abs/2305.05189):

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

SUR-Adapter的模型架構(gòu)圖

另外值得一提的是,在DALL-E 3的帶領(lǐng)下,Re-captioning基本上已成為了現(xiàn)有方法的標(biāo)配,Cogview 3更是借助GPT-4V的多模態(tài)能力通過Visual QA的方式升級(jí)了Re-captioning的設(shè)計(jì),隨著GPT系列多模態(tài)能力的進(jìn)一步增強(qiáng),通過對(duì)GPT做一些prompt engineering拿到更多文本數(shù)據(jù),也還大有文章可做。


補(bǔ)充 :“Diffusion + LLM”目前工作也還不多,可能是因?yàn)橥瑫r(shí)需要懂NLP和CV,有一定的技術(shù)門檻,具體可以參考我的文章:


When LLMs Meet Diffusion Models:淺談LLMs與Text-to-Image Diffusion Models中的文本編碼(https://zhuanlan.zhihu.com/p/687482566)

采樣

采樣主要考慮兩個(gè)方面,一個(gè)提升采樣質(zhì)量,二是加速采樣。


第一點(diǎn)屬于理論性要求比較高的工作,參考Classifier Guidance(https://arxiv.org/abs/2105.05233)和Classifier-Free? Guidance(https://arxiv.org/abs/2207.12598),有一定研究難度,但是idea如果work的話也具有巨大的普適價(jià)值。


第二點(diǎn)其實(shí)是目前主流的趨勢(shì),基本上都是基于Progressive Distillation(https://arxiv.org/abs/2202.00512)來做。具體工作可以參考:SDXL-Lightning(https://arxiv.org/html/2402.13929v1)、Stable Cascade(https://stability.ai/news/introducing-stable-cascade)、SDXL Turbo(https://stability.ai/news/stability-ai-sdxl-turbo)、Cogview 3等等,具體不再過多展開。


關(guān)于Diffusion Distillation,可以參考我的往期回答:


現(xiàn)如今的知識(shí)蒸餾領(lǐng)域,在多模態(tài)方面有什么可以做的點(diǎn)子?(https://www.zhihu.com/question/646919153/answer/3420804334)

優(yōu)化

優(yōu)化方面?zhèn)€人認(rèn)為其實(shí)也是大有可為的,現(xiàn)有方法大多還是沿用標(biāo)準(zhǔn)的MSE loss,而NLP社區(qū)LLM在強(qiáng)化學(xué)習(xí)方面的研究已經(jīng)很多了,其實(shí)其中可以借鑒的點(diǎn)還比較多。

對(duì)齊人類特定偏好

說到LLM結(jié)合強(qiáng)化學(xué)習(xí),大家第一印象想到的肯定是RLHF。事實(shí)上RLHF能做的事情有很多,可以增強(qiáng)樣本質(zhì)量、跟人類偏好做對(duì)齊,甚至是跟特定領(lǐng)域?qū)R,做domain adaptation,等等。


而反觀圖像生成社區(qū),diffusion models跟強(qiáng)化學(xué)習(xí)結(jié)合的工作其實(shí)還不多,比較有名的工作可以參考DDPO(https://arxiv.org/abs/2305.13301)。這方面由于我對(duì)強(qiáng)化學(xué)習(xí)不太熟悉,僅做分享,但從LLM研究的視角來看,在scaled up diffusion models的大趨勢(shì)下,RLHF想必一定也能有它的用武之地。

推理

推理方面是個(gè)人感覺比較有意思的,相關(guān)的工作也還不多。例如名字比較有趣的MiniGPT-5(https://arxiv.org/abs/2310.02239),同樣也是“LLM + Diffusion”的工作,可以看下它能做的一個(gè)例子:

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

MiniGPT-5的結(jié)果例子

為什么說“推理”值得去做? 個(gè)人認(rèn)為效果如果能夠?qū)崿F(xiàn)圖像維度的信息推理,那么就將In-Context Learning又上升了一個(gè)高度,具體能做的事情其實(shí)很多,比方說Text-to-Comic Generation ,能夠生成漫畫(如果一致性能保持好的話);Storybook Generation,等等。這些任務(wù)如果做得足夠好,或許會(huì)有新的文生圖任務(wù)定義,甚至能產(chǎn)生可觀的商業(yè)價(jià)值。

任務(wù)

任務(wù)上更多的是其他數(shù)據(jù)模態(tài)的生成,或者是文生圖的任務(wù)變式來考慮。

視頻生成

視頻生成自然不用多說了,年初OpenAI放出的Sora,勢(shì)必會(huì)帶來一個(gè)視頻生成的風(fēng)口,帶動(dòng)一系列這方面的研究。另一方面,根據(jù)個(gè)人的調(diào)研結(jié)果,目前視頻生成的工作還不多,仍有較大挖掘空間。關(guān)于視頻生成的頂會(huì)文章,可以參考我GitHub repo收錄的paper list:

Video Generation Paper List(https://github.com/AlonzoLeeeooo/awesome-video-generation)

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

Video Generation GitHub Repo部分截圖

Instruction-Based Editing

Instruction-Based Editing其實(shí)屬于文生圖的一個(gè)任務(wù)變式,這一任務(wù)自從CVPR 2022的InstructPix2Pix(https://arxiv.org/abs/2211.09800)之后,連續(xù)兩年的CVPR都收錄了大約30篇左右的相關(guān)工作,而InstructPix2Pix在兩年之內(nèi)也是收獲了小600個(gè)引用,足以證明這一方向的價(jià)值。其本質(zhì)原理其實(shí)也類似前文中說到的 “推理”

2024年了,Diffusion模型還有什么可做的?-AI.x社區(qū)

InstructPix2Pix中展示的Instruction-Based Editing的結(jié)果例子

關(guān)于Instruction-Based Editing的具體研究,可以參考我的往期回答:

對(duì)于“擴(kuò)散模型中的圖像編輯”方向,可以推薦論文和相應(yīng)的開源代碼嗎?(https://www.zhihu.com/question/647418577/answer/3423639220)

Diffusion Models for NLP

目前從Transformer盛行的NLP社區(qū)來看,diffusion models for NLP絕對(duì)是一個(gè)可以深挖的點(diǎn),具體可以參考我的回答:

目前有將diffusion model用于文本生成的研究嗎?(https://www.zhihu.com/question/558525517/answer/3437058958)

寫在最后

從2024年的今天回顧所謂“大模型時(shí)代”下diffusion model的發(fā)展,總結(jié)起來就是一個(gè)“大”字——模型規(guī)模變大、模型應(yīng)用范疇變大、應(yīng)用模態(tài)范圍變大 。不論是做計(jì)算機(jī)視覺,還是做NLP相關(guān)的研究,diffusion model、large language models、multi-modal learning這些知識(shí)似乎都已成為了當(dāng)下DL研究者必須掌握的技能。然而,想要掌握這些核心技術(shù)背后的底層原理,諸如Transformer、Tokenization等等,僅僅通過論文獲取信息非常低效,且欠缺系統(tǒng)化;另一方面,論文資源最大的問題就是缺乏實(shí)戰(zhàn),尤其是一些未開源/部分開源的工作,這讓知識(shí)獲取的效率、進(jìn)一步降低了。


其實(shí),書籍資料不失為一種系統(tǒng)化的好方法,一本好的工具書可以通過project-based的講解,通過實(shí)例系統(tǒng)化地給讀者呈現(xiàn)底層原理、應(yīng)用場(chǎng)景,甚至能直觀地展示項(xiàng)目的源碼,而這些經(jīng)過提煉的知識(shí)在我們剛接觸科研、開展新課題、進(jìn)入新崗位的時(shí)候,都能讓我們更快地找到狀態(tài)。筆者在這里給大家推薦一些自己用過書籍資料,這些資料對(duì)技術(shù)的底層原理都有系統(tǒng)化的講解和提煉,并且通過實(shí)戰(zhàn)項(xiàng)目的形式讓讀者能夠?qū)W會(huì)如何對(duì)這些底層原理加以運(yùn)用。鏈接如下,有需要的朋友歡迎自行參考:

  • 大模型應(yīng)用解決方案 基于ChatGPT和GPT-4等Transformer
  • 快速部署大模型:LLM策略與實(shí)踐 基于ChatGPT BERT等


本文轉(zhuǎn)自 AI生成未來 ,作者:叫我Alonzo就好了


原文鏈接:??https://mp.weixin.qq.com/s/aW0ZFHaF4kYN5_AY2jh_kQ??

標(biāo)簽
1
收藏
回復(fù)
舉報(bào)
1條回復(fù)
按時(shí)間正序
/
按時(shí)間倒序
Elina孫
Elina孫

太棒啦!姐不白看,姐給你點(diǎn)贊??,感謝分享。

如果需要買阿里云、騰訊云、華為云、AWS可以找我,官網(wǎng)折上折。TG:@ElinaJVcloud 微信/電話:13603048836

回復(fù)
2024-7-10 13:44:03
回復(fù)
相關(guān)推薦