自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文生圖10倍速,視頻實(shí)時(shí)渲染!清華發(fā)布LCM:兼容全部SD大模型、LoRA、插件等

人工智能 新聞
全面兼容Stable Diffusion生態(tài),LCM模型成功實(shí)現(xiàn)5-10倍生成速度的提升,實(shí)時(shí)AI藝術(shù)時(shí)代即將到來(lái),所想即所得!

Latent Consistency Models(潛一致性模型)是一個(gè)以生成速度為主要亮點(diǎn)的圖像生成架構(gòu)。

和需要多步迭代傳統(tǒng)的擴(kuò)散模型(如Stable Diffusion)不同,LCM僅用1 - 4步即可達(dá)到傳統(tǒng)模型30步左右的效果。

由清華大學(xué)交叉信息研究院研究生駱?biāo)济愫妥T亦欽發(fā)明,LCM將文生圖生成速度提升了5-10倍,世界自此邁入實(shí)時(shí)生成式AI的時(shí)代。

LCM-LoRA: https://huggingface.co/papers/2311.05556

項(xiàng)目主頁(yè):https://latent-consistency-models.github.io/

Stable Diffusion殺手:LCM

在LCM出現(xiàn)之前, 不同團(tuán)隊(duì)在各種方向探索了五花八門(mén)的SD1.5和SDXL替代方案。這些項(xiàng)目各有特色,但都存在著不兼容LoRA和不完全兼容Stable Diffusion生態(tài)的硬傷。按發(fā)布時(shí)間順序,比較重要的項(xiàng)目有:

模型名稱

介紹

生成速度

訓(xùn)練難度

SD生態(tài)兼容性

DeepFloyd IF

高質(zhì)量、可生成文字,但架構(gòu)復(fù)雜

更慢

更慢

不兼容

Kandinsky 2.2

比SDXL發(fā)布更早且質(zhì)量同樣高;兼容ControlNet

類(lèi)似

類(lèi)似

不兼容模型和LoRA,兼容ControlNet等部分插件

Wuerstchen V2

質(zhì)量和SDXL類(lèi)似

2x - 2.5x

更容易

不兼容

SSD-1B

由Segmind蒸餾自SDXL,質(zhì)量略微下降

1.6x

更容易

部分兼容

PixArt-α

華為和高校合作研發(fā),高質(zhì)量

類(lèi)似

SD1.5十分之一

兼容ControlNet等部分插件

LCM (SDXL, SD1.5)

訓(xùn)練自DreamShaper、SDXL,高質(zhì)量、速度快

5x -10x

更容易

部分兼容

LCM-LoRA

體積小易用,插入即加速;犧牲部分質(zhì)量

5x -10x

更容易

兼容全部SD大模型、LoRA、ControlNet,大量插件

這時(shí),LCM-LoRA出現(xiàn)了:將SD1.5、SSD1B、SDXL蒸餾為L(zhǎng)CM的LoRA,將生成5倍加速生成能力帶到所有SDXL模型上并兼容所有現(xiàn)存的LoRA,同時(shí)犧牲了小部分生成質(zhì)量; 項(xiàng)目迅速獲得了Stable Diffusion生態(tài)大量插件、發(fā)行版本的支持。

LCM同時(shí)也發(fā)布了訓(xùn)練腳本,可以支持訓(xùn)練自己的LCM大模型(如LCM-SDXL)或LCM-LoRA,做到兼顧生成質(zhì)量和速度。只要一次訓(xùn)練,就可以在保持生成質(zhì)量的前提下提速5倍。

至此,LCM生態(tài)體系具備了完整替代SD的雛形。

截止至2023/11/22,已支持LCM的開(kāi)源項(xiàng)目:

  • Stable Diffusion發(fā)行版
  • WebUI(原生支持LCM-LoRA,LCM插件支持LCM-SDXL)、ComfyUI、Fooocus(LCM-LoRA)、DrawThings
  • 小模型
  • LCM-LoRA兼容其他LoRA,ControlNet

  • AnimateDiff WebUI插件

計(jì)劃中添加支持的項(xiàng)目:

  • WebUI主分支持
  • 訓(xùn)練腳本Kohya SS
  • LCM-SDXL、LCM-DreamShaper專屬的ControlNet
  • LCM-AnimateDiff

隨著生態(tài)體系的逐漸發(fā)展,LCM有潛力作為新一代圖像生成底層完整替代Stable Diffusion。

未來(lái)展望

自Stable Diffusion發(fā)布至今,生成成本被緩慢優(yōu)化,而LCM的出現(xiàn)使得圖像生成成本直接下降了一個(gè)數(shù)量級(jí)。每當(dāng)革命性的技術(shù)出現(xiàn),都會(huì)帶來(lái)重塑產(chǎn)業(yè)的大量機(jī)會(huì)。LCM至少能在圖像生成成本消失、視頻生成、實(shí)時(shí)生成三大方面給產(chǎn)業(yè)格局帶來(lái)重大變化。

1. 圖像生成成本消失

To C產(chǎn)品端,免費(fèi)替代收費(fèi)。受高昂的GPU算力成本限制,以Midjourney為代表的大量文生圖服務(wù)選擇免費(fèi)增值作為商業(yè)模型。LCM使手機(jī)客戶端、個(gè)人電腦CPU、瀏覽器(WebAssembly)、更容易彈性擴(kuò)容的CPU算力都可能在未來(lái)滿足圖像生成的算力需求。簡(jiǎn)單的收費(fèi)文生圖服務(wù)如Midjourney會(huì)被高質(zhì)量的免費(fèi)服務(wù)替代。

To B服務(wù)端,減少的生成算力需求會(huì)被增長(zhǎng)的訓(xùn)練算力需求替代。

AI圖片生成服務(wù)對(duì)算力的需求在峰值和谷底漲落極大,購(gòu)買(mǎi)服務(wù)器閑置時(shí)間通常超過(guò)50%。這種特點(diǎn)促進(jìn)了大量函數(shù)計(jì)算GPU(serverless GPU)如美國(guó)Replicate、中國(guó)阿里云的蓬勃發(fā)展。

硬件虛擬化方面如國(guó)內(nèi)的瑞云、騰訊云等也在浪潮中推出了圖像模型訓(xùn)練相關(guān)虛擬桌面產(chǎn)品。隨著生成算力下放到邊緣、客戶端或更容易擴(kuò)容的CPU算力,AI生圖將普及到各類(lèi)應(yīng)用場(chǎng)景中,圖像模型微調(diào)的需求會(huì)大幅上漲。在圖像領(lǐng)域,專業(yè)、易用、垂直的模型訓(xùn)練服務(wù)會(huì)成為下一階段云端GPU算力的主要消費(fèi)者。

2. 文生視頻

文生視頻目前極高的生成成本制約了技術(shù)的發(fā)展和普及,消費(fèi)級(jí)顯卡只能以緩慢的速度逐幀渲染。以AnimateDiff WebUI插件為代表的一批項(xiàng)目?jī)?yōu)先支持了LCM,使得更多人能參與到文生視頻的開(kāi)源項(xiàng)目中。更低的門(mén)檻必然會(huì)加速文生視頻的普及和發(fā)展。

圖片

3分鐘快速渲染:AnimateDiff Vid2Vid + LCM

3. 實(shí)時(shí)渲染

速度的增加催生了大量新應(yīng)用,不斷拓展著所有人的想象空間。

RT-LCM與AR

以RealTime LCM為先導(dǎo),消費(fèi)級(jí)GPU上第一次實(shí)現(xiàn)了每秒10幀左右的實(shí)時(shí)視頻生成視頻,這在AR領(lǐng)域必然產(chǎn)生深遠(yuǎn)的影響。

目前高清、低延時(shí)捕捉重繪視線內(nèi)整個(gè)場(chǎng)景需要極高算力,所以過(guò)去AR應(yīng)用主要以添加新物體、提取特征后低清重繪部分物體為主。LCM使得實(shí)時(shí)重繪整個(gè)場(chǎng)景成為可能,在游戲、互動(dòng)式電影、社交等場(chǎng)景中都有無(wú)限的想象空間。

未來(lái)游戲場(chǎng)景不需新建,帶上AR眼鏡,身處的街道立刻轉(zhuǎn)換為霓虹閃爍的賽博朋克未來(lái)風(fēng)格供玩家探索;看未來(lái)的互動(dòng)式恐怖電影時(shí)帶上AR眼鏡,家中熟悉的一切可以無(wú)縫融入場(chǎng)景,嚇人的東西就藏在臥室門(mén)后。虛擬和現(xiàn)實(shí)將無(wú)縫融合,真實(shí)和夢(mèng)境讓人愈發(fā)難以區(qū)分。而這一切底層都可能會(huì)有LCM的身影。

圖片

RT-LCM視頻渲染

交互方式 - 所想即所得(What you imagine is what you get)

由Krea.ai、ilumine.ai首先產(chǎn)品化的實(shí)時(shí)圖像編輯UI再次降低了創(chuàng)作的門(mén)檻、擴(kuò)大了創(chuàng)意的邊界,讓更多人在精細(xì)控制的基礎(chǔ)上獲得了最終畫(huà)作的實(shí)時(shí)反饋。

Krea.ai實(shí)時(shí)圖像編輯

實(shí)時(shí)圖像編輯

建模軟件 + LCM探索了3D建模的新方向,讓3D建模師在所見(jiàn)即所得基礎(chǔ)上更進(jìn)一步,獲得了所想即所得的能力。

圖片

LCM實(shí)時(shí)空間建模渲染

手是人類(lèi)最沒(méi)用的東西,因?yàn)槭钟肋h(yuǎn)跟不上腦子的速度。所見(jiàn)即所得(What you see is what you get)太慢,所想即所得(What you imagine is what you get)會(huì)成為未來(lái)的創(chuàng)意工作的主流。

LCM第一次讓展示效果跟上了靈感創(chuàng)意產(chǎn)生的速度。新的交互方式持續(xù)涌現(xiàn),AIGC革命的終點(diǎn)是將創(chuàng)意的成本、技術(shù)門(mén)檻降低至無(wú)限接近于0。不分行業(yè),好的創(chuàng)意將會(huì)從稀缺變?yōu)檫^(guò)剩。LCM將我們向未來(lái)又推進(jìn)了一步。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2023-11-15 13:03:29

AI模型

2024-06-21 11:44:17

2023-11-16 12:39:13

模型數(shù)據(jù)

2020-05-20 12:44:53

編程軟件開(kāi)發(fā)JavaScript

2024-01-10 17:25:00

AI數(shù)據(jù)

2020-06-19 14:58:13

騰訊云Serverless

2025-04-24 06:02:45

2023-10-19 13:42:00

數(shù)據(jù)集MEG數(shù)據(jù)

2023-08-07 13:46:52

模型訓(xùn)練

2023-05-23 14:06:53

微軟研究

2024-05-10 07:58:03

2023-07-12 14:28:45

谷歌模型

2023-10-18 12:50:12

數(shù)據(jù)模型

2015-05-06 10:22:39

802.11協(xié)議802.11ax

2024-01-15 06:40:00

研究視頻

2025-03-05 00:00:55

2013-05-27 13:59:39

銅纜布線技術(shù)綜合布線技術(shù)網(wǎng)絡(luò)綜合布線

2012-10-30 14:08:59

Titan超級(jí)計(jì)算機(jī)NVIDIA
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)