圖像生成終結(jié)擴散模型,OpenAI「一致性模型」加冕!GAN的速度一步生圖,高達18FPS
ChatGPT、Midjourney的火爆,讓其背后技術(shù)擴散模型成為「生成式AI」革命的基礎(chǔ)。
甚至,還受到業(yè)內(nèi)研究者極力追捧,其風(fēng)頭遠遠蓋過曾經(jīng)逆襲天下的GAN。
就在擴散模型最能打的時候,竟有網(wǎng)友突然高調(diào)宣布:
Diffusion models時代終結(jié)!Consistency models加冕為王!
這究竟是怎么回事???
原來,OpenAI曾在3月發(fā)布了一篇重磅、且含金量十足的論文「Consistency Models」,并在今天在GitHub上公開了模型權(quán)重。
論文地址:https://arxiv.org/abs/2303.01469
項目地址:https://github.com/openai/consistency_models
「一致性模型」在訓(xùn)練速度上顛覆了擴散模型,能夠『一步生成』,比擴散模型更快一個數(shù)量級完成簡單任務(wù),而且用到的計算量還要少10-2000倍。
那么,這到底有多快呢?
有網(wǎng)友表示,相當(dāng)于在大約3.5秒內(nèi)生成64張分辨率為256x256的圖像,也就是每秒18張!
而且,最新模型最主要優(yōu)勢之一,就是不需要「對抗訓(xùn)練」就能實現(xiàn)高質(zhì)量樣本。
這篇研究由圖靈三巨頭之一Hinton學(xué)生,AlexNet的主要推動者Ilya Sutskever親筆撰寫,還有研發(fā)DALL-E 2的華人學(xué)者Mark Chen、Prafulla Dhariwal,研究內(nèi)容有多硬核可想而知。
甚至還有網(wǎng)友稱,「一致性模型」才是未來的研究方向,相信我們未來一定會嘲笑擴散模型。
所以,擴散模型也要不存在了?
更快,更強,無需對抗
目前,這篇論文還是未定稿版本,研究還在繼續(xù)中。
2021年,OpenAI首席執(zhí)行官Sam Altman曾撰寫了一篇博客,討論摩爾定律應(yīng)該如何應(yīng)用于所有領(lǐng)域。
Altman前段時間又在推特上公開談到了人工智能正在實現(xiàn)「蛙跳」。他表示,「新版摩爾定律可能很快就會出現(xiàn),宇宙中的智能數(shù)量每18個月翻一番。」
對于其他人來說,Altman的樂觀可能看起來毫無根據(jù)。
但OpenAI的首席科學(xué)家Ilya Sutskever帶領(lǐng)團隊做出的最新研究,恰恰為Altman的主張?zhí)峁┝藦娪辛Φ闹巍?/span>
都說2022年是AIGC元年,是因為許多模型的泉涌背后都是基于擴散模型。
擴散模型的大紅大紫逐漸取代了GAN,并成為當(dāng)前業(yè)界最有效的圖像生成模型,就比如DALL.E 2、谷歌Imagen都是擴散模型。
然而,最新提出的「一致性模型」已被證明可以在更短的時間內(nèi),輸出與擴散模型相同質(zhì)量的內(nèi)容。
這是因為,這種「一致性模型」采用了類似GAN的單步生成的過程。
相比之下,擴散模型采用了一種反復(fù)采樣的過程,逐步消除圖像中的噪聲。
這種方法雖然讓人印象深刻,但需要依賴執(zhí)行一百到數(shù)千步的步驟才能取得良好的結(jié)果,不僅操作成本高,而且速度慢。
擴散模型的持續(xù)迭代生成過程,比「一致性模型」消耗的計算量要多10-2000倍,甚至減慢了訓(xùn)練過程中的推理速度。
「一致性模型」強大之處在于,必要時能夠在樣本質(zhì)量和計算資源兩者間進行權(quán)衡。
此外,這個模型還能夠執(zhí)行零樣本的數(shù)據(jù)編輯任務(wù),比如圖像修補,著色或筆觸引導(dǎo)的圖像編輯。
使用在LSUN Bedroom 256^256上通過蒸餾訓(xùn)練的一致性模型進行零樣本圖像編輯
「一致性模型」還能在使用數(shù)學(xué)方程時將數(shù)據(jù)轉(zhuǎn)換成噪聲,并確保結(jié)果輸出對于相似數(shù)據(jù)點是一致的,從而實現(xiàn)它們之間的平滑過渡。
這類方程稱為「概率流常微分方程」(Probability Flow ODE)。
這項研究將這類模型命名為「一致性」,因為它們在輸入數(shù)據(jù)和輸出數(shù)據(jù)之間保持了這種自洽性。
這些模型既可以在蒸餾模式(distillation mode)下訓(xùn)練,也可以在分離模式(isolation mode)下訓(xùn)練。
在蒸餾模式中,模型能夠從預(yù)訓(xùn)練的擴散模型中提取數(shù)據(jù),使其能夠在單個步驟中執(zhí)行。
在分離模式下,模型完全不依賴于擴散模型,從而使其成為一種完全獨立的模型。
值得注意的是,這兩種訓(xùn)練方法都將「對抗訓(xùn)練」從中刪除。
不得不承認,對抗訓(xùn)練確實會產(chǎn)生更強大的神經(jīng)網(wǎng)絡(luò),但其過程是較為迂回。即它引入一組被錯誤分類的對抗性樣本,然后用正確的標(biāo)簽重新訓(xùn)練目標(biāo)神經(jīng)網(wǎng)絡(luò)。
因此,對抗訓(xùn)練這種方式也會導(dǎo)致深度學(xué)習(xí)模型預(yù)測的準(zhǔn)確性略有下降,甚至它可能在機器人應(yīng)用中帶來意想不到的副作用。
實驗結(jié)果表明,用于訓(xùn)練「一致性模型」的蒸餾技術(shù)優(yōu)于用于擴散模型的。
「一致性模型」在 CIFAR10圖像集和 ImageNet 64x64數(shù)據(jù)集上,分別獲得了3.55和6.20的最新最先進的FID分數(shù)。
這簡直就是實現(xiàn)了,擴散模型的質(zhì)量 + GAN的速度,雙重完美。
2月份,Sutskever曾發(fā)布了一條推文暗示,
許多人認為偉大的AI進步必須包含一個新的「想法」。但事實并非如此:許多AI的最偉大進步都是以這樣的形式出現(xiàn)的,嗯,原來這個熟悉的不起眼的想法,如果做得好,會變得令人難以置信。
最新研究正好證明了這一點,基于舊概念的微調(diào)可以改變一切。
作者介紹
作為OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家,Ilya Sutskever無須贅述,看看這張「頂級扛把子」大合照就夠了。
(圖片最右)
Yang Song(宋飏)
論文一作宋飏,是OpenAI的研究科學(xué)家。
此前,他在清華大學(xué)獲得數(shù)學(xué)和物理學(xué)學(xué)士學(xué)位,并在斯坦福大學(xué)獲得了計算機科學(xué)碩士和博士學(xué)位。此外,他還在谷歌大腦、Uber ATG和微軟研究院做過實習(xí)。
作為一名機器學(xué)習(xí)的研究人員,他專注于開發(fā)可擴展的方法來建模、分析和生成復(fù)雜的高維數(shù)據(jù)。他的興趣橫跨多個領(lǐng)域,包括生成建模、表征學(xué)習(xí)、概率推理、人工智能安全和AI for science。
Mark Chen
Mark Chen是OpenAI多模態(tài)和前沿研究部門的負責(zé)人,同時也是美國計算機奧林匹克隊的教練。
此前,他在麻省理工學(xué)院獲得了數(shù)學(xué)與計算機科學(xué)學(xué)士學(xué)位,并曾在幾家自營交易公司(包括Jane Street Capital)擔(dān)任量化交易員。
加入OpenAI后,他帶領(lǐng)團隊開發(fā)了DALL-E 2,并將視覺引入到GPT-4中。此外,他還領(lǐng)導(dǎo)了Codex的開發(fā),參與了GPT-3項目,并創(chuàng)建了Image GPT。
Prafulla Dhariwal
Prafulla Dhariwal是OpenAI的一名研究科學(xué)家,從事生成模型和無監(jiān)督學(xué)習(xí)。在此之前,他是麻省理工學(xué)院的一名本科生,學(xué)習(xí)計算機、數(shù)學(xué)和物理學(xué)。
有趣的是,擴散模型可以在圖像生成領(lǐng)域吊打GAN,正是他在2021年的NeurIPS論文中提出的。
網(wǎng)友:終于做了回Open AI
OpenAI今天開放了一致性模型源代碼。
終于做回了Open AI。
面對每天太多瘋狂突破和宣布。網(wǎng)友發(fā)問:我們是稍作休息,還是加速前進?
與擴散模型相比,這將大大節(jié)約研究人員訓(xùn)練模型的節(jié)約成本。
還有網(wǎng)友給出了「一致性模型」的未來用例:實時編輯、NeRF渲染、實時游戲渲染。
目前倒是沒有demo演示,但值得確定的能夠?qū)崿F(xiàn)圖像生成的速度大幅提升總是贏家。
我們直接從撥號升級到寬帶了。
腦機接口,外加幾乎實時生成的超逼真圖像。