自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像生成終結(jié)擴散模型,OpenAI「一致性模型」加冕!GAN的速度一步生圖,高達18FPS

人工智能 新聞
OpenAI重磅研究「一致性模型」項目開源,不僅一步瞬時生圖,還能圖像編輯,連最能打的擴散模型也得讓步了。

ChatGPT、Midjourney的火爆,讓其背后技術(shù)擴散模型成為「生成式AI」革命的基礎(chǔ)。

甚至,還受到業(yè)內(nèi)研究者極力追捧,其風(fēng)頭遠遠蓋過曾經(jīng)逆襲天下的GAN。

就在擴散模型最能打的時候,竟有網(wǎng)友突然高調(diào)宣布:

Diffusion models時代終結(jié)!Consistency models加冕為王!

圖片

這究竟是怎么回事???

原來,OpenAI曾在3月發(fā)布了一篇重磅、且含金量十足的論文「Consistency Models」,并在今天在GitHub上公開了模型權(quán)重。

圖片

論文地址:https://arxiv.org/abs/2303.01469

項目地址:https://github.com/openai/consistency_models

「一致性模型」在訓(xùn)練速度上顛覆了擴散模型,能夠『一步生成』,比擴散模型更快一個數(shù)量級完成簡單任務(wù),而且用到的計算量還要少10-2000倍。

圖片

那么,這到底有多快呢?

有網(wǎng)友表示,相當(dāng)于在大約3.5秒內(nèi)生成64張分辨率為256x256的圖像,也就是每秒18張!

圖片

而且,最新模型最主要優(yōu)勢之一,就是不需要「對抗訓(xùn)練」就能實現(xiàn)高質(zhì)量樣本。

圖片

這篇研究由圖靈三巨頭之一Hinton學(xué)生,AlexNet的主要推動者Ilya Sutskever親筆撰寫,還有研發(fā)DALL-E 2的華人學(xué)者Mark Chen、Prafulla Dhariwal,研究內(nèi)容有多硬核可想而知。

甚至還有網(wǎng)友稱,「一致性模型」才是未來的研究方向,相信我們未來一定會嘲笑擴散模型。

圖片

所以,擴散模型也要不存在了?

更快,更強,無需對抗

目前,這篇論文還是未定稿版本,研究還在繼續(xù)中。

圖片

2021年,OpenAI首席執(zhí)行官Sam Altman曾撰寫了一篇博客,討論摩爾定律應(yīng)該如何應(yīng)用于所有領(lǐng)域。

圖片

Altman前段時間又在推特上公開談到了人工智能正在實現(xiàn)「蛙跳」。他表示,「新版摩爾定律可能很快就會出現(xiàn),宇宙中的智能數(shù)量每18個月翻一番。」

圖片

對于其他人來說,Altman的樂觀可能看起來毫無根據(jù)。

但OpenAI的首席科學(xué)家Ilya Sutskever帶領(lǐng)團隊做出的最新研究,恰恰為Altman的主張?zhí)峁┝藦娪辛Φ闹巍?/span>

圖片

都說2022年是AIGC元年,是因為許多模型的泉涌背后都是基于擴散模型。

擴散模型的大紅大紫逐漸取代了GAN,并成為當(dāng)前業(yè)界最有效的圖像生成模型,就比如DALL.E 2、谷歌Imagen都是擴散模型。

然而,最新提出的「一致性模型」已被證明可以在更短的時間內(nèi),輸出與擴散模型相同質(zhì)量的內(nèi)容。

這是因為,這種「一致性模型」采用了類似GAN的單步生成的過程。

相比之下,擴散模型采用了一種反復(fù)采樣的過程,逐步消除圖像中的噪聲。

這種方法雖然讓人印象深刻,但需要依賴執(zhí)行一百到數(shù)千步的步驟才能取得良好的結(jié)果,不僅操作成本高,而且速度慢。

圖片

擴散模型的持續(xù)迭代生成過程,比「一致性模型」消耗的計算量要多10-2000倍,甚至減慢了訓(xùn)練過程中的推理速度。

「一致性模型」強大之處在于,必要時能夠在樣本質(zhì)量和計算資源兩者間進行權(quán)衡。

此外,這個模型還能夠執(zhí)行零樣本的數(shù)據(jù)編輯任務(wù),比如圖像修補,著色或筆觸引導(dǎo)的圖像編輯。

圖片

使用在LSUN Bedroom 256^256上通過蒸餾訓(xùn)練的一致性模型進行零樣本圖像編輯

「一致性模型」還能在使用數(shù)學(xué)方程時將數(shù)據(jù)轉(zhuǎn)換成噪聲,并確保結(jié)果輸出對于相似數(shù)據(jù)點是一致的,從而實現(xiàn)它們之間的平滑過渡。

這類方程稱為「概率流常微分方程」(Probability Flow ODE)。

圖片

這項研究將這類模型命名為「一致性」,因為它們在輸入數(shù)據(jù)和輸出數(shù)據(jù)之間保持了這種自洽性。

這些模型既可以在蒸餾模式(distillation mode)下訓(xùn)練,也可以在分離模式(isolation mode)下訓(xùn)練。

在蒸餾模式中,模型能夠從預(yù)訓(xùn)練的擴散模型中提取數(shù)據(jù),使其能夠在單個步驟中執(zhí)行。

在分離模式下,模型完全不依賴于擴散模型,從而使其成為一種完全獨立的模型。

圖片

值得注意的是,這兩種訓(xùn)練方法都將「對抗訓(xùn)練」從中刪除。

不得不承認,對抗訓(xùn)練確實會產(chǎn)生更強大的神經(jīng)網(wǎng)絡(luò),但其過程是較為迂回。即它引入一組被錯誤分類的對抗性樣本,然后用正確的標(biāo)簽重新訓(xùn)練目標(biāo)神經(jīng)網(wǎng)絡(luò)。

因此,對抗訓(xùn)練這種方式也會導(dǎo)致深度學(xué)習(xí)模型預(yù)測的準(zhǔn)確性略有下降,甚至它可能在機器人應(yīng)用中帶來意想不到的副作用。

實驗結(jié)果表明,用于訓(xùn)練「一致性模型」的蒸餾技術(shù)優(yōu)于用于擴散模型的。

「一致性模型」在 CIFAR10圖像集和 ImageNet 64x64數(shù)據(jù)集上,分別獲得了3.55和6.20的最新最先進的FID分數(shù)。

圖片

圖片

這簡直就是實現(xiàn)了,擴散模型的質(zhì)量 + GAN的速度,雙重完美。

2月份,Sutskever曾發(fā)布了一條推文暗示,

許多人認為偉大的AI進步必須包含一個新的「想法」。但事實并非如此:許多AI的最偉大進步都是以這樣的形式出現(xiàn)的,嗯,原來這個熟悉的不起眼的想法,如果做得好,會變得令人難以置信。

圖片

最新研究正好證明了這一點,基于舊概念的微調(diào)可以改變一切。

作者介紹

作為OpenAI的聯(lián)合創(chuàng)始人兼首席科學(xué)家,Ilya Sutskever無須贅述,看看這張「頂級扛把子」大合照就夠了。

圖片

(圖片最右)

Yang Song(宋飏)

圖片

論文一作宋飏,是OpenAI的研究科學(xué)家。

此前,他在清華大學(xué)獲得數(shù)學(xué)和物理學(xué)學(xué)士學(xué)位,并在斯坦福大學(xué)獲得了計算機科學(xué)碩士和博士學(xué)位。此外,他還在谷歌大腦、Uber ATG和微軟研究院做過實習(xí)。

作為一名機器學(xué)習(xí)的研究人員,他專注于開發(fā)可擴展的方法來建模、分析和生成復(fù)雜的高維數(shù)據(jù)。他的興趣橫跨多個領(lǐng)域,包括生成建模、表征學(xué)習(xí)、概率推理、人工智能安全和AI for science。

Mark Chen

圖片

Mark Chen是OpenAI多模態(tài)和前沿研究部門的負責(zé)人,同時也是美國計算機奧林匹克隊的教練。

此前,他在麻省理工學(xué)院獲得了數(shù)學(xué)與計算機科學(xué)學(xué)士學(xué)位,并曾在幾家自營交易公司(包括Jane Street Capital)擔(dān)任量化交易員。

加入OpenAI后,他帶領(lǐng)團隊開發(fā)了DALL-E 2,并將視覺引入到GPT-4中。此外,他還領(lǐng)導(dǎo)了Codex的開發(fā),參與了GPT-3項目,并創(chuàng)建了Image GPT。

Prafulla Dhariwal

圖片

Prafulla Dhariwal是OpenAI的一名研究科學(xué)家,從事生成模型和無監(jiān)督學(xué)習(xí)。在此之前,他是麻省理工學(xué)院的一名本科生,學(xué)習(xí)計算機、數(shù)學(xué)和物理學(xué)。

有趣的是,擴散模型可以在圖像生成領(lǐng)域吊打GAN,正是他在2021年的NeurIPS論文中提出的。

圖片

網(wǎng)友:終于做了回Open AI

OpenAI今天開放了一致性模型源代碼。

圖片

終于做回了Open AI。

圖片

面對每天太多瘋狂突破和宣布。網(wǎng)友發(fā)問:我們是稍作休息,還是加速前進?

圖片

與擴散模型相比,這將大大節(jié)約研究人員訓(xùn)練模型的節(jié)約成本。

圖片

還有網(wǎng)友給出了「一致性模型」的未來用例:實時編輯、NeRF渲染、實時游戲渲染。

目前倒是沒有demo演示,但值得確定的能夠?qū)崿F(xiàn)圖像生成的速度大幅提升總是贏家。

我們直接從撥號升級到寬帶了。

圖片

腦機接口,外加幾乎實時生成的超逼真圖像。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2021-07-28 08:39:25

分布式架構(gòu)系統(tǒng)

2019-10-24 10:42:00

CPU內(nèi)存存儲器

2017-07-25 14:38:56

數(shù)據(jù)庫一致性非鎖定讀一致性鎖定讀

2022-12-14 08:23:30

2024-03-20 00:00:00

StabilityAI開源人工智能

2021-02-05 08:00:48

哈希算法?機器

2021-02-02 12:40:50

哈希算法數(shù)據(jù)

2023-04-13 13:24:38

OpenAI模型圖片

2021-02-04 06:30:26

Python編程語言

2021-11-12 08:38:26

一致性哈希算法數(shù)據(jù)結(jié)構(gòu)

2020-10-26 19:25:23

CPU緩存Cache

2021-07-26 06:33:42

CRDT數(shù)據(jù)CAP

2021-06-22 10:22:08

業(yè)務(wù)IT一致性首席信息官

2020-05-12 10:43:22

Redis緩存數(shù)據(jù)庫

2020-11-24 09:03:41

一致性MySQLMVCC

2022-03-22 09:54:22

Hash算法

2022-10-19 12:22:53

并發(fā)扣款一致性

2021-06-30 21:13:49

CPUCache數(shù)據(jù)

2024-09-10 11:21:30

點贊
收藏

51CTO技術(shù)棧公眾號