DALL·E這波超進化,畫質(zhì)藝術(shù)感雙飛升,還學會了無痕P圖
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
把椅子上的萌犬P成貓貓,需要幾步?
第一步,圈出狗狗。第二步,告訴AI你的需求。鼠標一點,齊活。
這位AI P圖大師,其實是位老朋友——OpenAI風靡全球的那位DALL·E。
現(xiàn)在,它剛剛完成了“2.0超進化”。不僅新學了一手出神入化的P圖絕技,創(chuàng)作質(zhì)量也有了飛躍式的提升。
話不多說,直接看作品感受一下~
這是DALL·E 2在“星云爆炸狀柯基頭”這一提示下的創(chuàng)作出來的畫作:
這幅薩爾瓦多·達利的畫像,是不是有點薩爾瓦多·達利內(nèi)味兒了?
跟初代DALL·E比起來,著實是畫質(zhì)與藝術(shù)感雙雙飛升了。
△“日出時分安坐在田野里的狐貍,莫奈風格”
所以,研究人員具體如何點亮了DALL·E的新技能點?
CLIP+擴散模型
DALL·E此番進化,簡單來說就是分辨率更高了,延遲更低了。
此外,還有更新2大新功能:
首先,在更細粒度上實現(xiàn)文本→圖像功能。
也就是說,DALL·E 2可以根據(jù)自然語言提示進行P圖。在P圖的過程中,還會考慮陰影、反射、紋理等元素的變化。
比如在左圖標“2”的位置P一個火烈鳥泳圈,DALL-E 2會把水面倒影這種細節(jié)也處理到位。
其次,是可以在保留原作核心元素的基礎(chǔ)之上,賦予原作船新的風格。
并且生成畫面的畫質(zhì)是DALL·E 1的4倍,即從256×256提升到了1024×1024。
CLIP是原版DALL·E功能實現(xiàn)的基礎(chǔ),是一個負責給圖像重排序的模型,其零樣本學習能力已經(jīng)在各種視覺和語言任務(wù)上大放異彩。
而擴散模型的特點在于,在犧牲多樣性的前提下,能大大提升生成圖像的逼真度。
于是,OpenAI的研究人員設(shè)計了這樣一種方案:
在這個名為unCLIP的架構(gòu)中,CLIP文本嵌入首先會被喂給自回歸或擴散先驗,以產(chǎn)生一個圖像嵌入。
而后,這個嵌入會被用來調(diào)節(jié)擴散編碼器,以生成最終的圖像。
OpenAI解釋稱,DALL·E能夠get圖像和用于描述畫面的文本之間的關(guān)系。其圖像的生成是在“擴散”過程中完成的,可以理解為是從“一堆點”出發(fā),用越來越多的細節(jié)去把圖像填充完整。
研究人員將DALL·E 2與DALL·E、GLIDE等模型進行了對比。
實驗結(jié)果顯示,DALL·E 2的圖像生成質(zhì)量與GLIDE相當,但DALL·E的生成結(jié)果更具多樣性。
目前,DALL·E 2并未對公眾開放,不過如果你感興趣,可以在線注冊申請一發(fā)~
項目地址:
??https://openai.com/dall-e-2/#demos