OpenAI DALL·E 3來了,集成ChatGPT,生圖效果太炸了
終于,OpenAI 的文生圖 AI 工具 DALL-E 系列迎來了最新版本 DALL?E 3,而上個(gè)版本 DALL?E 2 還是在去年 4 月推出的。
OpenAI 表示,「DALL?E 3 比以往系統(tǒng)更能理解細(xì)微差別和細(xì)節(jié),讓用戶更加輕松地將自己的想法轉(zhuǎn)化為非常準(zhǔn)確的圖像。」
是不是真如 OpenAI 所說的那樣呢?眼見為實(shí),我們來看以下 DALL?E 3 與 DALL?E 2 的生成效果比較,同樣的 prompt「一幅描繪籃球運(yùn)動(dòng)員扣籃的油畫,并伴以爆炸的星云」,左圖 DALL?E 2 在細(xì)節(jié)、清晰度、明亮度等方面顯然遜于右圖 DALL?E 3。
除了炸裂的生圖效果之外,此次 DALL?E 3 的最大特點(diǎn)是與 ChatGPT 的集成,它原生構(gòu)建在 ChatGPT 之上,用 ChatGPT 來創(chuàng)建、拓展和優(yōu)化 prompt。這樣一來,用戶無需在 prompt 上花費(fèi)太多時(shí)間。
具體來講,通過使用 ChatGPT,用戶不必絞盡腦汁地想出詳細(xì)的 prompt 來引導(dǎo) DALL?E 3 了。當(dāng)輸入一個(gè)想法時(shí),ChatGPT 會(huì)自動(dòng)為 DALL?E 3 生成量身定制的、詳細(xì)的 prompt。同時(shí)用戶也可以使用自己的 prompt。
至于集成 ChatGPT 后的效果怎么樣?OpenAI CEO 山姆?奧特曼興奮地展示了 DALL?E 3 的連續(xù)性生成結(jié)果,簡直稱得上完整的「故事片」。
超級(jí)向日葵刺猬長什么樣子
這只刺猬叫「Larry」以及它的更多同類。
Larry 的家長這樣。
Larry 很善良。
Larry 最后安然入眠了。
ChatGPT 集成并不是 DALL?E 3 唯一的新特點(diǎn),它還能生成更高質(zhì)量的圖像,更準(zhǔn)確地反映提示內(nèi)容。DALL?E 將文本 prompt 轉(zhuǎn)換成圖像。即使是 DALL?E 2 ,也會(huì)經(jīng)常忽略特定的措辭導(dǎo)致出錯(cuò)。但 OpenAI 的研究人員說,最新版本能更好地理解上下文,并且處理較長的 prompt 效果會(huì)更好。此外,它還能更好地處理向來困擾圖像生成模型的內(nèi)容,如文本和人手。
prompt:這幅插畫描繪了一顆由半透明玻璃制成的人心,矗立在驚濤駭浪中的基座上。一縷陽光穿透云層,照亮了心臟,揭示了其中的小宇宙。地平線上鐫刻著一行醒目的大字 「Find the universe within you」。
可以看到在上圖將 prompt 中的每一個(gè)細(xì)節(jié)都表現(xiàn)出來了。半透明的質(zhì)感、畫面底部的波濤洶涌、陽光與厚厚的云層、心臟中的宇宙景象,以及難倒很多圖像生成模型的文字展現(xiàn),DALL?E 3 都順利地完成了這些任務(wù)。
那么,DALL?E 3 能不能成為 Midjourney 「殺手」呢?推特用戶 @MattGarciaEth 已經(jīng)將二者生成的圖片進(jìn)行了很多比較。大家覺得哪個(gè)更好呢?
prompt 為「一個(gè)鱷梨坐在治療師的椅子上,說『我只是覺得內(nèi)心很空虛』,中間有一個(gè)坑大小的洞。治療師、一個(gè)勺子、潦草地寫筆記。」
prompt 為「這幅插畫描繪了一顆由半透明玻璃制成的人心,矗立在驚濤駭浪中的基座上。一縷陽光穿透云層,照亮了心臟,揭示了其中的小宇宙。地平線上鐫刻著一行醒目的大字 『Find the universe within you』」
prompt 為「一位亞裔中年婦女的黑發(fā)上散落著銀絲,顯得支離破碎,錯(cuò)綜復(fù)雜地鑲嵌在一片碎瓷片中。瓷器上閃爍著飛濺的顏料圖案,光澤和啞光的藍(lán)色、綠色、橙色和紅色和諧地交織在一起,在動(dòng)與靜的超現(xiàn)實(shí)并置中捕捉著她的舞姿。她的膚色與瓷器一樣呈淺色,為她的造型增添了一種神秘的氣質(zhì)?!梗ㄍ铺?@nickfloats,上圖為 DALL?E 3 的生成結(jié)果, 下圖為 Midjourney 的生成結(jié)果)
目前,DALL?E 3 處于研究預(yù)覽版本。OpenAI 計(jì)劃將 DALL?E 3 的發(fā)布時(shí)間錯(cuò)開, 將于 10 月份首先向 ChatGPT Plus 和 ChatGPT Enterprise 用戶發(fā)布,隨后在秋季向研究實(shí)驗(yàn)室及其 API 服務(wù)發(fā)布。不過,該公司沒有透露何時(shí)或者是否計(jì)劃發(fā)布免費(fèi)的公開版本。
DALL?E 系列研究
我們簡單為大家梳理介紹下 OpenAI 文本生成圖像的 DALL?E 系列研究,也方便讀者們了 DALL?E 系列背后的技術(shù)。
2021 年 1 月 6 日,OpenAI 博客發(fā)布了兩個(gè)連接文本與圖像的神經(jīng)網(wǎng)絡(luò):DALL?E 和 CLIP。DALL?E 可以基于文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。這兩項(xiàng)研究的發(fā)布,引起了社區(qū)極大的關(guān)注。
據(jù)博客介紹,DALL?E 可以將以自然語言形式表達(dá)的大量概念轉(zhuǎn)換為恰當(dāng)?shù)膱D像,可以說是 GPT-3 的 120 億參數(shù)版本,可基于文本描述生成圖像。
DALL?E 示例。給出一句話「牛油果形狀的椅子」,就可以獲得綠油油、形態(tài)各異的牛油果椅子圖像。
2 個(gè)月后,DALL?E 的論文和代碼公開。
- 項(xiàng)目地址:https://github.com/openai/DALL-E
- 論文地址:https://arxiv.org/abs/2102.12092
2022 年 4 月 7 日左右,DALL?E 迎來了升級(jí)版本 ——DALL?E 2。與 DALL?E 相比,DALL?E 2 在生成用戶描述的圖像時(shí)具有更高的分辨率和更低的延遲。并且,新版本還增添了一些新的功能,比如對(duì)原始圖像進(jìn)行編輯。
OpenAI 還公布了 DALL?E 2 的研究論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。
論文地址:https://cdn.openai.com/papers/dall-e-2.pdf
遺憾的是。OpenAI 可能不會(huì)像之前一樣,公布 DALL?E 3 背后的技術(shù)細(xì)節(jié)。
注重安全與版權(quán)問題
OpenAI 稱其在 DALL?E 3 上投入了大量工作,包括制定強(qiáng)有力的安全措施,以防止創(chuàng)建「有害」的圖像。OpenAI 表示其與外部「紅隊(duì)」成員(一個(gè)故意試圖破壞系統(tǒng)以測試系統(tǒng)安全性的團(tuán)隊(duì))合作,并依賴輸入分類器(一種教語言模型忽略某些單詞以避免顯式或暴力 prompt 的方法)。DALL?E 3 也無法生成公眾人物的圖像。
OpenAI 研究員 Sandhini Agarwal 表示她對(duì) DALL?E 3 的安全措施「高度有信心」,并表示該模型在不斷改進(jìn)。OpenAI 還在一封電子郵件中表示:DALL?E 3 拒絕生成在世藝術(shù)家風(fēng)格的圖像,這一點(diǎn)與 DALL?E 2 不同。
藝術(shù)家們曾起訴 DALL?E 的競爭對(duì)手 Stability AI 和 Midjourney,以及藝術(shù)網(wǎng)站 DeviantArt,指控它們使用他們擁有版權(quán)的作品來訓(xùn)練文本到圖像的模型。或許是為了避免訴訟,OpenAI 將允許藝術(shù)家將其藝術(shù)作品從未來版本的文本到圖像 AI 模型中刪除,不用于訓(xùn)練。創(chuàng)作者可以提交一張他們擁有版權(quán)的圖片,并在網(wǎng)站上填寫表格要求將其移除。
這樣,未來版本的 DALL?E 就可以屏蔽與藝術(shù)家的圖像和風(fēng)格相似的結(jié)果。