OpenAI DALL·E 3來了，集成ChatGPT，生圖效果太炸了

作者：機(jī)器之心 2023-09-21 10:31:06

集成 ChatGPT 后，DALL?E 3 對(duì)上下文的理解上了一個(gè)大臺(tái)階。

終于，OpenAI 的文生圖 AI 工具 DALL-E 系列迎來了最新版本 DALL?E 3，而上個(gè)版本 DALL?E 2 還是在去年 4 月推出的。

OpenAI 表示，「DALL?E 3 比以往系統(tǒng)更能理解細(xì)微差別和細(xì)節(jié)，讓用戶更加輕松地將自己的想法轉(zhuǎn)化為非常準(zhǔn)確的圖像。」

是不是真如 OpenAI 所說的那樣呢？眼見為實(shí)，我們來看以下 DALL?E 3 與 DALL?E 2 的生成效果比較，同樣的 prompt「一幅描繪籃球運(yùn)動(dòng)員扣籃的油畫，并伴以爆炸的星云」，左圖 DALL?E 2 在細(xì)節(jié)、清晰度、明亮度等方面顯然遜于右圖 DALL?E 3。

除了炸裂的生圖效果之外，此次 DALL?E 3 的最大特點(diǎn)是與 ChatGPT 的集成，它原生構(gòu)建在 ChatGPT 之上，用 ChatGPT 來創(chuàng)建、拓展和優(yōu)化 prompt。這樣一來，用戶無需在 prompt 上花費(fèi)太多時(shí)間。

具體來講，通過使用 ChatGPT，用戶不必絞盡腦汁地想出詳細(xì)的 prompt 來引導(dǎo) DALL?E 3 了。當(dāng)輸入一個(gè)想法時(shí)，ChatGPT 會(huì)自動(dòng)為 DALL?E 3 生成量身定制的、詳細(xì)的 prompt。同時(shí)用戶也可以使用自己的 prompt。

至于集成 ChatGPT 后的效果怎么樣？OpenAI CEO 山姆?奧特曼興奮地展示了 DALL?E 3 的連續(xù)性生成結(jié)果，簡直稱得上完整的「故事片」。

超級(jí)向日葵刺猬長什么樣子

這只刺猬叫「Larry」以及它的更多同類。

Larry 的家長這樣。

Larry 很善良。

Larry 最后安然入眠了。

ChatGPT 集成并不是 DALL?E 3 唯一的新特點(diǎn)，它還能生成更高質(zhì)量的圖像，更準(zhǔn)確地反映提示內(nèi)容。DALL?E 將文本 prompt 轉(zhuǎn)換成圖像。即使是 DALL?E 2 ，也會(huì)經(jīng)常忽略特定的措辭導(dǎo)致出錯(cuò)。但 OpenAI 的研究人員說，最新版本能更好地理解上下文，并且處理較長的 prompt 效果會(huì)更好。此外，它還能更好地處理向來困擾圖像生成模型的內(nèi)容，如文本和人手。

prompt：這幅插畫描繪了一顆由半透明玻璃制成的人心，矗立在驚濤駭浪中的基座上。一縷陽光穿透云層，照亮了心臟，揭示了其中的小宇宙。地平線上鐫刻著一行醒目的大字「Find the universe within you」。

可以看到在上圖將 prompt 中的每一個(gè)細(xì)節(jié)都表現(xiàn)出來了。半透明的質(zhì)感、畫面底部的波濤洶涌、陽光與厚厚的云層、心臟中的宇宙景象，以及難倒很多圖像生成模型的文字展現(xiàn)，DALL?E 3 都順利地完成了這些任務(wù)。

那么，DALL?E 3 能不能成為 Midjourney 「殺手」呢？推特用戶 @MattGarciaEth 已經(jīng)將二者生成的圖片進(jìn)行了很多比較。大家覺得哪個(gè)更好呢？

prompt 為「一個(gè)鱷梨坐在治療師的椅子上，說『我只是覺得內(nèi)心很空虛』，中間有一個(gè)坑大小的洞。治療師、一個(gè)勺子、潦草地寫筆記。」

prompt 為「這幅插畫描繪了一顆由半透明玻璃制成的人心，矗立在驚濤駭浪中的基座上。一縷陽光穿透云層，照亮了心臟，揭示了其中的小宇宙。地平線上鐫刻著一行醒目的大字『Find the universe within you』」

prompt 為「一位亞裔中年婦女的黑發(fā)上散落著銀絲，顯得支離破碎，錯(cuò)綜復(fù)雜地鑲嵌在一片碎瓷片中。瓷器上閃爍著飛濺的顏料圖案，光澤和啞光的藍(lán)色、綠色、橙色和紅色和諧地交織在一起，在動(dòng)與靜的超現(xiàn)實(shí)并置中捕捉著她的舞姿。她的膚色與瓷器一樣呈淺色，為她的造型增添了一種神秘的氣質(zhì)?！梗ㄍ铺?@nickfloats，上圖為 DALL?E 3 的生成結(jié)果，下圖為 Midjourney 的生成結(jié)果）

目前，DALL?E 3 處于研究預(yù)覽版本。OpenAI 計(jì)劃將 DALL?E 3 的發(fā)布時(shí)間錯(cuò)開，將于 10 月份首先向 ChatGPT Plus 和 ChatGPT Enterprise 用戶發(fā)布，隨后在秋季向研究實(shí)驗(yàn)室及其 API 服務(wù)發(fā)布。不過，該公司沒有透露何時(shí)或者是否計(jì)劃發(fā)布免費(fèi)的公開版本。

DALL?E 系列研究

我們簡單為大家梳理介紹下 OpenAI 文本生成圖像的 DALL?E 系列研究，也方便讀者們了 DALL?E 系列背后的技術(shù)。

2021 年 1 月 6 日，OpenAI 博客發(fā)布了兩個(gè)連接文本與圖像的神經(jīng)網(wǎng)絡(luò)：DALL?E 和 CLIP。DALL?E 可以基于文本直接生成圖像，CLIP 則能夠完成圖像與文本類別的匹配。這兩項(xiàng)研究的發(fā)布，引起了社區(qū)極大的關(guān)注。

據(jù)博客介紹，DALL?E 可以將以自然語言形式表達(dá)的大量概念轉(zhuǎn)換為恰當(dāng)?shù)膱D像，可以說是 GPT-3 的 120 億參數(shù)版本，可基于文本描述生成圖像。

DALL?E 示例。給出一句話「牛油果形狀的椅子」，就可以獲得綠油油、形態(tài)各異的牛油果椅子圖像。

2 個(gè)月后，DALL?E 的論文和代碼公開。

項(xiàng)目地址：https://github.com/openai/DALL-E
論文地址：https://arxiv.org/abs/2102.12092

2022 年 4 月 7 日左右，DALL?E 迎來了升級(jí)版本 ——DALL?E 2。與 DALL?E 相比，DALL?E 2 在生成用戶描述的圖像時(shí)具有更高的分辨率和更低的延遲。并且，新版本還增添了一些新的功能，比如對(duì)原始圖像進(jìn)行編輯。

OpenAI 還公布了 DALL?E 2 的研究論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。

論文地址：https://cdn.openai.com/papers/dall-e-2.pdf

遺憾的是。OpenAI 可能不會(huì)像之前一樣，公布 DALL?E 3 背后的技術(shù)細(xì)節(jié)。

注重安全與版權(quán)問題

OpenAI 稱其在 DALL?E 3 上投入了大量工作，包括制定強(qiáng)有力的安全措施，以防止創(chuàng)建「有害」的圖像。OpenAI 表示其與外部「紅隊(duì)」成員（一個(gè)故意試圖破壞系統(tǒng)以測試系統(tǒng)安全性的團(tuán)隊(duì)）合作，并依賴輸入分類器（一種教語言模型忽略某些單詞以避免顯式或暴力 prompt 的方法）。DALL?E 3 也無法生成公眾人物的圖像。

OpenAI 研究員 Sandhini Agarwal 表示她對(duì) DALL?E 3 的安全措施「高度有信心」，并表示該模型在不斷改進(jìn)。OpenAI 還在一封電子郵件中表示：DALL?E 3 拒絕生成在世藝術(shù)家風(fēng)格的圖像，這一點(diǎn)與 DALL?E 2 不同。

藝術(shù)家們曾起訴 DALL?E 的競爭對(duì)手 Stability AI 和 Midjourney，以及藝術(shù)網(wǎng)站 DeviantArt，指控它們使用他們擁有版權(quán)的作品來訓(xùn)練文本到圖像的模型。或許是為了避免訴訟，OpenAI 將允許藝術(shù)家將其藝術(shù)作品從未來版本的文本到圖像 AI 模型中刪除，不用于訓(xùn)練。創(chuàng)作者可以提交一張他們擁有版權(quán)的圖片，并在網(wǎng)站上填寫表格要求將其移除。

這樣，未來版本的 DALL?E 就可以屏蔽與藝術(shù)家的圖像和風(fēng)格相似的結(jié)果。

責(zé)任編輯：張燕妮來源：機(jī)器之心