自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="xs1mm"><li id="xs1mm"></li></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DALL·E 3關(guān)鍵技術(shù)公開！19頁論文揭秘如何對提示詞“唯命是從”

作者：蕭簫 2023-10-20 12:17:42

人工智能新聞

無論是整體的環(huán)境描寫，還是精確到物體數(shù)量、著裝、顏色這種細(xì)節(jié)敘述，DALL·E 3都能很好地理解，并生成對應(yīng)的畫作，絲毫不漏重點(diǎn)。

出場即炸場的DALL·E 3，又有新動向了！

這次直接宣布對ChatGPT Plus和企業(yè)版用戶開放，還連帶公開了更多“官方推薦案例”。

不僅如此，OpenAI還一紙論文透露了DALL·E 3的關(guān)鍵技術(shù)細(xì)節(jié)。

相比其他AI，DALL·E 3表現(xiàn)最優(yōu)秀的地方，應(yīng)該就要屬對提示詞的完美遵循了。

無論是整體的環(huán)境描寫，還是精確到物體數(shù)量、著裝、顏色這種細(xì)節(jié)敘述，DALL·E 3都能很好地理解，并生成對應(yīng)的畫作，絲毫不漏重點(diǎn)。

論文一公開，可以說是解決了“如何讓DALL·E 3遵循指令”這一讓諸多人困惑的問題，有網(wǎng)友感嘆：

OpenAI終于又Open了？

一起來看看這篇DALL·E 3論文的關(guān)鍵細(xì)節(jié)，以及它的更多用例。

用數(shù)據(jù)集讓DALL·E 3“唯命是從”

先來看看DALL·E 3論文最大的亮點(diǎn)：提示詞遵循（prompt following）。

此前，不少繪畫AI會刻意忽略提示詞中的某些關(guān)鍵詞、或是混淆提示詞的含義（多義詞如column，列還是柱子），簡單來說就是文本提示詞和畫面細(xì)節(jié)沒對齊。

OpenAI的研究人員在經(jīng)過一番分析后認(rèn)為，這是數(shù)據(jù)集的鍋。

現(xiàn)有的圖像文本對數(shù)據(jù)集，文字對圖像的描述可以說是“惜字如金”。

尤其是從互聯(lián)網(wǎng)上扒下來的數(shù)據(jù)集，大多數(shù)對圖像的描述只有一句話，更別提細(xì)節(jié)了。包括環(huán)境、物體在內(nèi)，容易忽略的文本描述主要有4類：

場景中物體描述，如廚房里的水槽、人行道上的停車標(biāo)志等；
物體位置和數(shù)量描述
物體顏色和大小描述
圖像中的文本描述（如呈現(xiàn)在商店招牌上的字母/漢字）

除此之外，還有不少互聯(lián)網(wǎng)上扒下來圖像的文本描述，直接就是錯(cuò)誤或不相關(guān)的，例如梗圖或Alt文本（圖像加載失敗時(shí)網(wǎng)頁上呈現(xiàn)的文字描述）。

為此，有必要將這些圖像對應(yīng)的文本數(shù)據(jù)重新整理一遍，更準(zhǔn)確地描述圖像中的場景和物品進(jìn)行描述。

光靠人力是不太可能的，畢竟要生成的“廢話文學(xué)”太多了。

和RLHF一樣，OpenAI同樣將這個(gè)過程“自動化”了一波，讓AI來完成這件事。

他們訓(xùn)練了一個(gè)“圖像字幕器”（image captioner），專門用來給數(shù)據(jù)集中的圖像重新生成文本描述。

這是“圖像字幕器”給數(shù)據(jù)集中的部分圖片生成文本描述的效果：

這下子描述就詳細(xì)多了。

那么，用AI來合成文本，實(shí)際訓(xùn)練出來的模型是否真能提升生成效果？

研究人員用開源模型（如CLIP）測試了一波，得出的結(jié)論是可以。

不過也不能完全使用合成的文本描述，畢竟AI生成的內(nèi)容可能有些“神秘共性”，直接全盤接受容易導(dǎo)致圖像過擬合。

因此，OpenAI還在CLIP上嘗試了一波合成文本描述-圖像數(shù)據(jù)集的效果。

他們發(fā)現(xiàn)，數(shù)據(jù)集中混雜95%的合成文本-圖像數(shù)據(jù)時(shí)，CLIP的效果是最好的。

最終，他們決定95%的圖像用合成文本描述，剩下的5%圖像依舊使用人工描述，用這個(gè)比例的文本-圖像數(shù)據(jù)集重新訓(xùn)練了DALL·E 3，取得了不錯(cuò)的效果。

最后，OpenAI也采用人工評估的方法，對DALL·E 3和其他模型進(jìn)行了測試。

評估方法大致像這樣，詢問人類哪個(gè)圖像能更好地遵循提示詞、或生成更好看的圖像。

結(jié)果顯示，DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2，在提示詞遵循、風(fēng)格匹配等任務(wù)測試上均取得了不錯(cuò)的效果。

已向企業(yè)版和Plus用戶開放

除了這篇論文以外，OpenAI這次還公布了DALL·E 3的另一動向——向ChatGPT Plus和企業(yè)版開放。

在宣布這一消息的同時(shí)，OpenAI也給出了企業(yè)和機(jī)構(gòu)使用DALL·E 3的建議，例如做科學(xué)項(xiàng)目：

搞網(wǎng)站設(shè)計(jì)：

或是幫企業(yè)設(shè)計(jì)LOGO：

當(dāng)然，無論是ChatGPT Plus還是企業(yè)版，仍然也屬于收費(fèi)項(xiàng)目。

目前唯一可以免費(fèi)玩到DALL·E 3的地方，應(yīng)該還是微軟的New Bing。

對于OpenAI帶來的DALL·E 3新消息，不少網(wǎng)友感覺振奮。

有網(wǎng)友表示，DALL·E 3的出現(xiàn)真正給設(shè)計(jì)圈帶來了改變，例如設(shè)計(jì)飲料包裝等：

還有網(wǎng)友已經(jīng)在催API的到來了：

但也有網(wǎng)友對這次更新不甚滿意，尤其是對DALL·E 3論文涉及的技術(shù)信息表示了嘲諷：

直接用谷歌的T5文本編碼器和卷積解碼器，這就是公司發(fā)展太快的結(jié)果嗎？

這里是網(wǎng)友提到的DALL·E 3論文細(xì)節(jié)：

要是對DALL·E 3的更多技術(shù)細(xì)節(jié)感興趣，也可以到論文中找找答案~

論文地址：https://cdn.openai.com/papers/dall-e-3.pdf

責(zé)任編輯：張燕妮來源：量子位

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="qt1cd"></style>

<sup id="qt1cd"></sup>

<blockquote id="qt1cd"></blockquote>