OpenAI增強ChatGPT“繪畫”能力
OpenAI宣布在ChatGPT中引入一項新功能,可以根據(jù)用戶對話創(chuàng)建獨特的圖像。該功能可供ChatGPT的Plus和Enterprise用戶使用,便于基于用戶描述進行視覺渲染,并支持直接在聊天中進行迭代細化。底層技術由OpenAI的高級圖像模型DALL·E 3驅動。
DALL·E 3是OpenAI內外多項研究進展的結晶。值得注意的是,它的視覺效果不僅更吸引人,而且更清晰,優(yōu)于前代。它在渲染文本、手和面部特征等復雜組件方面表現(xiàn)出嫻熟的技巧。增強了對詳細提示做出反應和支持各種縱橫比的能力,這源于先進的訓練方案。
通過使用尖端的圖像字幕,可以為訓練圖像生成更好的文本描述。DALL·E 3通過在這些增強型字幕上的持續(xù)訓練產(chǎn)生了一個與用戶提供的描述更加一致的模型。OpenAI的一篇研究論文對這一過程進行了全面的探索。
ChatGPT現(xiàn)在可以通過簡單的對話創(chuàng)建獨特的圖像
安全措施
在部署DALL·E 3時,OpenAI建立了一個強大的安全機制,以減少有害圖像的產(chǎn)生,其中包括暴力、露骨或宣揚仇恨的內容。對用戶輸入及其相應輸出會先進行安全評估。另外初始用戶的反饋和專家評估為改進提供了依據(jù),特別是在識別和解決安全檢查中的盲點方面。
該模型以在世藝術家風格或公眾人物去生成圖像的傾向已經(jīng)減少,圖像中的人口代表性也得到了增強。
用戶協(xié)作
OpenAI強調用戶反饋在完善其產(chǎn)品方面的價值。ChatGPT用戶可以直接與研究團隊溝通,報告輸出中的問題或差異。這種反饋回路由廣泛的用戶社區(qū)補充,有助于確保人工智能系統(tǒng)的負責任進化,與OpenAI的使命保持一致。
來源分類器
OpenAI還在試驗一種來源分類器,該分類器旨在確定圖像是否由DALL·E 3生成。在早期的內部評估中,當圖像未被修改時,它在識別圖像是否由DALL·E生成方面的準確率超過99%。當圖像經(jīng)過常見的修改類型時,如裁剪、調整大小、JPEG壓縮,或者當真實圖像的文本或剪切被疊加到生成圖像的小部分上時,它的準確率保持在95%以上。
雖然分類器表明了DALL·E3參與的可能性,但它并沒有提供確鑿的證據(jù)。作為識別人工智能生成內容的更廣泛努力的一部分,該工具與其他策略一起,可能在未來發(fā)揮關鍵作用。
藝術完整性
最后,DALL·E 3原則上會拒絕模仿在世藝術家風格的圖像生成請求。但藝術家也可以選擇將他們的創(chuàng)作用于OpenAI訓練后續(xù)圖像生成模型。