AI可以繪制情感嗎?看DALL-E如何表抽象
要說2022年人工智能領域發(fā)展有怎樣的趨勢?
一定要提到「多模態(tài)AI」的崛起,尤其是文本到圖像生成工具。
從DALL-E到Imagen、Parti、女媧等,都可以生成高質量的圖像,讓人驚艷。
這當中最典型的例子便是OpenAI的Dall-E2了。
自Dall-E面世后,或許你見過它生成很多繪畫風格的圖片,比如宇航員在太空騎馬。
然而,很少有通過Dall-E表現(xiàn)抽象概念的圖片。
這不,一名機器學習科學家Gabriele Sgroi就來探索了DALL-E如何完成這項任務。
他測試了油畫棒和繪畫風格的悲傷,愛,憤怒,幸福,正義和非正義等主題。
油畫棒風格
悲傷
憤怒
幸福
愛
繪畫風格
悲傷
愛
憤怒
幸福
還有其他抽象概念的畫作欣賞:正義與非正義
正義
非正義
Gabriele Sgroi相信繪畫會更有洞察力,而不是將情感圖像限制在人們的面部表情上。
本文中的所有圖像(包括封面圖像)都是使用 DALL-E 從給定提示中選擇第一代提供的所有圖像生成的。
從這些例子中可以看出,盡管并不總是可以清楚地識別出給定的情緒,但是DALL-E在繪畫風格總體上展現(xiàn)出更抽象和復雜的圖片。
其中,代表正義的圖片大多描繪出一個希臘女神,但是代表非正義的圖像確實讓人琢磨不透。
總的來說,Sgroi觀察到結果很大程度上取決于所選擇的風格。
并且在大多數(shù)情況下,DALL-E會在生成的圖紙上寫下情感的名稱。
總之,DALL-E 似乎對測試的情緒表現(xiàn)出一定程度的理解,將它們與面部表情以及通常與之相關的顏色或符號正確配對。
Sgroi表示,進一步研究不同風格之間相同情緒表征的差異,并檢查觀察到的正面和負面情緒之間的偏差是否在其他示例中仍然存在,這將是很有趣的。
DALL-E失敗了嗎?
諷刺的是,DALL-E 2宣稱是擅長理解用于生成圖像的文本提示。
但是有網(wǎng)友發(fā)現(xiàn),當前無法理解文本時,便會將文字內容放置在生成的圖片中。
如藝術家雷內·馬格利特的一幅畫《這不是一支煙斗》。
還有一位人工智能Janelle Shane讓DALL-E 2生成公司徽標,卻發(fā)現(xiàn)沒有一張圖能正確拼出單詞。
Waffle House生成示例
另外,你可以說 DALL-E 2了解一些科學定律。
因為它可以輕松描繪出墜落的物體,或者漂浮在太空中的宇航員。
但是,如果想要生成解剖圖、X 射線圖像、數(shù)學證明或藍圖,所得到的圖像可能表面上是正確的,但根本上都是錯誤的。
就比如,按比例繪制太陽系的圖片中,可以說是一塌糊涂,左下角地球形狀,還有左上角類似荷包蛋的物體。
OpenAI研究員Aditya Ramesh解釋道,它試圖在不理解含義的情況下編造一些視覺上相似的東西。
所以DALL-E 2并不知道什么是科學,它只知道如何閱讀文本并繪制插圖。
還有讓DALL-E 2生成人物面孔時,逼真到簡直讓人不敢相信。
在訓練期間,OpenAI引入了deepfake保護措施,就是為了防止其記住經(jīng)常出現(xiàn)在互聯(lián)網(wǎng)上面孔。
如果上傳的圖像包含了真實的人物面孔,即使是不知名的人,系統(tǒng)便會拒絕生成內容。
但是,另一個問題便出現(xiàn)了,OpenAI表示,該系統(tǒng)針對具有單一關注焦點的圖像進行了優(yōu)化
就比如生成「一名宇航員凝視著地球,臉上帶著渴望的表情」這種細致入微肖像生成還是非常成功的。
然而,讓DALL-E一次生成多個人的圖像時,直接崩潰了。因此它在生成集體照和人群場景中就會變得非常糟糕。
此外,DALL-E還會生成一些偏見的圖像。
目前,OpenAI 的團隊已經(jīng)開始通過機器學習來糾正偏見。
例如,在 DALL-E 2 的訓練期間,研究人員調整了訓練方法并增加了女性圖像的權重,因此它們更有可能被生成。
DALL-E未來會帶來更多驚喜。