OpenAI又一顆「重磅炸彈」:賦予AI藝術(shù)創(chuàng)造力
OpenAI再次投下一顆重磅炸彈。
本月初,曾于去年夏季推出高人氣語言模型GPT-3的OpenAI研究小組再次公布一套名為DALL-E的全新AI模型。雖然它在熱度上不及GPT-3,但卻很可能對AI的未來發(fā)展擁有更加深遠的影響。
簡而言之,DALL-E能夠?qū)⑽谋久枋鲎鳛檩斎?,?jù)此生成原始圖像輸出。(DALL-E這一名稱,源自對超現(xiàn)實主義藝術(shù)家薩爾瓦多·達利及皮克斯工作室創(chuàng)造的可愛機器人形象WALL-E的致敬。)
例如,當輸入“五角形綠色時鐘”、“火球”或者“建筑物墻面上的藍色南瓜壁畫”之后,DALL-E即可生成令人震驚的準確視覺效果。
▲ 在要求生成“建筑物墻面上的藍色南瓜壁畫”后,OpenAI的全新深度學習模型DALL-E能夠生成以上原始圖像
DALL-E為什么意義重大?
首先,它預示著一種所謂“多模AI”的全新AI范式的出現(xiàn)。這種范式似乎代表著人工智能的未來面貌。以DALL-E為例,多模AI系統(tǒng)能夠?qū)Χ喾N信息模式進行解釋、合成與翻譯,由此把情境、語言與圖像映射起來。雖然DALL-E并不是第一套多模AI方案,但卻擁有迄今為止最令人驚嘆的實際效果。
OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever總結(jié)道,“這個世界不僅由文字 構(gòu)成。人類在表達之余,還會訴諸視覺。視覺元素非常重要。”
目前存在的大部分AI系統(tǒng)只能處理一種數(shù)據(jù)類型。以自然語言處理模型(NLP模型,例如GPT-3)只能處理文本;計算機視覺模型(例如人臉識別系統(tǒng))只能處理圖像。但人腦所表現(xiàn)出的智能明顯適應性更強,所能處理的信息也更為靈活。
人類能夠不斷從五種感官處接收并整合信息——我們也正是通過視覺、聽覺、觸覺、嗅覺與味覺的結(jié)合理解周遭世界。以此為基礎,我們又以語音、文本、肢體表達、面部表情與音樂等多種形式將信息傳遞回這個豐富多彩的世界。
通過將自然語言理解與視覺表示生成的能力結(jié)合起來(也就是將「閱讀」與「視覺」相結(jié)合),DALL-E再次證明多模AI中蘊藏的巨大潛力。
這還僅僅只是開始。在之后的幾個月乃至幾年中,新的AI系統(tǒng)有望將音頻、視頻、語音、圖像、書面文本、觸覺以及其他要素無縫銜接起來。隨著AI學會以越來越復雜的方式將多種信息結(jié)合起來,其理解世界并產(chǎn)生新穎洞見的能力也將迎來爆發(fā)式增長。
DALL-E還有另一層,或者說更為根本的重要意義:人類越來越無法否認人工智能中蘊含的巨大創(chuàng)造力。
DALL-E生成的圖像遠超人類的想象力范疇。這絕不只是對互聯(lián)網(wǎng)上的現(xiàn)成圖像進行簡單修改——相反,這些是前所未有的效果圖,其中的巧妙性與獨創(chuàng)性足以令藝術(shù)家們?yōu)橹潎@。事實上,就連DALL-E的創(chuàng)造者們往往也理解不了其生成原理。
下面來看DALL-E的幾幅作品。首先是“一碗拉面表情符號”,接下來的一幅是“牛油果組成的企鵝”。如果這些成果來自人類設計師,我們無疑會將其視為實實在在的創(chuàng)作產(chǎn)物。既然如此,我們還有理由否定或者拒絕DALL-E嗎?
▲ DALL-E根據(jù)“一碗拉面表情符號”輸出的圖像
▲ DALL-E根據(jù)“牛油果組成的企鵝”生成的圖像
憑借這種強大的創(chuàng)造力,DALL-E足以在產(chǎn)品設計、時尚以及建筑等領域證明AI技術(shù)的現(xiàn)實意義。不久之后,人類設計師也許會習慣使用DALL-E等AI系統(tǒng)作為構(gòu)思助手甚至是靈感來源。
舉個例子,在要求設計“甜甜圈風格的扶手椅”時,DALL-E帶來了種種富有構(gòu)圖的選擇。當然,它的設計與外觀還頗具水準。不難想象,未來一定會有家具設計師反復使用DALL-E以探索模型輸出,調(diào)整輸入文本進行設計迭代,最終將AI元素引入自己的作品當中。從汽車到燈具、從珠寶到房屋,類似的創(chuàng)意過程將適用于眾多產(chǎn)品。
▲ DALL-E根據(jù)“甜甜圈風格的扶手椅”生成的輸出圖像
當然,DALL-E還遠非完美,它所生成的圖像也并不總能準確表現(xiàn)輸入文本:例如,它經(jīng)常會在顏色、數(shù)量或空間關(guān)系方面犯錯誤。
OpenAI公開發(fā)布的DALL-E工作示例已經(jīng)由CLIP神經(jīng)網(wǎng)絡進行排序與篩選。對于每項文本輸入,篩選后系統(tǒng)將僅顯示512個樣本中置信度最高前32個樣本。換句話說,DALL-E實際生成的圖像更多,只是其中大部分效果不佳。
綜上所述,DALL-E的創(chuàng)造能力令人驚訝,而這項技術(shù)本身也仍在快速迭代當中。
與AI技術(shù)的其他重大發(fā)展一樣,DALL-E再次讓我們想起一個古老的問題:機器的智能水平是否越來越接近人類?
一方面,DALL-E的誕生激發(fā)起關(guān)于超級智能技術(shù)的夸張表述。但在另一方面,以著名深度學習評論家Gary Marcus為代表的懷疑論者,則認為DALL-E并沒有給AI技術(shù)的發(fā)展帶來任何切實推動。
Marcus的觀點值得認真對待。深度學習(包括為DALL-E、GPT-3提供基礎的前沿transformer架構(gòu))在智能概念建模方面仍然存在著嚴重的局限性。
但從某種意義上講,這場爭論其實偏離了真正的重點。無論OpenAI的新模型是否代表著邁向“人工通用智能”的下一步,也無論深度學習能否真正帶來與人類擁有同等認知水平的機器智能成果,DALL-E本身仍然具備非凡的新能力——這已經(jīng)成為不爭的事實。
DALL-E及其后續(xù)方案有望在人與機器間的創(chuàng)造關(guān)系中帶來新的可能性,并由此衍生出巨大的經(jīng)濟價值,為新一波創(chuàng)新型初創(chuàng)企業(yè)及產(chǎn)品奠定基礎。
面對無限的可能,我們只需要充滿期待。