自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里? 精華

發(fā)布于 2024-8-7 09:43
瀏覽
0收藏

文章的第一作者是上海交通大學博士研究生趙峻圖(主頁:https://juntuzhao.run),他的研究方向包括計算機視覺和人工智能賦能的生命科學。此外,他還擔任上海交通大學校田徑隊隊長。文章的通訊作者為上海交通大學長聘教軌助理教授、博士生導師王德泉(主頁:https://dequan.wang)。

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)

設(shè)想一下,如果讓你畫一幅 “茶杯中的冰可樂” 的圖片,盡管茶杯與冰可樂的組合可能并不恰當,你仍然會很自然地先畫出一個茶杯,然后畫上冰塊與可樂。那么,當我們給 AI 畫家提出 “畫出茶杯中的冰可樂” 的要求時,會發(fā)生什么呢?在 2023 年 10 月大規(guī)模 AI 圖像生成模型剛剛興起時,我們便進行了這種嘗試,得到了以下結(jié)果:

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)

考慮到 AI 模型更新?lián)Q代帶來的性能提升,我們在 2024 年 7 月又使用了最先進的模型進行了同樣的嘗試:

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)

可以看出,即使是最先進的 AI 畫家(例如 Dall?E 3),也無法憑空構(gòu)建 “茶杯中的冰可樂” 的場景,它們往往會摸不著頭腦,糾結(jié)良久后畫出一個裝滿冰可樂的透明玻璃杯。即使是擁有昂貴數(shù)據(jù)標注基礎(chǔ)以及 ChatGPT-4 加持下的最新 Dall?E 3 也無法穩(wěn)定地 “將冰可樂裝進茶杯里”,這一問題在學術(shù)界被歸類為文生圖模型的文本圖像不對齊問題(text-image misalignment)。最近,上海交通大學王德泉老師課題組在論文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了這一問題的新分支,該論文即將發(fā)表在 2024 年 10 月份的第 18 屆歐洲計算機視覺大會(ECCV)上。

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)

  • 論文鏈接:https://arxiv.org/abs/2408.00230
  • 項目鏈接:https://lcmis.github.io

文本圖像不對齊問題是圖像生成領(lǐng)域中的一個重要方向,與傳統(tǒng)不對齊問題不同的是,在傳統(tǒng)不對齊問題中,人們主要關(guān)注的是一組概念對中兩個概念的相互影響,例如給定 “一個蘋果和一個梨” 的需求,得到的圖像要么是兩個蘋果,要么是兩個梨,不會出現(xiàn)第三種概念。而在 “茶杯中的冰可樂” 這一例子中,有一個關(guān)鍵的隱藏變量 “透明玻璃杯”,其從未在文本提示中出現(xiàn),卻替代 “茶杯” 出現(xiàn)在了圖像中。這種現(xiàn)象在本文中被稱為包含隱藏變量的不對齊問題(Latent Concept Misalignment,簡稱 LC-Mis)。


為了更深入地探索為什么茶杯會消失在圖像中,我們首先希望收集一些與 “茶杯中的冰可樂” 存在相似問題的數(shù)據(jù)。然而,“茶杯中的冰可樂” 問題源于人類的奇思妙想與 AI 的死記硬背之間的沖突,如果僅依靠人類專家冥思苦想來創(chuàng)造新的概念對,效率將會非常低下。因此,我們設(shè)計了一個基于大語言模型(LLMs)的系統(tǒng),利用 LLMs 體內(nèi)蘊含的人類思維來幫助我們快速收集與 “茶杯中的冰可樂” 存在類似問題的概念對。在這個系統(tǒng)中,我們首先向 LLMs 解釋 “茶杯中的冰可樂” 問題背后的邏輯,然后簡單地將這一問題劃分為幾個類別,讓 LLMs 按照不同類別的邏輯生成更多的類別和概念對,最后我們使用文生圖模型來繪制圖像進行檢查。然而,我們在后續(xù)實驗中發(fā)現(xiàn),現(xiàn)有的自動化評價指標在 “茶杯中的冰可樂” 這一新問題上存在一定缺陷。因此,我們只能采用人工評估的方式,我們對每組概念對生成 20 張圖像,并根據(jù)這 20 張圖中正確畫出的數(shù)量為這組概念對給予 1 至 5 的評級,其中第 5 級表示所有 20 張圖像均未能正確生成。


為了找回圖像中的茶杯,我們提出了一種名為 Mixture of Concept Experts (MoCE) 的方法。我們認為,如果不從人類處理問題的角度來進行思考,那么人工智能的一切都是毫無道理的。在當今最火熱的文生圖模型 diffusion models 中,注意力機制會同時處理文本提示中的可樂與茶杯,但這并不符合人類按照概念順序作畫的規(guī)律。因此,我們將順序作畫的規(guī)律融入到 diffusion models 的多步采樣過程中,成功地將消失的茶杯找了回來:

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)

具體來說,LLMs 會首先告訴我們應(yīng)該先畫一個茶杯。接下來,我們將茶杯這一概念單獨輸入給 diffusion models,完成 T-N 步的采樣。而在余下的 N 步采樣中,再提供完整的文本提示,“茶杯中的冰可樂”,最終生成一張干凈的圖像。在此過程中,N 起到了至關(guān)重要的作用,因為它決定了為 “茶杯” 分配的采樣步數(shù)。于是,我們使用一個多模態(tài)模型來衡量圖像與茶杯以及冰可樂的契合度評分。當圖像和兩個概念的評分之間相差很大時,說明有一個概念很可能被模型忽略了,于是就需要相應(yīng)地調(diào)整 N 的取值。由于 N 的取值與概念在圖中出現(xiàn)概率之間的關(guān)系是正相關(guān)的,因此這一調(diào)整過程是由二分查找來完成的。


最后,我們使用 MoCE 以及各種 baseline 模型在收集到的數(shù)據(jù)集上進行了廣泛的實驗,并展示了以 “茶杯中的冰可樂” 為首的可視化修復結(jié)果,以及在整個數(shù)據(jù)集上人類專家評估的結(jié)果對比。和幾種 baseline 模型相比,我們提出的 MoCE 方法顯著地降低了第 5 級 LC-Mis 概念對的占比。另外值得注意的是,MoCE 的性能在一定程度上甚至超越了需要大量數(shù)據(jù)標注成本的 Dall?E 3(2023 年 10 月版本):

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)


AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)

此外,正如在上文中提到的,現(xiàn)有的自動化評價指標在 “茶杯中的冰可樂” 這一新問題上存在一定缺陷。我們首先仔細挑選了一些帶把的透明玻璃杯圖像,它們雖然具有茶杯的形狀,但是由于其透明玻璃的材質(zhì)而不能稱之為茶杯。我們將這些圖像與 MoCE 生成的 “茶杯中的冰可樂” 圖像進行了對比,如下圖所示:

AI畫家的「滑鐵盧」:為什么冰可樂不愿意住進茶杯里?-AI.x社區(qū)

我們使用了兩種當前流行的評價指標,Clipscore 和 Image-Reward,來計算圖像與 “冰可樂” 之間的契合程度。圖像與冰可樂的契合程度越高,得分就越高。然而,這兩種評價指標均對茶杯中的冰可樂給予了明顯更低的評分,而對透明玻璃杯中的冰可樂賦予了明顯更高的評分。因此,這表明現(xiàn)有的自動化評價指標可能無法識別出茶杯中的冰可樂,因為其模型內(nèi)部仍存在 “冰可樂 = 冰塊 + 可樂 + 玻璃杯” 的偏見,從而導致其無法有效參與 LC-Mis 問題的評價。


總的來說,我們受到 “茶杯中的冰可樂” 例子的啟發(fā),介紹了一種文本圖像不對齊問題的新分支,即包含隱藏概念的不對齊問題 (LC-Mis)。我們在大語言模型和文生圖模型的幫助下,開發(fā)了一個系統(tǒng)來收集 LC-Mis 概念對。接下來,我們受到人類繪畫規(guī)律的啟發(fā),將繪畫順序引入 diffusion models 的采樣過程,提出了 MoCE 的方法,緩解了 LC-Mis 問題。最后,我們還通過代表例子 “茶杯中的冰可樂” 展示了當下文本圖像對齊問題的評價指標存在的缺陷。在未來的工作中,我們將持續(xù)深入研究生成式 AI 技術(shù),推動 AI 更好地滿足人類的實際需求,通過不斷的努力和創(chuàng)新,我們期待見證 AI 在理解和再現(xiàn)人類創(chuàng)造力方面的突破。


本文轉(zhuǎn)自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/OyLEBVJoaJDkunq15Uwj1Q??

收藏
回復
舉報
回復
相關(guān)推薦