AI能理解自己生成的東西嗎? 在GPT-4、Midjourney上實驗后,有人破案了
從 ChatGPT 到 GPT4,從 DALL?E 2/3 到 Midjourney,生成式 AI 引發(fā)了前所未有的全球關(guān)注。強大的潛力讓人們對 AI 產(chǎn)生了許多期待,但是強大的智能也會引發(fā)人們的恐懼和擔憂。近期大牛們針對該問題還上演了一場激烈的論戰(zhàn)。先是圖靈得獎主們「混戰(zhàn)」,后有吳恩達下場加入。
在語言和視覺領(lǐng)域,目前的生成模型只需要幾秒鐘就可輸出,甚至能夠挑戰(zhàn)具有多年技能和知識的專家。這似乎為模型已經(jīng)超越人類智能的說法提供了令人信服的動機。但是,同樣需要注意到的是,模型輸出中常有理解性的基本錯誤。
這樣看來,似乎出現(xiàn)了一個悖論:我們要如何協(xié)調(diào)這些模型看似超人的能力與持續(xù)存在的大多數(shù)人類都能糾正的基本錯誤?
近日,華盛頓大學與艾倫人工智能研究院(Allen Institute for AI)聯(lián)合發(fā)布論文,對這一悖論進行研究。
論文地址:https://arxiv.org/abs/2311.00059
本文認為,之所以會出現(xiàn)這樣的現(xiàn)象,是因為當今生成模型中的能力配置與人類的智能配置相背離。本文提出并測試了生成式 AI 悖論假設(shè):生成模型通過訓練,直接輸出媲美專家的結(jié)果,該過程直接跳過了理解生成該質(zhì)量輸出的能力。然而,對于人類來說,這截然不同,基本的理解往往是專家級輸出能力的先決條件。
在本文中,研究者通過對照實驗來檢驗這一假設(shè),分析生成模型對文本和視覺的生成、理解能力。本文首先通過兩個角度講生成模型的「理解」概念化:
- 1)給定一個生成任務(wù),模型在多大程度上能在同一任務(wù)的判別版本中選擇正確的回復(fù);
- 2)給定一個正確的生成回復(fù),模型在多大程度上能回答有關(guān)該回復(fù)的內(nèi)容和問題。這就產(chǎn)生了兩種實驗設(shè)置,分別是選擇性實驗和詢問性實驗。
研究者發(fā)現(xiàn),在選擇性評估中,模型在生成任務(wù)設(shè)置中的表現(xiàn)往往與人類相當甚至優(yōu)于人類,但在判別(理解)設(shè)置中,模型的表現(xiàn)卻不及人類。進一步的分析表明,與 GPT-4 相比,人類的判別能力與生成能力聯(lián)系更為緊密,而且人類的判別能力對對抗性輸入也更為魯棒,模型與人類的判別能力差距隨著任務(wù)難度的增加而增大。
同樣,在詢問性評估中,雖然模型可以在不同任務(wù)中產(chǎn)生高質(zhì)量的輸出,但研究者觀察到模型在回答有關(guān)這些輸出的問題時經(jīng)常出現(xiàn)錯誤,模型的理解能力再次低于人類的理解能力。本文討論了生成模型與人類在能力配置上出現(xiàn)分歧的一系列潛在原因,包括模型訓練目標、輸入的大小和性質(zhì)。
這項研究的意義在于,首先,這意味著從人類經(jīng)驗中得出的現(xiàn)有智能概念可能無法推廣到 AI,即使 AI 的能力在很多方面似乎模仿或超越了人類智能,但其能力可能與人類的預(yù)期模式存在根本性差異。另一方面,本文研究結(jié)果也建議,在研究生成模型以深入了解人類智能和認知時要謹慎,因為看似專家級的類人輸出可能掩蓋了非人類的機制。
總之,生成式 AI 悖論鼓勵人們把模型作為一個人類智能的有趣對立面來研究,而不是作為一個平行的對立面來研究。
「生成式 AI 悖論強調(diào)了一個有趣的概念,即 AI 模型可以創(chuàng)造出它們自己可能無法完全理解的內(nèi)容。這就提出了人工智能存在理解的局限性及其強大的生成能力背后所面臨的潛在問題。」網(wǎng)友表示。
何謂生成式 AI 悖論
我們首先了解一下生成式 AI 悖論以及測試它的實驗設(shè)計。
圖 1:語言和視覺中的生成式 AI 可以產(chǎn)生高質(zhì)量的結(jié)果。然而,矛盾的是,模型在展示對這些模式的選擇性(A,C)或詢問性(B,D)理解方面有困難。
生成模型獲得生成能力似乎比獲得理解能力更有效,這與人類的智能形成鮮明對比,后者通常是獲得生成能力更難。
要驗證這一假設(shè),需要對悖論的各個方面進行操作性定義。首先,對于給定的模型和任務(wù) t,以人類智能為基線,生成能力比理解能力「更有效」意味著什么。將 g 和 u 作為生成和理解的一些性能指標,研究者將生成式人工智能悖論假設(shè)正式表述為:
簡單地說,對于一項任務(wù) t,如果人類的生成性能 g 與模型相同,那么人類的理解性能 u 就會明顯高于模型(在合理的大 ? 條件下 > ?)。換一種說法,模型在理解方面的表現(xiàn)比研究者對具有類似強大生成能力的人類的預(yù)期要差。
生成的操作性定義很簡單:給定一個任務(wù)輸入(問題 / 提示),生成就是生成可觀察到的內(nèi)容以滿足該輸入。因此,可以自動或由人類對性能 g 進行評估(如風格、正確性、偏好)。雖然理解能力不是由一些可觀察到的輸出來定義的,但可以通過明確定義其效果來進行測試:
- 選擇性評價。對于一個可以生成應(yīng)答的給定任務(wù),模型在多大程度上還能在同一任務(wù)的判別版本中從提供的候選集中選擇出準確的答案?一個常見的例子是多選題回答,這是檢驗語言模型中人類理解和自然語言理解的最常見方法之一。(圖 1,A、C 欄)
- 提問式評價。對于給定生成的模型輸出,模型能在多大程度上準確回答有關(guān)該輸出的內(nèi)容和適當性的問題?這類似于教育中的口試。(圖 1,B、D 欄 )。
這些關(guān)于理解的定義提供了一個評估「生成式 AI 悖論」的藍圖,讓研究者能夠檢驗假設(shè) 1 是否在不同模式、任務(wù)和模型中都成立。
當模型可以生成時,它們能否判別?
首先,研究者在選擇性評估中對生成性任務(wù)和判別性任務(wù)的變體進行了并列性能分析,以評估模型在語言和視覺模式下的生成和理解能力。他們將這種生成和判別性能與人類進行比較。
下圖 2 比較了 GPT-3.5、GPT-4 和人類的生成和判別性能。可以看到,在 13 個數(shù)據(jù)集中的 10 個數(shù)據(jù)集中,至少有一個模型支持子假設(shè) 1,模型的生成能力優(yōu)于人類,但判別能力低于人類。在 13 個數(shù)據(jù)集中,有 7 個數(shù)據(jù)集的兩個模型都支持子假設(shè) 1。
要求人類像視覺模型那樣生成詳細圖像是不現(xiàn)實的,普通人無法達到 Midjourney 等模型的風格質(zhì)量,因此假設(shè)人類的生成性能較低。這里只將模型的生成和判別準確性與人類的判別準確性進行比較。與語言領(lǐng)域類似,圖 3 展示了 CLIP 和 OpenCLIP 在判別性能方面也不及人類的準確性。假設(shè)人類的生成能力較差,這與子假設(shè) 1 一致:視覺 AI 在生成方面超過人類平均水平,但在理解方面落后于人類。
圖 4(左)展示了 GPT-4 與人類的對比。通過觀察,可以發(fā)現(xiàn),當回答冗長且具有挑戰(zhàn)性時,例如總結(jié)冗長的文檔,模型往往會在判別任務(wù)中犯最多的錯誤。相比之下,人類則能在不同難度的任務(wù)中始終保持較高的準確率。
圖 4(右)展示了 OpenCLIP 與人類在不同難度下的判別性能對比??傊@些結(jié)果突出表明,即使面對具有挑戰(zhàn)性或?qū)剐缘臉颖?,人類也有能力判別出正確答案,但這種能力在語言模型中并不那么強大。這種差異引發(fā)了人們對這些模型真正理解程度的疑問。
圖 5 展示了一個值得注意的趨勢:與人類生成的回復(fù)相比,評估員往往更青睞 GPT-4 的回復(fù)。
模型能理解自己生成的結(jié)果嗎?
上一節(jié)展示了模型通常擅長生成準確的答案,而在判別任務(wù)中卻落后于人類?,F(xiàn)在,在提問式評估中,研究者通過直接向模型提出有關(guān)生成內(nèi)容的問題,以研究模型能在多大程度上展示出對生成內(nèi)容有意義的理解 —— 而這正是人類的強項。
圖 6(左)展示了語言模態(tài)的結(jié)果。雖然模型在生成方面表現(xiàn)出色,但在回答有關(guān)其生成的問題時卻經(jīng)常出錯,這表明模型在理解方面存在失誤。假設(shè)人類無法以同樣的速度或規(guī)模生成這樣的文本,盡管問題是關(guān)于模型自身的輸出,但與模型相比,人類在質(zhì)量保證方面的準確率一直較高。正如子假設(shè) 2 中所述,研究者預(yù)計人類對自己生成的文本會取得更高的準確率。同時可以注意到,本研究中的人類并不是專家,制作與模型輸出一樣復(fù)雜的文本可能是一個巨大的挑戰(zhàn)。
因此研究者預(yù)計,如果將模型與人類專家進行比較,在理解自己生成內(nèi)容方面的性能差距會進一步拉大,因為人類專家很可能以接近完美的準確度回答此類問題。
圖 6(右)展示的是視覺模式下的提問結(jié)果??梢钥吹剑瑘D像理解模型在回答有關(guān)生成圖像中元素的簡單問題時,其準確性仍然無法與人類相比。同時,圖像生成 SOTA 模型在生成圖像的質(zhì)量和速度上都超過了大多數(shù)普通人(預(yù)計普通人很難生成類似的逼真圖像),這表明視覺 AI 在生成(較強)和理解(較弱)方面與人類存在相對差距。令人驚訝的是,與先進的多模態(tài) LLM(即 Bard 和 BingChat)相比,簡單模型與人類之間的性能差距較小,后者具有一些引人入勝的視覺理解能力,但仍難以回答有關(guān)生成圖像的簡單問題。
更多研究細節(jié),可參考原論文。