譯者 | 陳峻
審校 | 重樓
在最近的幾周里,人們使用大型語言模型(large language models,LLM)生成了諸如:書籍、小說、說唱音樂等各種創(chuàng)意性的內(nèi)容??墒?,我們怎么才能衡量這些模型的創(chuàng)作力水平呢?
在本文中,我將和您分析從2019年到2023年的各個GPT模型,在收斂(存在單一正確的解決方案)和發(fā)散(開放式地可能存在多個解決方案)[1] 兩種創(chuàng)造力的測試中的不同表現(xiàn)。具體測試類型包括:
- 將三個看似無關(guān)的詞與第四個詞連接起來(遠距離聯(lián)想測試)
- 為日常物品產(chǎn)生盡可能多的替代用途(替代使用任務)
- 命名十個盡可能彼此不同的名詞(發(fā)散關(guān)聯(lián)任務)
通過分析,我將重點關(guān)注從早期的GPT-2模型,到最新的GPT-4模型,在性能上的變化。雖然總的來說,較晚的模型往往在各種創(chuàng)造力任務上表現(xiàn)會更好,但是我確實也發(fā)現(xiàn)了一些例外情況。例如:當測試本身已有“正確”的答案時,較簡單的GPT-2模型反而優(yōu)于GPT-4模型。
當然,我也會在相同的創(chuàng)造力測試中,將GPT模型與人類表現(xiàn)進行比較。我并不是想闡明GPT模型、或一般的LLM,能夠具有與人類同等的創(chuàng)造性思維;而是要展示各個模型是如何響應創(chuàng)造性過程的。
GPT模型的發(fā)展
生成式預訓練轉(zhuǎn)換器(Generative Pre-trained Transformer,GPT)模型是目前互聯(lián)網(wǎng)上被廣泛用于訓練的語言模型,可以根據(jù)先前的token預測下一個token。雖然ChatGPT貌似在最近的幾個月才引起了公眾的關(guān)注,但實際上OpenAI的GPT模型及其背后的技術(shù),已經(jīng)存在了多年。
- GPT-1(2018年,117M參數(shù))是原始的GPT模型。我曾在HuggingFace上使用了其開源版本,其輸出亂碼較多。論文:通過生成式預訓練提高語言理解力。
- GPT-2(2019年,1.5B參數(shù))。我也曾在HuggingFace上使用了其開源版本。對于一些實驗,GPT-2的輸出為亂碼,對理解其行為毫無用處。論文:語言模型是無監(jiān)督的多任務學習者。
- GPT-3(2020年,175B參數(shù)),比GPT-2大了100多倍。我使用了由OpenAI APIs提供的text-davinci-002。論文:語言模型是小樣本學習者。
- GPT-3.5(2022年)。雖然GPT-3.5有多個版本,但我在原始的ChatGPT上使用了一種模型(OpenAI APIs提供的gpt-3.5-turbo)。該模型是使用強化學習和人工反饋進行訓練的。
- GPT-4(2023年,約100T 參數(shù))。我使用了由OpenAI APIs提供的gpt-4。論文:GPT-4技術(shù)報告。
在下文的各個實驗中,除非另行說明,否則我都是在唯一的提問(prompt)中調(diào)用了每個GPT模型五次,以說明其生成過程中的隨機性。
1. 遠距離聯(lián)想測試:連接不相關(guān)的詞
遠距離聯(lián)想測試(RAT)是Martha Mednick于1962 年開發(fā)的創(chuàng)造力測試[2]。該測試旨在衡量聚合思維。也就是說,每個問題都有一個“正確”的答案。通常,給定三個看似無關(guān)的詞,受試者必須找到第四個詞來連接這三個詞。例如,單詞“夢(dream)”、“破(break)”和“光(light)”可以通過單詞“白天(day)” 聯(lián)系起來,成為:白日夢(daydream)、破曉(daybreak)、日光(daylight)。
我從Remote Associates Test網(wǎng)站各種單詞的三元組,共有312個問題。每個問題的難度都被按照從非常容易到非常困難的等級進行評分。
對于每個模型和每個單詞的三元組,我都使用了如下提問模板,并將每個模型調(diào)用了5次,以說明其隨機性。其中,提問的具體內(nèi)容為:
給你三個詞。想想與前三個詞中的每一個都以某種方式相關(guān)的第四個詞。請先給出答案:“Answer”,然后解釋你的推理:“Reason”。單詞為:{Word1}、{Word2}、{Word3}
較新的GPT模型在遠程關(guān)聯(lián)上得分更高
我計算了每個GPT模型生成正確答案的總體百分比。如下圖所示,模型越新,其生成的正確答案就越多。
按照問題難度級別細分模型的性能,我們可以看到類似的趨勢:在每個難度級別上,較新的GPT模型都比舊的模型表現(xiàn)得更好。雖然較新的GPT模型在困難問題上的表現(xiàn)優(yōu)于舊模型,但是與較簡單的問題相比,其改進幅度較小。這意味著:即使是GPT-4也難以解決困難的問題。
根據(jù)Remote Associates Test網(wǎng)站的說法,“人類通??梢越鉀Q大部分被標記為簡單的項目,大約一半的中等項目,以及較少的困難項目?!彪m然該網(wǎng)站上沒有給出官方的統(tǒng)計數(shù)據(jù),但是我們一眼就能看出,GPT-4確實解決了大約一半的中等難度和少量的困難。它是唯一一個近似于人類水平的模型。其他GPT模型則比人類表現(xiàn)要差。
一些GPT-2回答正確但GPT-4出現(xiàn)錯誤的例外
雖然這種情況并不經(jīng)常發(fā)生,但是對于如下8個問題,2019年的GPT-2模型反而優(yōu)于2023年的GPT-4模型。
簡單的問題
單詞:cottage(小屋)/brick(積木)/cake(蛋糕)
GPT-2:“cheese(奶酪)”[正確答案]
GPT-4:“l(fā)ayer(層)”
中等問題
單詞:cat(貓)/number(號碼)/phone(電話)
GPT-2:“call(呼叫)”
GPT-4:“dial(撥號)”
困難問題
單詞:through(通過)/disk(盤)/way(路)
GPT-2:“drive(驅(qū)動)”[正確]
GPT-4:“circle(圓)”
非常困難的問題
單詞:land(土地)/hand(手)/house(房子)
GPT-2:“farm(農(nóng)場)”[正確]
GPT-4:“property(財產(chǎn))”
可見,對于所有這些問題,GPT-4的回答都缺乏邏輯性。事實上,在事先不知道正確答案的情況下,您可能會認為GPT-4的答案已經(jīng)將三個詞聯(lián)系起來了。如果你這么想的話,也不算錯。我將在下一節(jié)回答這個問題。
GPT-4到底是錯了,還是跳出圈外思考了?
針對上述GPT-4半數(shù)以上的“錯誤回答”,我查看了它對一些“非常困難”的問題的解釋。
單詞:artist(藝術(shù)家)/hatch(策劃)/route(路線)
正確答案:“escape(逃離)”
GPT-4回答:“map(地圖)”
“藝術(shù)家”一詞可能會讓人想起創(chuàng)造某物的想法,甚至可能是某物的視覺表現(xiàn)。地圖是一種常見的視覺表現(xiàn)形式,需要具有一定程度的藝術(shù)技巧,才能創(chuàng)建。
“策劃”一詞可以指打開某物或使某物存在的行為。地圖是一種藍圖或計劃,通常用于導航新領(lǐng)域或制定行動方案。
“路線”一詞與方向和運動有關(guān),可以在地圖上繪制和跟蹤。地圖可以幫助您確定旅行時的最佳路線,還可以提供有關(guān)其他人過去所走的路線信息。
總而言之,“地圖”似乎是一個與前三個詞都很相配的詞,因為它包含了藝術(shù)創(chuàng)作、策劃、路線、運動、以及導航等思想。
這便是GPT-4為什么認為“地圖”是與“藝術(shù)家/規(guī)劃/路線”相關(guān)聯(lián)的單詞的解釋。我們再來看另一個例子:
單詞:fork(分叉)/dark(黑暗)/man(人)
正確答案:“pitch(投擲)”
GPT-4回答:“shadow(陰影)”
“分叉”這個詞可以與分裂或分支相關(guān)聯(lián),例如道路上的岔路口。陰影也可以看作是一種劃分,因為它們代表沒有光。
“黑暗”一詞是指沒有光。當光線被物體阻擋時會產(chǎn)生陰影,并且通??雌饋肀戎車鷧^(qū)域更暗。
“人”這個詞可以與身份或個性的概念相關(guān)聯(lián)。陰影也可以被用來表示一個人的身份,因為它們可以提供有關(guān)其形狀和大小的線索。
因此,“影子”似乎是一個與前三個詞都很相配的詞,因為它包含了分裂、缺席和同一性的概念。
上述兩個例子充分顯示了遠距離聯(lián)想測試和一般性聚合創(chuàng)造力測試的缺陷,即“正確”的答案可能并不唯一。在此類情況下,GPT-4生成的所謂“錯誤”答案,可能只是因為不符合傳統(tǒng)的“正確”答案的標準而已。
GPT-4回答任意生成的三元組單詞
接著,我構(gòu)建了自己的遠距離聯(lián)想測試,并主觀地評估了其輸出。首先,我列出了10,000個最常見的英語單詞[3](https://github.com/first20hours/google-10000-english),然后我從該列表中隨機地抽取了三個單詞,讓GPT-4提供第四個單詞,以便將這些單詞聯(lián)系在一起。雖然有些三元組非常奇怪、且毫無關(guān)聯(lián),但是GPT-4總能找到一種方法,將它們聯(lián)系在一起。例如:
Health(健康)
單詞:dietary(飲食)/surveillance(監(jiān)管)/born(出生)
答案: Health(健康)
理由:
飲食——一個人的飲食與他們的健康直接相關(guān),因為它會影響到人的整體健康、能量水平和某些疾病的風險。
監(jiān)測——健康監(jiān)測是持續(xù)、系統(tǒng)地收集、分析和解釋對于健康實踐的規(guī)劃、實施和評估至關(guān)重要的數(shù)據(jù)。
出生——當一個人出生時,他們的健康是至關(guān)重要的,因為它會對其發(fā)育、成長和整體生活質(zhì)量產(chǎn)生長期的影響。
我發(fā)現(xiàn)其對于“健康監(jiān)測”的定義,幾乎是從CDC網(wǎng)站上的公共衛(wèi)生監(jiān)測簡介中逐字復制的:公共衛(wèi)生監(jiān)測是“持續(xù)、系統(tǒng)地收集、分析和解釋對公共衛(wèi)生實踐的規(guī)劃、實施和評估至關(guān)重要的健康相關(guān)數(shù)據(jù)?!?/span>
2. 交替使用任務:尋找普通物品的意義
另一個衡量創(chuàng)造力的流行測試是替代使用任務(AUT)。它是由JP Guilford于1967年創(chuàng)建的。與遠程聯(lián)想測試不同,該測試衡量的是發(fā)散思維,即:沒有正確答案。它要求受試者盡可能多地描述日常物品的原始用途。例如:“筆記本電腦”可以用作“盤子”、“身體防護罩”或“壁畫”[4]。對于此類測試的響應是根據(jù)原創(chuàng)性(不同程度的用途)和靈活性(想法的分類)等指標來衡量的。該測試的目的是審查受試者對于一件普通的物品能想到多少種非常規(guī)的用途。
由于我的資源有限,因此我使用了創(chuàng)造力代理。它是由阿姆斯特丹大學的研究人員在將GPT-3的創(chuàng)造力用于(替代用途)測試時使用的。研究人員要求人類和GPT-3 (davinci-002)針對“叉子、錫罐和書”提出替代用例。作為衡量創(chuàng)造力的代理,他們測量了對象與生成的用例之間的語義距離。也就是說,生成的用例詞與原始對象之間的差異有多大。
在此基礎(chǔ)上,我對GPT模型使用了以下提示:
為{物品}想出10種創(chuàng)意用途,這些用途可能會讓人們覺得聰明、不尋常、有趣、幽默、創(chuàng)新或與眾不同。
在自然語言處理中,語義距離(或稱語義相似性)是兩個詞相關(guān)程度的代表。它基于詞語在相似的上下文中被一起使用的頻率。例如,“computer(電腦)”和“screen(屏幕)”這兩個詞可能有更短的語義距離,因為它們經(jīng)常在相同的上下文中使用;而“computer(電腦)”和“lentils(扁豆)”這兩個詞可能有更長的語義距離,因為它們不是經(jīng)常在相同的上下文中使用。
為了計算兩個詞的語義距離,我使用了與研究人員相同的方法--自然語言處理庫Spacy (`en_core_web_lg`,https://spacy.io/models/en) 來計算對象(例如“筆記本電腦”)和用例詞(例如“盤子”)的嵌入關(guān)系。然后,我使用兩個嵌入之間的余弦距離,來計算語義距離。
對于交替使用任務,較長的語義距離與對象的“更有創(chuàng)意性”用例相關(guān)。通常結(jié)果表明,對于上述三個對象--叉子、錫罐和書,人類表現(xiàn)出比GPT-3更高的余弦距離(因此語義差異更高)。然而,在某些情況下,GPT-3.5和/或GPT-4的匹配能夠超過人類創(chuàng)造力語義距離分數(shù)。
雖然人類傾向于提出比GPT-3更具創(chuàng)造性的用例,但是GPT-4更接近于人類的水平。也就是說,GPT-4響應的物品與原始物品的語義距離更長,與人類的表現(xiàn)水平相似。然而,如果沒有真正的人類注釋,以決定更多的主觀類別,例如:原創(chuàng)性、靈活性和實用性,那么這種使用余弦距離的量化將會是非常有限的。畢竟它只能衡量GPT模型各種創(chuàng)造性輸出的一小部分。
人類生成的和AI生成的用例
下面的兩個列表分別是人類生成的錫罐替代用例,以及由GPT-4生成的替代用例。相信您一眼就能區(qū)分開來。
清單 1:錫罐的用途
- 可作為一面鏡子
- 可創(chuàng)造玩具
- 可作為藝術(shù)
- 可作為安迪沃霍爾(著名藝術(shù)家)的提醒
- 可作為帶夾子的鑰匙圈
- 可作為首飾
清單 2:錫罐的用途
- 微型架子鼓
- 古怪的花盆
- 臨時餅干刀
- 自制野營爐
- 異想天開的風鈴
- 微型藥草園
3. 發(fā)散聯(lián)想任務:十個沒有聯(lián)系的詞
第三個創(chuàng)造力測試是發(fā)散關(guān)聯(lián)任務(DAT)。它是最近由一組研究人員于2021年創(chuàng)建的[5]。該測試涉及到盡可能多地列出十個彼此不相干的名詞。顧名思義,此類測試是發(fā)散的,也就是沒有正確的答案。
在線測試網(wǎng)站-- https://www.datcreativity.com/只需幾分鐘,便可列出十個盡可能不相關(guān)的名詞。以下是我從該網(wǎng)站上得到的結(jié)果:
那么,DAT的分數(shù)是如何計算的呢?其過程使用了嵌入和余弦距離等相關(guān)計算。在此,我總結(jié)為[6]:
- 計算每個單詞的GloVe嵌入
- 計算每對詞之間的余弦距離
- 取距離的平均值
這個過程類似于,替代使用任務中用于計算創(chuàng)造力代理分數(shù)的方法。其唯一區(qū)別在于使用到了詞的嵌入模型。
比較不同模型之間的差異
通過參考DAT網(wǎng)站,我向GPT模型提出了如下問題:
請輸入10個盡可能不同的單詞,并包括單詞的所有含義和用法。
規(guī)則:
- 僅英文單詞。
- 僅名詞(例如,事物、對象、概念)。
- 非專有名詞(例如,沒有特定的人或地點)。
- 非專業(yè)詞匯(例如,不包含技術(shù)術(shù)語)。
- 自己想出來的詞(例如,并非周圍常見物體)。
結(jié)果表明,GPT-2生成了一些文不對題的輸出。如下圖所示,每個新模型的DAT分數(shù)都增加了。這意味著,新的模型更擅長生成10個在語義上盡可能不同的單詞。
例如,GPT-3生成了如下列表,其得分為0.36:
黃昏、夜晚、白天、黎明、早晨、下午、傍晚、午夜、暮光
而GPT-4生成了以下列表,其得分為0.95:
大象、顯微鏡、沙堡、星系、和諧、抹刀、冰川、哲學、手鼓、干旱
根據(jù)DAT測試的介紹,測試的平均分數(shù)一般在75-80之間,因此95分已經(jīng)算是非常高了。
在上圖中,我們需要注意的是,GPT-4的誤差線比GPT-3的誤差線要小得多。而在下一個實驗中,這一點變得更加清晰。在該實驗中,我通過調(diào)整“熱度(temperature)”參數(shù),來改變每個GPT模型生成時的隨機性。
熱度是介于0和1之間的值。其中,接近0的值最可預測,而1則是最隨機的。我嘗試了0.5和0.9之間的熱度值,且增量為0.1(在之前的實驗中,我將熱度保持在0.7,這一默認值)。我預計較高的熱度值會有更多的變化,而較低的熱度值會有更多的一致性。
然而,結(jié)果表明,就語義距離方差而言,熱度對模型的影響并不那么重要。例如,對于GPT-3來說,盡管熱度很高,但每個包含10個單詞的列表的DAT分數(shù)差異非常大。然而,對于GPT-4來說,雖然也有一定的熱度,但DAT分數(shù)在一個小范圍內(nèi),保持緊密一致性,幾乎沒有變化。
可見,GPT-4的變化遠小于GPT-3。在某種程度上,我們會覺得GPT-4已經(jīng)“知道”了一個本沒有正確答案的任務的“正確答案”。
匯總所有熱度分數(shù)的響應,我讓每個模型生成了50次包含10個單詞的列表。然后,我查看了在所有50次運行中出現(xiàn)的不同單詞的常見程度。其中,GPT-3最常生成的單詞是書,其出現(xiàn)率為19/50=38%。而GPT-4最常生成的單詞是顯微鏡,其出現(xiàn)率為48/50=96%。
上圖證實了GPT-3實際上在其單詞生成中更具可變性的說法,而GPT-4通過預測許多它知道的、在“不同單詞”任務中得分高的相同單詞(如:顯微鏡、火山、大象和星系等),來保證其輸出的穩(wěn)定性。
同時,該發(fā)現(xiàn)也證明了GPT-4似乎想通過“破解代碼”,來生成它認為多樣化的單詞。如果此猜測屬實的話,我們是否可以認為:GPT-4比它能夠達到“如何在測試中表現(xiàn)等更優(yōu)秀”的所謂局部最優(yōu)(local optima),要更具有創(chuàng)造性呢?
小結(jié)
使用一組有限的、基于文本的測試,去準確地衡量諸如模型的創(chuàng)造力是極具挑戰(zhàn)的。盡管可視化遠距離聯(lián)想測試之類的工具,試圖通過結(jié)合視覺元素來解決該問題,但是此類評估仍然存在著一些固有的局限性。具有“正確答案”的趨同測試(例如遠距離聯(lián)想測試)可能并不總是最正確的解決方案。而沒有特定正確答案的發(fā)散測試(例如發(fā)散關(guān)聯(lián)測試),則需要依賴不完美、且可能包含偏差的單詞嵌入。
此外,GPT模型在上述測試中的表現(xiàn),可能會受到它們在訓練期間所接觸的不同任務的影響,因此也可能導致數(shù)據(jù)的重疊。例如,GPT-4在發(fā)散聯(lián)想測試中表現(xiàn)出的單詞重復,可能暗示著它已事先知道了“正確”答案。而鑒于GPT-4可能正在接受測試數(shù)據(jù)、尤其是編碼任務訓練的傳聞,我們著手開發(fā)替代測試方法就顯得非常有必要了。
盡管有著上述各種缺陷,但是創(chuàng)造力測試仍然可以作為比較和跟蹤大語言模型性能的、有價值的基準。在未來的研究實驗中,我們可以用其他語言去重復本文提到的實驗,以衡量跨語言領(lǐng)域的GPT模型的創(chuàng)造力。據(jù)此,我們也可以更加全面地了解人工智能所生成的內(nèi)容,并進一步探索此類高級語言模型的能力和局限性。
參考
[1] Guilford, J. P. (1967). 人類智慧的本質(zhì)。
[2] Mednick, S. A., & Mednick, M.T. (1959,1962). 遠距離聯(lián)想測試,大學和成人形式。
[3] 最常用的10,000個英語單詞是通過對Google的Trillion Word Corpus的n-gram頻率的分析來確定的。我進一步過濾了這個列表以刪除停用詞(例如英語中的常用詞,如“the”、“and”和“you”)。更多信息請參見https://github.com/first20hours/google-10000-english。
[4] 有一次我把這個放在約會應用程序上,不幸的是沒有人認為它很有趣。
[5] Olson, Jay A.; Nahas, Johnny; Chmoulevitch, Denis; Cropper, Simon J.; Webb, Margaret E. (22 June 2021). “通過命名不相關(guān)的詞來預測創(chuàng)造力”。 美國國家科學院院刊。118 (25): e2022340118. doi:10.1073/pnas.2022340118. PMC 8237676. PMID 34140408
[6] 原作者從10個單詞中抽取了7個子集來計算分數(shù)。我保留了所有10個單詞。此外,作者使用了840B-GloVe嵌入,而我使用較小的6B-GloVe嵌入。通過將自己的GloVe嵌入結(jié)果與官方DAT分數(shù)進行比較,我發(fā)現(xiàn)盡管存在差異,但其結(jié)果仍具有可比性。
譯者介紹
陳峻(Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項目實施經(jīng)驗,善于對內(nèi)外部資源與風險實施管控,專注傳播網(wǎng)絡與信息安全知識與經(jīng)驗。
原文標題:Exploring Creativity in Large Language Models: FromGPT-2toGPT-4,作者:Yennie Jun