AI 創(chuàng)意大比拼!華盛頓大學(xué)和艾倫人工智能研究所聯(lián)手,用幽默風(fēng)趣的方式,揭示了 AI 創(chuàng)意背后的真相 原創(chuàng)
你是否曾為 ChatGPT 生成的那首“驚艷”詩歌而贊嘆不已?又或是被 GPT-4 編寫的“神級”劇本所折服?然而,華盛頓大學(xué)和艾倫人工智能研究所的最新研究卻給我們潑了一盆冷水——AI 的“創(chuàng)意”,其實不過是“拼湊大師”罷了!
研究人員們開發(fā)了一套名為“創(chuàng)意指數(shù)”(CREATIVITY INDEX)的評估體系,通過分析文本中與網(wǎng)絡(luò)文本的相似度,來衡量 AI 的“創(chuàng)意”程度。結(jié)果令人驚訝——專業(yè)人類作者的“創(chuàng)意指數(shù)”平均比 AI 高出 66.2%!這簡直就像是一場“拼圖大賽”,人類作者用獨特的視角和豐富的想象力,拼出了一個個精彩絕倫的作品,而 AI 則不過是“撿起”了網(wǎng)絡(luò)上的碎片,拼湊出了“新”的“作品”而已。
別急,這可不是什么“黑科技”,而是基于嚴(yán)謹(jǐn)?shù)乃惴ê秃A繑?shù)據(jù)得出的結(jié)論。研究人員們還開發(fā)了一套名為“DJ 搜索”(DJ SEARCH)的算法,能夠快速找出文本中與網(wǎng)絡(luò)文本的相似度,為“創(chuàng)意指數(shù)”的計算提供了有力保障。
這項研究不僅揭示了 AI 創(chuàng)意的真相,還為我們在數(shù)字時代如何更好地使用 AI 提供了新的思路。畢竟,與其讓 AI 做一個“拼圖大師”,不如讓它成為一個“創(chuàng)意助手”,為人類的創(chuàng)造力插上翅膀!??????
圖1:(a)DJ SEARCH的示例輸出。讓ChatGPT依據(jù)米歇爾·伊拉姆(Michele Elam)教授的論文《詩歌不會優(yōu)化;抑或,文學(xué)之于人工智能意味著什么?》(伊拉姆,2023年)的標(biāo)題來生成一篇摘要。與伊拉姆教授撰寫的原始摘要相比,ChatGPT生成的摘要與網(wǎng)絡(luò)上現(xiàn)有文本逐字匹配以及近乎逐字匹配的情況要多得多。(b)創(chuàng)造力指數(shù)的定義。創(chuàng)造力指數(shù)在數(shù)學(xué)上等同于在一系列最小n元語法長度L范圍內(nèi),L-獨特性曲線下方的面積。在所有領(lǐng)域中,在不同的語境粒度(即n元語法長度)下,ChatGPT的L-獨特性明顯低于熟練的人類作者,這使得人類作者相較于ChatGPT而言,其創(chuàng)造力指數(shù)要高得多。
方法
CREATIVITY INDEX
CREATIVITY INDEX 的核心思想是通過估計給定文本中有多少可以通過混合和匹配來自網(wǎng)絡(luò)的大量現(xiàn)有文本片段來重建,從而量化該文本的語言創(chuàng)造力。具體來說,CREATIVITY INDEX 評估文本內(nèi)容在多大程度上可以追溯到在其他現(xiàn)有文本中找到的類似或相同的上下文。
具體步驟:
- 定義文本: 將文本 x 定義為我們想要量化創(chuàng)造力的文本,例如演講記錄或詩歌,可以是人工書寫或機器生成的。
- 定義 n-gram: n-gram 是 x 中任何連續(xù)的 n 個單詞序列,其中 x_i:i+n 是 x 中以第 i 個單詞開始的 n-gram。
- 定義參考語料庫: C 是包含公開可訪問文本的巨大參考語料庫,f 是一個二元函數(shù),它確定 n-gram x_i:i+n 是否出現(xiàn)在語料庫 C 中。
- 定義 L-uniqueness: L-uniqueness 是文本 X 中不包含在語料庫 C 中的 n-gram 的比例,這些 n-gram 包含 w。即 uniq(x, L) = 1 - sum(1 / |x| * 1{f(x_i:i+n, C) = 0 for all i in (k-n, k], n >= L)}).
- 定義 CREATIVITY INDEX: CREATIVITY INDEX 是 L-uniqueness 在各種上下文粒度(即 n-gram 長度)上的積分,即 sumuniq(x, n)。
特殊情況:
- 如果文本 X 是參考語料庫 C 的一部分,其 CREATIVITY INDEX 將簡單地變?yōu)榱?。為了解決這個問題,對于在參考語料庫截止日期之前撰寫的人工文本,我們排除了包含 X 的副本、引述或引用的任何文檔 d∈C,并使用此過濾語料庫計算 CREATIVITY INDEX。
DJ SEARCH
為了高效地計算 CREATIVITY INDEX,我們引入了 DJ SEARCH,這是一種動態(tài)規(guī)劃算法,用于快速識別語料庫 C 中所有 x 的 n-gram(n >= L)。
具體步驟:
- 兩指針方法: 使用兩指針方法來迭代地搜索每個索引 i 處的最長 n-gram,它以 i 開始并出現(xiàn)在 C 中。
- 計算 f: f 可以通過計算 n-gram 之間的 WMD 來確定,其中 WMD 結(jié)合了每個 n-gram 之間的單詞嵌入距離。
- 優(yōu)化: 為了進一步優(yōu)化效率,我們僅對與 X 最相似的 C 中的文本計算 WMD,并使用 Infinigram 來查找 C 中 X_i:i+n 的精確匹配。
實驗
本研究通過多項實驗評估了人類文本與大型語言模型(LLMs)文本的創(chuàng)造力差異,并探討了不同因素的影響。
圖2: a - c:僅基于逐字匹配得出的小說創(chuàng)作(a)、詩歌創(chuàng)作(b)以及演講稿撰寫(c)中的創(chuàng)造力指數(shù)。 d:同時考慮逐字匹配和語義匹配的小說創(chuàng)作中的創(chuàng)造力指數(shù)。 e:針對人類和OLMo(語言模型),在小說創(chuàng)作中相對于最小n元語法長度L的L-獨特性。 f - g:在小說創(chuàng)作中,經(jīng)過人類反饋強化學(xué)習(xí)(RLHF)前后大型語言模型(LLMs)的創(chuàng)造力指數(shù),其中(f)僅基于逐字匹配,(g)基于逐字匹配和語義匹配。 h:在小說創(chuàng)作中,相對于參考語料庫中文檔數(shù)量的L-獨特性。 i:在小說創(chuàng)作中對排名前50的文檔進行檢索時的L-獨特性。 j:在小說創(chuàng)作中使L-獨特性保持在50%以下所需的參考文檔數(shù)量。 k - l:在小說創(chuàng)作中,基于逐字匹配,將GPT - 4與人類的創(chuàng)造力指數(shù)進行對比,使用了源自杰瑪 - 7B、羊駝3 - 8B以及混合專家 - 7B的指令對齊版本以及這三者組合生成的機器生成參考語料庫。 m:不同人類作者群體的創(chuàng)造力指數(shù)。 n:跨多個領(lǐng)域的檢測曲線下面積(AUROC):所提方法為零樣本檢測設(shè)定了新的最先進水平,甚至超過了有監(jiān)督的基準(zhǔn)。
人類文本與LLMs文本的創(chuàng)造力對比
實驗方法:
- 收集人類文本數(shù)據(jù):包括BookMIA數(shù)據(jù)集中的書籍片段、PoemHunter.com收集的現(xiàn)代詩歌以及美國演說數(shù)據(jù)庫中的著名演講。
- 收集LLMs文本數(shù)據(jù):通過提示LLMs生成小說、詩歌和演講文本。
- 使用創(chuàng)造力指數(shù)(CREATIVITY INDEX)評估文本創(chuàng)造力。
實驗結(jié)果:
- 人類文本的創(chuàng)造力指數(shù)平均比LLMs文本高52.2%。
- 在小說創(chuàng)作、詩歌創(chuàng)作和演講起草任務(wù)中,人類文本的創(chuàng)造力指數(shù)均顯著高于LLMs文本。
不同匹配標(biāo)準(zhǔn)對創(chuàng)造力測量的影響
實驗方法:
- 分別使用僅考慮字面匹配和同時考慮字面匹配和語義匹配兩種標(biāo)準(zhǔn)評估創(chuàng)造力指數(shù)。
實驗結(jié)果:
- 同時考慮字面匹配和語義匹配時,人類文本與LLMs文本的創(chuàng)造力差距更大。
- 語義匹配可以提供更多關(guān)于長n-gram獨特性的信號。
RLHF對模型創(chuàng)造力的影響
實驗方法:
- 比較LLMs在RLHF對齊前后的創(chuàng)造力指數(shù)。
實驗結(jié)果:
- RLHF顯著降低了LLMs的創(chuàng)造力指數(shù),平均降低了30.1%。
圖4: a - c:ChatGPT在小說創(chuàng)作中基于逐字匹配的創(chuàng)造力指數(shù),分別展示了不同的提示格式(a)、top-p解碼中的p值(b)以及提示長度(c)情況。 d:不同模型尺寸的LLaMA 2 Chat和Tulu 2的創(chuàng)造力指數(shù)。
參考語料庫中重疊n-gram的分布
實驗方法:
- 分析LLMs和人類文本中匹配的n-gram在參考語料庫中的分布情況。
實驗結(jié)果:
- 與人類文本相比,LLMs文本中匹配的n-gram更集中在少數(shù)文檔中。
LLMs在參考語料庫之外的數(shù)據(jù)上的創(chuàng)造力測量
實驗方法:
- 使用與GPT-4訓(xùn)練數(shù)據(jù)相似的開源LLMs生成的參考語料庫評估GPT-4的創(chuàng)造力。
實驗結(jié)果:
- 人類文本的創(chuàng)造力指數(shù)平均比GPT-4高30.3%。
不同群體人類文本的創(chuàng)造力差異
實驗方法:
- 比較經(jīng)典文學(xué)、2023年出版的書籍和流行青少年小說的創(chuàng)造力指數(shù)。
實驗結(jié)果:
- 經(jīng)典文學(xué)的創(chuàng)造力指數(shù)高于其他兩類文本。
利用創(chuàng)造力差異進行機器文本檢測
實驗方法:
- 使用創(chuàng)造力指數(shù)作為零樣本黑盒機器文本檢測的依據(jù)。
實驗結(jié)果:
- 該方法在零樣本檢測中取得了最先進的性能,超越了DetectGPT和OpenAI的檢測器,并優(yōu)于Ghostbuster等監(jiān)督學(xué)習(xí)方法。
結(jié)論與展望
想象一下,如果你能穿越回那個沒有手機、電腦,甚至連電燈都還沒普及的年代,你會看到什么樣的景象呢?或許,你會看到一個充滿想象力和創(chuàng)造力的世界,人們用筆墨在紙上書寫著一個個動人的故事,用琴弦在空氣中彈奏出美妙的旋律。而現(xiàn)在,AI 大語言模型(LLM)的出現(xiàn),似乎正在重新點燃這個世界的創(chuàng)造力火花。
研究表明,LLM 的“創(chuàng)造力”其實很大程度上來源于網(wǎng)絡(luò)上的現(xiàn)有文本片段。換句話說,LLM 就像是那個時代的一位DJ,將現(xiàn)有的音樂碎片重新組合,創(chuàng)造出新的旋律。而真正的“作曲家”們,則像海明威那樣,用他們獨特的視角和深刻的思想,創(chuàng)作出獨一無二的作品。
雖然LLM在“創(chuàng)作”方面展現(xiàn)出了驚人的能力,但它們?nèi)匀粺o法完全取代人類的創(chuàng)造力。畢竟,人類的創(chuàng)造力不僅僅來源于對現(xiàn)有知識的積累,更來自于對世界的獨特理解和感悟。
未來,隨著AI技術(shù)的不斷發(fā)展,我們可以期待LLM在更多領(lǐng)域發(fā)揮其“創(chuàng)造力”的作用。但與此同時,我們也要保持清醒的頭腦,認(rèn)識到人類在創(chuàng)造力方面的獨特價值。
本文轉(zhuǎn)載自公眾號AIGC最前線 作者:實習(xí)小畢
