Science研究揭GenAI「雙刃劍」:GenAI讓個人創(chuàng)作出彩卻令集體創(chuàng)意趨同
今年2月,日本小說家九段理江使用ChatGPT協(xié)同創(chuàng)作的小說《東京都同情塔》獲得日本的芥川文學(xué)獎。
圖片
她獲獎后坦言,AI是其小說靈感來源,并且5%左右的文字直接取自生成式人工智能,這一言論引發(fā)不小爭議。
一些人對人工智能持歡迎態(tài)度,視之為新的寫作工具;也有人心存疑慮,擔(dān)心它影響作者創(chuàng)造力。
創(chuàng)造力是技術(shù)創(chuàng)新的驅(qū)動力,也是人類通過文學(xué)、藝術(shù)和音樂進行表達的基礎(chǔ)。
然而,生成式人工智能技術(shù)的出現(xiàn),正在挑戰(zhàn)人類創(chuàng)意生產(chǎn)的獨特性和優(yōu)越性。
雖然AI已被證明可以提高工作生產(chǎn)質(zhì)量和效率、加快編程任務(wù)等,但人們對生成式人工智能對人類基本行為的潛在影響知之甚少,比如人類的創(chuàng)造能力。
AI介入創(chuàng)造力領(lǐng)域是促進了創(chuàng)意迸發(fā)還是導(dǎo)致思維惰性?與AI同行的時代,人類的舞臺是更廣闊了,還是不得不與其分席而坐,劃疆而治?
最近,UCL和??巳卮髮W(xué)的兩位學(xué)者在Science上發(fā)表了一項研究成果,或許能給這一話題帶來啟示。
圖片
論文地址:https://www.science.org/doi/10.1126/sciadv.adn5290
實驗過程:與GPT共譜八行小說
這項研究主要關(guān)注OpenAI的GPT模型對受試者生成原創(chuàng)性和創(chuàng)造性寫作內(nèi)容能力的影響。
500名參與者在不同的人工智能生成創(chuàng)意的幫助下,讓他們就隨機分配的主題撰寫大約8行的故事,并對故事的目標受眾進行了說明。
實驗發(fā)現(xiàn),獲得AI想法會使故事更有創(chuàng)造力、寫得更好、更具可讀性。
然而,與人類單獨創(chuàng)作的故事相比,由AI生成的故事之間的相似度更高。
這些結(jié)果表明,在提高個人創(chuàng)造力的同時,人類集體中創(chuàng)作的新穎性也有可能喪失。
評估維度
創(chuàng)造力通常從兩個維度進行評估:新穎性和實用性。
新穎性評估的是一個作品構(gòu)思或者選材的新鮮罕見,超出常規(guī)。
在研究中,根據(jù)以往的文獻,新穎性指數(shù)反映了故事的新穎性、原創(chuàng)性和稀有性。
實用性反映了一個創(chuàng)意的可用性和相關(guān)性,我們可以將其理解為,這個短篇故事經(jīng)過進一步發(fā)展后,成為出版產(chǎn)品的可能性。
因此,研究對實用性指數(shù)進行劃定,以反映故事對目標受眾的適宜性、發(fā)展成一整本書的可行性以及出版商出版該書的可能性。
在這種情況下,AI至少會從兩個方面影響創(chuàng)意寫作。
一方面,人工智能生成的創(chuàng)意可以作為人類思維的「跳板」,提供思維起點,幫助作家克服拿到選題頭腦一片空白的情況。
如果是這樣的話,AI能促進寫作效率并且能為作家?guī)砀邉?chuàng)造性的寫作成果。
另一方面,人工智能也可能會阻礙創(chuàng)作。
一開始就將作者思維束縛在在一個特定的想法上,影響了思維的發(fā)散。
此外,AI提供的輸出可能基于大數(shù)據(jù)的衍生物,因此無法為新的創(chuàng)造性想法提供肥沃的土壤。
如果是這種情況,實驗預(yù)計AI會導(dǎo)致更多雷同的故事。
實驗設(shè)計
實驗主要分為兩個階段:寫作內(nèi)容和評估結(jié)果。
研究的第一階段招募了293名參與者,要求他們寫一個適合青少年讀者的8句話短篇故事。
參與者被隨機分配到三種條件之一:只有人類寫作、人類與一個GenAI以及人類與五個GenAI。
圖片
實驗設(shè)計示意圖
第一組寫作者被分配了任務(wù),沒有提及或接觸到生成式人工智能。
第二組中的寫作者可以選擇調(diào)用GPT-4來提供三句話的起始構(gòu)思,以激發(fā)他們的故事寫作靈感。
第三組作家可以選擇接受最多5個GenAI想法,每個想法都可能為他們的故事提供不同的靈感。
在完成故事后,作者需要對故事的新穎性、實用性和一些情感特征進行自我評價。
在第二階段,由600名參與者組成的另一個小組對作者創(chuàng)作的故事進行評估。
實驗總共收集了293個故事,然后交給評估人員。
每名評估者隨機閱讀了6個故事,但并不知曉這些故事是否有AI參與寫作。
所有故事均由多名評估者對其新穎性、實用性和情感特征進行評估,這些構(gòu)成了主要研究問題的關(guān)鍵結(jié)果變量。
其次,評估者被要求評估故事由人工智能編寫的可能性有多大。
最后,評估者會被告知作者是否使用AI創(chuàng)作,然后就每個故事的作者的所有權(quán)做出回答。
實驗還就以下問題征求了評估者的一般意見——
創(chuàng)作過程中使用人工智能在多大程度上符合道德規(guī)范?人工智能創(chuàng)作者與人類創(chuàng)作者之間應(yīng)如何分享故事所有權(quán)和假設(shè)利潤?
實驗結(jié)果
實驗設(shè)置了兩組對照組,有純?nèi)祟惻c人類加GenAI的對照組,也有不同數(shù)量GenAI的對照組。
實驗發(fā)現(xiàn),人工智能生成輔助工具可以提高故事的新穎性和實用性。
為了更好地理解更多的人工智能生成想法如何影響創(chuàng)造力的提高,第二組對照組就清晰的討論了這一問題。
第二組中,88.4%的參與者選擇至少一次調(diào)用生成式人工智能來提供最初的故事創(chuàng)意。
在1個GenAI創(chuàng)意的條件下,100位作者中有82位選擇了生成一個創(chuàng)意。
而5個GenAI創(chuàng)意的條件下,98位作者中93位選擇了生成一個創(chuàng)意。當參與者選擇可以不止一次調(diào)用人工智能生成器時,他們平均調(diào)用了2.55次,其中24.5%的人最多調(diào)用了5次。
實驗結(jié)果顯示,獲得1個AI想法會在一定程度上提高創(chuàng)造力,但獲得5個AI想法的作家的創(chuàng)造力提高幅度最大。
在新穎性方面,在1個GenAI創(chuàng)意的條件下,新穎性比沒有獲得AI輔助的作家提高了5.4% ,而在5個GenAI創(chuàng)意的條件下,新穎性比沒有獲得AI輔助的作家提高了8.1% 。
第三方評估者對創(chuàng)造力和情感特征的評估
另一個評估維度實用性的結(jié)果更為顯著。獲得1個GenAI創(chuàng)意的作家的故事有用性比沒有AI輔助的作家高出3.7%。
與沒有AI輔助的作家相比,獲得最多5個GenAI的作家的有用性提高了9.0% ,與獲得獲得1個GenAI創(chuàng)意的作家相比,有用性提高了5.1%。
總體結(jié)果表明,獲得更多的人工智能輔助會帶來更有創(chuàng)意的故事。
結(jié)果分析1:情感特征
接下來,實驗將衡量評價者對故事的情感偏好,包括故事的寫作水平、令人愉快的程度、有趣程度、無聊程度以及故事情節(jié)曲折的程度。
研究人員還詢問評價者,讀完后是否有「求更新」的心理,即根據(jù)文學(xué)理論家Robert Jauss的概念,更新穎的文學(xué)作品會激發(fā)讀者對后續(xù)故事的期待。
圖片
實驗發(fā)現(xiàn),能夠獲得AI想法的作家所寫的故事更令人愉快,而且更有可能出現(xiàn)情節(jié)轉(zhuǎn)折。
結(jié)果分析2:故事相似度
到目前為止,實驗關(guān)注的是第三方讀者的主觀評價,現(xiàn)在我們轉(zhuǎn)向?qū)适聝?nèi)容進行更客觀的衡量。
使用OpenAI提供的模型API獲得的文本變慢,研究人員計算了當前故事與條件內(nèi)所有其他故事的余弦相似度。
將余弦相似度分數(shù)乘以100,得到一個范圍從0到100的指數(shù),能夠反映兩個故事的語義相似度。
圖片
結(jié)果表明,獲得生成式AI的想法可以使當前的創(chuàng)作與相同條件下其他故事的平均值更加相似。
為了理解為什么受到AI啟發(fā)的故事看起來更加相似,實驗將故事文本編碼的余弦相似度與GenAI提出想法的余弦相似度進行比較。
具有1種GenAI想法和具有5種GenAI想法的作者,撰寫故事的相似度分別為 5.2%和5.0% , 分別與GenAI的想法更相似。
簡而言之,兩種有GenAI幫助的作家在某種程度上都依賴于AI輔助給他們的創(chuàng)意。
實驗啟示和反思
首先,使用AI可以有效提高讀者對故事的評價,因此特別有利于寫作能力較差的作家。
這也與最近其他領(lǐng)域的研究結(jié)論一致。其他領(lǐng)域的研究者也發(fā)現(xiàn),GenAI可以幫助生產(chǎn)力較低的工人。
其次,人們可能會問,AI的輔助是否可以幫助人類突破創(chuàng)造力上限,讓作家們達到原本無法攀登的高度?
遺憾的是,本研究并沒有找到能支持這種可能性的證據(jù)。
最后,評估人員們對AI輔助創(chuàng)作的相關(guān)道德、理念問題究竟持何種觀點?
收益方面,評估人員認為,作家如果使用了AI的創(chuàng)意理念,應(yīng)該至少將作品收入的25%分給GPT。
大多數(shù)評估人員還表示,如果作者使用了AI進行輔助寫作,應(yīng)該尊重讀者的知情權(quán),主動披露相關(guān)內(nèi)容。
但總體而言,大多數(shù)評估人員認為使用人工智能撰寫故事是合乎道德的,即使借用了創(chuàng)意和文字,這種寫作依舊屬于「創(chuàng)造性行為」。
這些結(jié)果表明,人們支持在創(chuàng)意作品中使用AI作為輔助工具提供創(chuàng)意,但對所有權(quán)有限制,并要求披露使用情況。
整體研究也存在著一些局限性。例如,寫作任務(wù)的長度不足(即八個句子)、媒介(即寫作)和輸出類型(即短篇小說)受到限制,并且與LLM沒有交互性。
這些研究方法不足也讓我們無法得出更加具有普遍意義的結(jié)論,相關(guān)結(jié)果可能無法推廣到其他創(chuàng)作領(lǐng)域。
比如,不同媒體(例如圖像或音樂)中AI想法可能會以不同的方式融入其中,從而產(chǎn)生不同的效果。
此外,未來更加專業(yè)細化的實驗可以要求參與者通過與AI交互來解決特定問題,例如為特定市場或目標受眾提出新穎實用的產(chǎn)品創(chuàng)意。
總之,以上實驗已足夠得出結(jié)論:雖然結(jié)果表明個人創(chuàng)造力有所提高,但存在失去集體新穎性的風(fēng)險。
一個有趣的問題是,如果出版行業(yè)接受更多受GenAI啟發(fā)的作品,根據(jù)這份研究結(jié)果,所創(chuàng)作的故事在總體上將變得不那么獨特,彼此之間將變得更加相似。
這也會產(chǎn)生新的惡性循環(huán):如果個別作家發(fā)現(xiàn)受AI啟發(fā)后的作品被評價為更有創(chuàng)意,他們就會有動力在未來更多地使用人工智能,但這樣做可能會進一步降低作家們的集體創(chuàng)新性。
簡而言之,盡管AI對個人創(chuàng)造力有增強作用,但如果AI被更廣泛地用于創(chuàng)造性任務(wù),對于集體創(chuàng)作來講不一定是好事。