AI比人類更會(huì)玩梗!模因圖靈測(cè)試已被攻破,研究發(fā)現(xiàn)LLM表情包更搞笑
AI似乎比人類更懂得「如何幽默」,模因(Meme)圖靈測(cè)試已經(jīng)被LLM通過(guò)!
來(lái)自慕尼黑和瑞典的研究者發(fā)現(xiàn):LLM能夠生成「被人類評(píng)判為」比普通人創(chuàng)作的模因更搞笑的作品!
論文鏈接:https://arxiv.org/abs/2501.11433
研究者在圖中展示了「模因(Meme)梗圖」的效果,從幽默性(Humor)、創(chuàng)意性(Creativity)和分享性(Shareability)三個(gè)方面進(jìn)行比賽。
有趣的是,完全由AI創(chuàng)作的梗圖在所有領(lǐng)域的平均表現(xiàn)都優(yōu)于僅由人類或人類-AI協(xié)作創(chuàng)作的梗。
這似乎表明AI已經(jīng)通過(guò)了模因圖靈測(cè)試。
幽默的復(fù)雜性:AI真的可以理解人類的幽默嗎?
「模因Meme」一詞最早可以追溯到Richard Dawkin在1976年出版的《自私的基因》,隨之演化成為媒介傳播過(guò)程中網(wǎng)絡(luò)梗圖、搞笑段落和幽默視頻的代名詞。
模因的獨(dú)特特征,包括其視覺和文本性質(zhì)、對(duì)文化背景的依賴以及通常簡(jiǎn)潔而有力的幽默表達(dá),給生成式AI帶來(lái)了與「純文本笑話」生成不同的獨(dú)特挑戰(zhàn)。
這項(xiàng)研究的核心目的,是探究LLM和人類在創(chuàng)作梗圖時(shí)的協(xié)同創(chuàng)造力。
為啥選梗圖呢?因?yàn)楣D把視覺和文字巧妙融合,既依賴文化背景,又充滿創(chuàng)意和幽默,特別適合用來(lái)研究人類和AI在創(chuàng)作上的互動(dòng)。
Gemini根據(jù)論文生成的梗圖
網(wǎng)絡(luò)流行的德雷克拒絕/接受梗被AI理解
人類之間的合作,一直被認(rèn)為能激發(fā)創(chuàng)造力。大家一起頭腦風(fēng)暴,不同的觀點(diǎn)相互碰撞,往往能誕生出更棒的創(chuàng)意。
對(duì)于如何評(píng)估梗圖這種創(chuàng)意作品,一般會(huì)從創(chuàng)造力、幽默感和分享度這幾個(gè)方面入手。
梗圖創(chuàng)作大PK
研究團(tuán)隊(duì)精心設(shè)計(jì)了一項(xiàng)用戶研究,把參與者分成了三組。
第一組是純?nèi)祟惤M,他們?cè)跊]有任何AI幫助的情況下創(chuàng)作梗圖;第二組是人類-AI協(xié)作組,參與者可以和LLM互動(dòng),借助它的力量來(lái)生成想法;第三組是AI組,梗圖完全由模型自主生成。
具體的創(chuàng)作任務(wù)分為三個(gè)步驟。
首先是創(chuàng)意生成,研究人員會(huì)給他們展示一張流行梗圖的背景圖片,然后讓他們圍繞工作、食物、運(yùn)動(dòng)這三個(gè)主題里的一個(gè),在五分鐘內(nèi)盡可能多地想出梗圖的文字說(shuō)明。
對(duì)于人類-AI協(xié)作組,參與者還能通過(guò)聊天界面向LLM尋求幫助。
接著是收藏選擇,參與者要從自己想出的所有想法里,挑出最喜歡的三個(gè)。
最后是圖片創(chuàng)作階段,他們把選好的想法添加到梗圖模板上,還能對(duì)文字的位置、大小進(jìn)行調(diào)整。
創(chuàng)作的時(shí)候,每位參與者要根據(jù)不同的圖片和主題組合,完成三個(gè)梗圖的創(chuàng)作,整個(gè)過(guò)程大概40分鐘,完成后還能得到15美元的報(bào)酬。
之后,研究人員從人類組和協(xié)作組生成的梗圖里,分別隨機(jī)挑選150張,再讓LLM針對(duì)同樣的圖片和主題,生成150張AI創(chuàng)作的梗圖。
然后,找了另一組新的參與者,讓他們從幽默、創(chuàng)意、分享度這三個(gè)方面,對(duì)這些梗圖進(jìn)行打分評(píng)估。
為了讓LLM在研究里發(fā)揮作用,研究人員給它設(shè)定了不同的任務(wù)。
在人類-AI協(xié)作組的創(chuàng)意生成階段,LLM就像個(gè)「創(chuàng)意助手」,參與者可以自由地向它提問。
為了讓LLM給出更符合要求的回答,研究人員給它設(shè)置了系統(tǒng)提示,告訴它要幫助用戶生成梗圖創(chuàng)意,交互語(yǔ)氣要友好禮貌,一次最多給出三個(gè)想法。
在生成純AI梗圖的時(shí)候,研究人員會(huì)把圖片信息發(fā)給LLM,讓它針對(duì)每個(gè)圖片-主題組合生成20個(gè)梗圖文字說(shuō)明。
研究的用戶界面是用React搭建的,數(shù)據(jù)收集和與OpenAI的GPT-4o API的交互通過(guò)NodeJS服務(wù)器,保證了數(shù)據(jù)的準(zhǔn)確性和完整性。
梗圖創(chuàng)作和評(píng)估都是在線上完成的,創(chuàng)作階段用專門搭建的梗圖創(chuàng)作界面,評(píng)估階段則借助商業(yè)調(diào)查平臺(tái)。
梗圖創(chuàng)作階段,研究人員通過(guò)線上平臺(tái)Prolific招募了124人,其中26人沒完成任務(wù)。
最后的參與者來(lái)自30個(gè)不同的國(guó)家,英語(yǔ)水平都不錯(cuò),而且之前至少用過(guò)一次LLM的界面。其中63人是男性,35人是女性,平均年齡28.8歲。
在梗圖評(píng)估階段,又招募了100人,同樣要求英語(yǔ)好,但不要求有使用LLM的經(jīng)驗(yàn)。最后有98人完成了任務(wù),這組人男女比例差不多,平均年齡32.6歲,來(lái)自29個(gè)不同國(guó)家。
研究結(jié)果
現(xiàn)在,激動(dòng)人心的研究結(jié)果來(lái)啦!
先看看梗圖創(chuàng)作階段,在創(chuàng)意生成方面,使用LLM的參與者明顯比純?nèi)祟惤M想出了更多的創(chuàng)意。純?nèi)祟惤M平均每人想出6.1個(gè)創(chuàng)意,而有LLM幫助的參與者在這方面優(yōu)勢(shì)明顯。
在LLM的幫助下,參與者生成了更多創(chuàng)意,而且他們并不覺得創(chuàng)作過(guò)程更累。
從NASA-TLX的評(píng)估數(shù)據(jù)可以看到,兩組在整體工作量上沒有太大差別,只是在「努力程度」這一項(xiàng)上,AI協(xié)作組的參與者打分更低。
LLM確實(shí)能提高創(chuàng)作效率,讓人們?cè)趧?chuàng)作梗圖時(shí)更輕松地產(chǎn)生更多創(chuàng)意,但它可能會(huì)讓創(chuàng)作者對(duì)作品的「主人翁」 感覺變?nèi)酢?/span>
LLM主要在創(chuàng)意生成階段發(fā)揮作用,而后續(xù)的篩選和圖片制作環(huán)節(jié)還是靠參與者自己完成。
梗圖評(píng)分
從梗圖的評(píng)分結(jié)果來(lái)看,人機(jī)協(xié)作組雖然在創(chuàng)意數(shù)量上占優(yōu),但在質(zhì)量上并沒有比純?nèi)祟悇?chuàng)作的梗圖更好。
在幽默程度、創(chuàng)造力和分享度這三個(gè)維度上,兩組的評(píng)分沒有顯著差異。這說(shuō)明在梗圖創(chuàng)作中,單純?cè)黾訑?shù)量,并不一定能提升作品的質(zhì)量。
讓人意外的是,純AI生成的梗圖在幽默、創(chuàng)意和分享度這三個(gè)方面的整體評(píng)分都比人類組和人類-AI協(xié)作組要高。
這是因?yàn)長(zhǎng)LM在訓(xùn)練過(guò)程中,接觸了大量的素材,能夠精準(zhǔn)地把握大眾的喜好。
但當(dāng)我們把目光聚焦在那些表現(xiàn)最出色的梗圖時(shí),在最有趣的梗圖中,大部分是由人類創(chuàng)作的;而在創(chuàng)造力和分享度方面表現(xiàn)突出的梗圖里,人機(jī)協(xié)作的成果占了不少。
這充分體現(xiàn)了人類的創(chuàng)造力在某些方面是無(wú)可替代的。人類能夠?qū)€(gè)人獨(dú)特的經(jīng)歷、豐富的文化內(nèi)涵融入作品。
LLM在梗圖創(chuàng)作中的優(yōu)勢(shì)顯而易見。它就像一個(gè)不知疲倦的創(chuàng)意助手,能在短時(shí)間內(nèi)提供大量的創(chuàng)意,幫助創(chuàng)作者突破思維局限,提高創(chuàng)作效率。
而且,憑借其對(duì)海量數(shù)據(jù)的學(xué)習(xí)能力,它能精準(zhǔn)地抓住大眾的幽默喜好,創(chuàng)作出有吸引力的內(nèi)容。
但它也并非完美無(wú)缺。LLM生成的內(nèi)容往往缺乏獨(dú)特的個(gè)性和深度,可能無(wú)法真正理解某些特定文化背景下的微妙幽默。
人類的創(chuàng)造力是梗圖創(chuàng)作中不可或缺的關(guān)鍵因素。
例如,在創(chuàng)作一個(gè)關(guān)于職場(chǎng)的梗圖時(shí),人類創(chuàng)作者可以結(jié)合自己在職場(chǎng)中的真實(shí)故事和感受,對(duì)LLM生成的創(chuàng)意進(jìn)行調(diào)整,讓梗圖更具感染力和真實(shí)感。