CVPR'24| 中大哈佛等提出creative Leap-of-thought探究大模型幽默創(chuàng)新力
導(dǎo)讀:
多模態(tài)大模型具備創(chuàng)造的潛力嗎?能力如何?本文從大模型創(chuàng)造力測評與增強等方面進(jìn)行了探索,從幽默創(chuàng)新響應(yīng)的角度,揭示了大模型在創(chuàng)新任務(wù)上的潛力和不足。目前該成果被計算機視覺頂級會議CVPR 2024錄用。
論文:https://arxiv.org/abs/2312.02439
Project: https://zhongshsh.github.io/CLoT/
Code: https://github.com/sail-sg/CLoT
為了探索多模態(tài)大模型的創(chuàng)造力,中山大學(xué)HCP實驗室林倞教授團(tuán)隊聯(lián)同Sea AI Lab、哈佛大學(xué)的研究人員從日本傳統(tǒng)的創(chuàng)新幽默游戲“大喜利”(Oogiri)切入,探索目前多模態(tài)大模型在創(chuàng)新響應(yīng)上的現(xiàn)狀。并提出了讓多模態(tài)大模型打破常規(guī)思維思考(Think Outside the Box)的訓(xùn)練方法 Creative Leap-of-Thought (CLoT)。
什么是“大喜利”創(chuàng)新響應(yīng)游戲?
“大喜利”本來是指一系列日本傳統(tǒng)戲劇游戲,隨著時代的快速發(fā)展?,F(xiàn)代的“大喜利”,目前一般是指一種叫Tonchi (頓智)的游戲,通常以游戲節(jié)目或智力問答節(jié)目的形式呈現(xiàn),可以參考B站的日本著名節(jié)目IPPON大獎賽 (視頻鏈接)。玩家被提供各種多模態(tài)內(nèi)容,可以是簡單的問題、隨機圖像等,然后提示玩家想出幽默的、有創(chuàng)意的反應(yīng),以達(dá)到令人驚訝的喜劇效果,如下圖所示的例子。
(例子1) 在第一個“圖文到文”的例子中,玩家要求閱讀圖像,和上面對應(yīng)的文字,嘗試想出一段文字填入對應(yīng)的“問號?"位置,使得整個圖文可以展示出幽默且有創(chuàng)意的效果。在第一個例子中,老人向年輕人尋求幫助,從正常的思維來看,可能的填寫方式可以是“請問xxx路怎么走?”或者是"可以帶我回家嗎,我迷路了"之類的┓( ′?` )┏。然而,所給出的“你...你能幫我解開手銬嗎?”的寫法具有沖擊感、幽默感,且看起來確實是這么一回事,使人忍俊不禁。
(例子2) 在第二個“圖到文”的例子中,玩家要求看圖配文,并使得圖文搭配起來具有幽默效果。這張圖看起來是一個很普通的拖車的圖片(需要注意的是,在“大喜利”游戲中,一般圖片都是很普通的日常圖片)。配文“快讓開!我的兄弟傷得很嚴(yán)重”讓傾斜著身體45°向上的車看起來像是一個奄奄一息的車子。在道路上快速的馳騁也確實體現(xiàn)了位于下方的車很著急,急著送兄弟去醫(yī)院。整體來說配文相當(dāng)有趣且幽默!
(例子3) 在第三個“圖到文”的例子中,玩家被要求根據(jù)所給的文字進(jìn)行回復(fù),使得回復(fù)和問題合在一起具備幽默感。本例子中的回復(fù)似乎在調(diào)侃程序員的日常工作主要就是代碼的“復(fù)制+黏貼”┓( ′?` )┏ (注:CV工程師除了可以表示computer vision工程師也可以表示ctrl+c/ctrl+v工程師 )
本工作主要關(guān)注這三種類型的“大喜利”游戲,相關(guān)數(shù)據(jù)Oogiri-GO (如下表所示,含中英日三種語言)可以進(jìn)入Project頁面下載。
為什么考慮“大喜利”游戲?
“大喜利”游戲是用于探索多模態(tài)大模型創(chuàng)新能力的理想平臺,因為:
- “大喜利”游戲是天然的創(chuàng)新響應(yīng)任務(wù)。如上所提到的,現(xiàn)代“大喜利”也被稱為Tonchi (頓智)?!邦D”在日文和中文中都表示“突然”,而“智”的意思是“智力、洞察力或直覺”,該游戲天然地要求玩家給出令人眼前一亮、靈光一閃的創(chuàng)新響應(yīng);
- “大喜利”的數(shù)據(jù)格式是高度合適的。不管是“圖文到文”、“圖到文”還是“文到文”,這些類型都天然地和目前多模特大模型的輸入輸出格式吻合,即輸入為“圖文”,輸出僅為“文”。
- “大喜利”數(shù)據(jù)質(zhì)量高。創(chuàng)新是一件很難的事情,即使是人類,因此能作為“創(chuàng)新”相關(guān)的數(shù)據(jù)集并不多。鑒于該游戲長期在互聯(lián)網(wǎng)上非?;钴S(在中文社區(qū)中,一般也叫日式神吐槽/冷吐槽),而且?guī)в写罅奎c評數(shù)據(jù),比如點贊數(shù)等等。正好積累了大量高質(zhì)量人類創(chuàng)新幽默響應(yīng)可以被用于研究。
性能結(jié)果展示
注意事項:
- 幽默是主觀的。任何一個幽默的響應(yīng)都很難取悅每一個人 (人類的悲歡并不相通.jpg)。另外文化的差異、知識范圍等原因也會造成不同人對不同響應(yīng)的幽默理解。
- 創(chuàng)新是困難的。如日本著名“大喜利”節(jié)目IPPON大獎賽 (視頻鏈接) 中頂尖人類選手也很難確保每一次響應(yīng)都能讓評委滿意。如果模型響應(yīng)不滿意,可以讓它多試幾次~
- 幽默是多元的。一些常見的“調(diào)侃“、“諷刺“等手段是幽默的重要組成部分。不同的文化,甚至不同的人,對這些內(nèi)容的容忍度不同,模型輸出的內(nèi)容可能對某些人會產(chǎn)生冒犯,敬請多多包容。本文、模型以及數(shù)據(jù)均只用于學(xué)術(shù)研究。
首先展示的是在本文方法CLoT前后的創(chuàng)新響應(yīng)對比:
接下來是一些精彩的模型響應(yīng)合集:
激發(fā)創(chuàng)造力的思維方式Leap-of-Thought (LoT)
如下圖(左)所示,傳統(tǒng)的鏈?zhǔn)剿伎迹–hain-of-Thought,CoT)方法是一種順序思考過程,通過逐步推理指導(dǎo)大模型進(jìn)行邏輯推理,每個后續(xù)的思考都建立在前一個思考的基礎(chǔ)上。這一思考過程一定程度上確保了精確性和嚴(yán)謹(jǐn)性,但對于創(chuàng)造性問題表現(xiàn)不佳。如下圖(右)所示,本文探索了一種新的非順序、創(chuàng)造性思維范式——跳躍思維Leap-of-Thought(LoT)。這種范式涉及到思考關(guān)聯(lián)性和知識跳躍。遠(yuǎn)距離的思考也被認(rèn)為是聯(lián)想。與CoT強調(diào)邏輯緊密的思維鏈不同,LoT強調(diào)打破常規(guī)思維思考問題,激發(fā)模型的創(chuàng)造力。
通向LoT! 激發(fā)創(chuàng)造力的訓(xùn)練方法CLoT
基于所提出的Oogiri-GO數(shù)據(jù)集,本文探索出一套激發(fā)多模態(tài)大模型創(chuàng)造力的訓(xùn)練方法CLoT。如下圖所示,CLoT包括兩個階段:
- (1)關(guān)聯(lián)性指令微調(diào)。在這一階段,本文設(shè)計生成式和判別式模板,將Oogiri-GO數(shù)據(jù)集轉(zhuǎn)換為指令微調(diào)的訓(xùn)練數(shù)據(jù),用于訓(xùn)練多模態(tài)大模型,使得模型具備初步的創(chuàng)新響應(yīng)能力。
- (2)探索性自我調(diào)整。在這一階段中,本文首先通過設(shè)計遠(yuǎn)關(guān)聯(lián)的條件詞,促使(1)中的模型生成多樣化且與輸入遠(yuǎn)關(guān)聯(lián)的回答,并設(shè)計篩選流程,獲得可靠的新LoT數(shù)據(jù)。隨后,新數(shù)據(jù)被轉(zhuǎn)換成指令微調(diào)的訓(xùn)練數(shù)據(jù),用于進(jìn)一步微調(diào)模型,具體地:
- (2.1) 探索性遠(yuǎn)程關(guān)聯(lián):這一步驟鼓勵LLM在給定的弱關(guān)聯(lián)條件下產(chǎn)生創(chuàng)新的回應(yīng)。通過這種方式,LLM學(xué)習(xí)在看似不相關(guān)的概念之間建立聯(lián)系,從而生成多樣化的創(chuàng)意內(nèi)容。
- (2.2)自我精煉:在探索性遠(yuǎn)程關(guān)聯(lián)的基礎(chǔ)上,通過設(shè)計一系列篩選流程,收集到的創(chuàng)意回應(yīng)被用來進(jìn)一步訓(xùn)練LLM。這樣做可以提高LLM在處理創(chuàng)造性任務(wù)時的表現(xiàn),使其能夠生成更高質(zhì)量和多樣性的內(nèi)容。
性能評估
為了盡可能全面評估CLoT,本文基于Oogiri-GO數(shù)據(jù)集,設(shè)計了選擇題和排序題作為量化評估方式。實驗結(jié)果表明,CLoT能夠顯著提高多模態(tài)大模型(如Qwen和CogVLM)的性能,顯著超越包括GPT4v在內(nèi)的先進(jìn)模型。另外,與其他先進(jìn)推理框架CoT等相比,在各項量化指標(biāo)下也是有顯著優(yōu)勢的。
此外,研究團(tuán)隊還通過用戶調(diào)查,證實了CLoT幫助模型生成了更好的幽默內(nèi)容。
研究團(tuán)隊還考慮到了CLoT的泛化性,用“看云猜物CGG”和“發(fā)散思維測試DAT”兩個其他任務(wù)評估CLoT的性能,實驗結(jié)果顯示CLoT相對于基準(zhǔn)模型具有更好的準(zhǔn)確度,說明CLoT具備不錯的泛化能力。DAT是一種用于評估人類聯(lián)想創(chuàng)造能力的測試。
總結(jié)
本文基于研究創(chuàng)造力的理想平臺”大喜利”幽默創(chuàng)新響應(yīng)游戲,來首次探討了多模態(tài)大模型的創(chuàng)新響應(yīng)能力。揭示了現(xiàn)有大模型在創(chuàng)造力、幽默能力在內(nèi)的能力不足的現(xiàn)狀,并提出緩解目前現(xiàn)狀的提升方法。本工作已開源???https://github.com/sail-sg/CLoT???,歡迎使用和引用。
本文轉(zhuǎn)載自公眾號AIGC最前線 作者投稿
