GPT-4V都搞不明白的未來推理有解法了!來自華科大&上科大
多模態(tài)大語言模型展現(xiàn)了強(qiáng)大的圖像理解和推理能力。
但要讓它們基于當(dāng)前觀測(cè)來對(duì)未來事件進(jìn)行預(yù)測(cè)推理仍然非常困難。
即便是當(dāng)前最強(qiáng)大的GPT-4V(如下圖所示),也無法很好地解決這一問題。
△ GPT-4V的錯(cuò)誤案例
現(xiàn)在,華科大和上科大團(tuán)隊(duì)提出了一個(gè)賦予多模態(tài)大語言模型前瞻性思維的學(xué)習(xí)范式,并基于這一范式構(gòu)建了多模態(tài)大語言模型Merlin(梅林)。
Merlin(梅林)是亞瑟王傳說中的一個(gè)傳奇人物,以其強(qiáng)大的魔法和智慧而聞名于亞瑟王傳說。傳說中梅林擁有預(yù)見未來的能力,并對(duì)命運(yùn)有著深刻的理解。
來看看它具體是如何做的?
注:人類可以根據(jù)當(dāng)前觀測(cè)狀態(tài)來推理出即將或者接下來一段時(shí)間可能會(huì)發(fā)生的事件,我們將這一能力稱為前瞻性思維。
一個(gè)簡(jiǎn)單的例子:
當(dāng)你在電視上觀看NBA球賽時(shí),你可以根據(jù)場(chǎng)上不同球員的狀態(tài)來判斷接下來可能會(huì)出現(xiàn)的場(chǎng)景。
比如當(dāng)一名進(jìn)攻球員在持球突破防守人之后,我們有理由判斷這名球員即將沖到籃下進(jìn)行上籃或者灌籃。
再比如當(dāng)持球人在三分線停下并面向籃筐時(shí),我們則有理由預(yù)測(cè)這名球員即將進(jìn)行三分射籃(當(dāng)然也有可能是假動(dòng)作為了晃開防守人進(jìn)行突破)。
Merlin大模型就可以進(jìn)行此類預(yù)測(cè)。
方法介紹
為了探究如何賦予激發(fā)多模態(tài)大語言模型的前瞻性思維。
我們首先深入分析了人類是如何進(jìn)行未來事件的預(yù)測(cè)的。
我們將人類進(jìn)行未來事件的推理預(yù)測(cè)視為一個(gè)兩階段的系統(tǒng)。
首先一階段我們會(huì)對(duì)當(dāng)前場(chǎng)景進(jìn)行觀測(cè),觀測(cè)過程當(dāng)中重點(diǎn)捕捉相關(guān)主體的動(dòng)態(tài)線索,第二階段我們的大腦會(huì)根據(jù)這個(gè)獲取的動(dòng)態(tài)線索來分析主體的行為模式(比如奔行走或者奔跑等)及行為意圖,進(jìn)而推理出即將可能發(fā)生的事件。
對(duì)標(biāo)多模態(tài)大語言模型,我們認(rèn)為第二階段是可以較好地完成的,這得益于大語言模型強(qiáng)大的邏輯推理能力。
所以問題出在了第一階段,也就是當(dāng)前的多模態(tài)大語言模型難以成功捕獲相關(guān)主體的動(dòng)態(tài)信息,進(jìn)而限制了其對(duì)于未來事件推理的能力。
得到這一結(jié)論之后,接下來我們要做就是探究如何讓多模態(tài)大語言模型學(xué)會(huì)從當(dāng)前觀測(cè)中捕捉相關(guān)主體的動(dòng)態(tài)線索信息。
為了實(shí)現(xiàn)這一目標(biāo),一個(gè)直接的方案就是讓多模態(tài)大語言模型學(xué)習(xí)預(yù)測(cè)下一幀的全部信息(也就是以重建下一幀為優(yōu)化目標(biāo))。
不過這么做一方面學(xué)習(xí)難度較大,另一方面圖像或者視頻序列存在大量的冗余視覺信息,這并不利于模型學(xué)會(huì)捕獲對(duì)應(yīng)主體的動(dòng)態(tài)信息。
基于上述分析,本文提出了一個(gè)以“軌跡”這一結(jié)構(gòu)化表示作為優(yōu)化目標(biāo)來建立過去與未來之間的動(dòng)態(tài)關(guān)聯(lián)。我們認(rèn)為以軌跡作為優(yōu)化目標(biāo)有以下幾點(diǎn)好處:
(1)軌跡作為一種高度結(jié)構(gòu)化的表征具有較強(qiáng)的信息凝練性,能夠幫助模型有效地提取出主體在連續(xù)動(dòng)作中的關(guān)鍵動(dòng)態(tài)信息,從而減少了對(duì)冗余視覺信息的學(xué)習(xí)需求,計(jì)算成本更低。
(2)軌跡可以很自然地將過去和未來關(guān)聯(lián)在一起,通過學(xué)習(xí)預(yù)測(cè)主體的軌跡,多模態(tài)大語言模型必須學(xué)會(huì)精確地關(guān)注對(duì)應(yīng)的主體在不同幀中的對(duì)應(yīng)位置,可以極大地增強(qiáng)模型多圖多身份 (Id)的對(duì)齊能力。
基于這些優(yōu)點(diǎn),我們?cè)O(shè)計(jì)了一個(gè)新型的學(xué)習(xí)框架,它專注于從多模態(tài)輸入(如圖像、視頻和文本)中提取和理解主體的運(yùn)動(dòng)軌跡并進(jìn)行預(yù)測(cè)。此框架具體如下:
受到當(dāng)前主流LLM學(xué)習(xí)范式的啟發(fā),我們也構(gòu)建了一個(gè)兩階段的學(xué)習(xí)范式,分別為前瞻思維預(yù)訓(xùn)練(Foresight Pre-Training, FPT)以及前瞻思維指令微調(diào)(Foresight Instruction-Tuning, FIT)。
在FPT中,我們首先會(huì)輸入包含數(shù)幀圖片的視覺上下文tokens給模型,然后我們會(huì)給予相關(guān)主體的第一幀的初始觀測(cè)(初始位置,表觀描述或者是動(dòng)作描述),接著我們要求模型需要根據(jù)初始觀測(cè)來預(yù)測(cè)出對(duì)應(yīng)主體的整條軌跡。
通過學(xué)習(xí)預(yù)測(cè)整條軌跡,模型必須學(xué)會(huì)正確關(guān)注多圖中的對(duì)應(yīng)主體并捕捉其動(dòng)態(tài)信息。
而在FIT中,則會(huì)加入一些相關(guān)的user prompt來進(jìn)行關(guān)于相關(guān)主體的對(duì)話。
值得注意的是,為了在這一階段激發(fā)模型的前瞻性思維,我們也設(shè)計(jì)了一種以“軌跡”為核心的指令交互形式,我們將其稱之為軌跡思維鏈技術(shù)(Trajectory Chain-of-Thought,T-CoT)。
具體來說,當(dāng)和模型進(jìn)行對(duì)話時(shí),我們會(huì)要求模型將提及的相關(guān)主體的軌跡一并輸出(如上圖所示)。
通過輸出整條軌跡,強(qiáng)制要求模型關(guān)注多圖中的對(duì)應(yīng)主體,為后續(xù)的未來事件推理提供足夠的動(dòng)態(tài)信息。更多方法細(xì)節(jié),請(qǐng)閱讀論文。
數(shù)據(jù)構(gòu)造
設(shè)計(jì)好了我們的學(xué)習(xí)范式之后,接下來更重要的是構(gòu)建合適的數(shù)據(jù)來讓模型進(jìn)行學(xué)習(xí),我們基于現(xiàn)在市面上開源的數(shù)據(jù)精心構(gòu)建了一整套多任務(wù)學(xué)習(xí)數(shù)據(jù),數(shù)據(jù)分布具體如下:
主要包括Caption,Referring,Detection,Tracking,Reasoning以及Dialogue數(shù)據(jù) *表示數(shù)據(jù)只用于指令微調(diào)階段(FIT)。
這里梅林首次使用了由tracking數(shù)據(jù)構(gòu)造的FPT數(shù)據(jù)來賦予模型軌跡感知及預(yù)測(cè)能力。
另一方面,我們也提出了精確任務(wù)及輸出形式提示(Precise Definition of Task Prompt and Answer Format)技術(shù):
通過告訴大模型具體的任務(wù)以及輸出形式來避免多任務(wù)學(xué)習(xí)之間的沖突以及對(duì)通用多模態(tài)能力的損害。
我們后續(xù)的實(shí)驗(yàn)也表明采用這一技術(shù)可以讓大模型兼顧學(xué)習(xí)多任務(wù)專有能力以及通用多模態(tài)能力。
能力展示
結(jié)合上述兩個(gè)學(xué)習(xí)過程以及構(gòu)建的高質(zhì)量數(shù)據(jù),我們搭建了一個(gè)全新的通用多模態(tài)大語言模型,梅林(Merlin)。
Merlin可以支持單圖或多幀圖像序列的輸入,可以完成包括檢測(cè),跟蹤,REC,REG等一系列任務(wù)。
同時(shí)得益于我們提出的FPT以及FIT,Merlin展現(xiàn)了強(qiáng)大基于軌跡的未來推理能力,這里我們挑一些cases來展示Merlin的能力,更多的測(cè)試結(jié)果請(qǐng)閱讀我們的論文以及后續(xù)開放的demo。
實(shí)驗(yàn)分析
為了全面評(píng)測(cè)Merlin的各方面能力,我們?cè)O(shè)計(jì)了一系列性能比較試驗(yàn)以及性質(zhì)探究實(shí)驗(yàn),這里我們著重挑選幾個(gè)有啟發(fā)性的實(shí)驗(yàn)來進(jìn)行分享,更多實(shí)驗(yàn)細(xì)節(jié),請(qǐng)閱讀我們的論文。
1、未來推理(Future Reasoning)評(píng)測(cè)
由于當(dāng)前領(lǐng)域內(nèi)并沒有成熟的可以對(duì)多模態(tài)大語言模型進(jìn)行評(píng)測(cè)的benchmark,所以本工作基于MMBench搭建了一套新的Future Reasoning Benchmark。
在這一benchmark上,Merlin顯著超越了現(xiàn)有的主流多模態(tài)大模型,展現(xiàn)了強(qiáng)大的未來推理能力。
2、軌跡關(guān)聯(lián)及預(yù)測(cè)評(píng)測(cè)
由于Merlin將基于初始觀測(cè)進(jìn)行相關(guān)主體軌跡預(yù)測(cè)作為預(yù)訓(xùn)練中的一項(xiàng)核心學(xué)習(xí)目標(biāo),為了更全面的評(píng)測(cè)這一學(xué)習(xí)情況,我們重點(diǎn)選擇了tracking這一下游任務(wù)來進(jìn)行評(píng)測(cè)。
這是由于軌跡關(guān)聯(lián)是tracking任務(wù)中的一個(gè)核心子任務(wù),tracking的評(píng)測(cè)指標(biāo)可以一定程度上反應(yīng)大模型的多圖多id的對(duì)齊能力。
從結(jié)果可以看到Merlin作為一個(gè)通用多模態(tài)大語言模型,在tarcking任務(wù)上甚至超越了一些專家模型,同時(shí)值得注意的是這也是多模態(tài)大語言模型首次可以執(zhí)行tracking相關(guān)的任務(wù)。
3、幻覺評(píng)測(cè)
幻覺問題是大模型領(lǐng)域的一個(gè)重要研究課題,由于多模態(tài)大語言模型引入了視覺模態(tài),由主體描述和對(duì)應(yīng)的視覺信息無法準(zhǔn)確對(duì)齊而導(dǎo)致的bias也進(jìn)一步帶來了更加嚴(yán)重的幻覺。
本文中我們?cè)赑OPE上對(duì)Merlin進(jìn)行了幻覺評(píng)測(cè)來評(píng)估模型的圖文之間的對(duì)齊能力。如下表所示:
可以看到,Merlin展現(xiàn)了強(qiáng)大的抗幻覺能力,顯著領(lǐng)先當(dāng)前的主流多模態(tài)大語言模型,這證明了我們提出的前瞻性思維訓(xùn)練范式可以增強(qiáng)模型的“識(shí)圖”能力,讓模型減少對(duì)圖片內(nèi)容的誤識(shí)別以及圖文之間的不一致問題。
4、多模態(tài)綜合性能評(píng)測(cè)
Merlin同樣在當(dāng)前的主流多模態(tài)大語言模型綜合能力(包括MMBench以及MMVet)以及視覺問答能力(包括GQA以及VisWiz)評(píng)測(cè)Benchmark上進(jìn)行了評(píng)測(cè)。
評(píng)測(cè)結(jié)果表明Merlin都取得了非常有競(jìng)爭(zhēng)力的結(jié)果,展現(xiàn)了Merlin強(qiáng)大的通用綜合能力。
5、可視化分析
為了更直觀的展現(xiàn)Merlin對(duì)于動(dòng)態(tài)信息線索的捕捉情況,本文也進(jìn)行了一個(gè)有趣的可視化實(shí)驗(yàn),對(duì)于一個(gè)具體的對(duì)話問答,我們將模型輸出的軌跡坐標(biāo)的word embedding與多幀圖片的視覺tokens之間的注意力圖進(jìn)行了可視化,如下圖所示:
我們可以看到,模型輸出的估計(jì)坐標(biāo)的word embedding可以準(zhǔn)確的關(guān)注到對(duì)應(yīng)幀中的對(duì)應(yīng)目標(biāo)主體。
這個(gè)可視化結(jié)果也進(jìn)一步證明了“軌跡”是一個(gè)非常好的中間表示來幫助多模態(tài)大語言模型建立起語言描述和多幀圖像對(duì)應(yīng)主體之間的動(dòng)態(tài)關(guān)聯(lián)。
這也從另一個(gè)角度解釋了為什么Merlin具有強(qiáng)大的多模態(tài)綜合能力以及抗幻覺能力。
思考和總結(jié)
Merlin這一工作向我們展示了“軌跡”這一結(jié)構(gòu)化表示在幫助多模態(tài)大語言模型具備前瞻性思維中的重要作用。
從這一點(diǎn)出發(fā)我們可以進(jìn)一步思考回歸框(bounding box)以及軌跡(trajectory)究竟在多模態(tài)大語言模型的學(xué)習(xí)中究竟起到了什么樣的作用——
是作為一種中間形式還是可以作為一種單獨(dú)的學(xué)習(xí)優(yōu)化目標(biāo)?
另一方面現(xiàn)有的坐標(biāo)編碼是否合理,有沒有什么更加適配自然語言的表示形式呢?
我想這些目前都還沒有標(biāo)準(zhǔn)答案,需要各位研究者們進(jìn)一步深入的探索。最后希望Merlin這個(gè)工作能給多模態(tài)大模型社區(qū)帶來一些新的思考和認(rèn)知,也歡迎大家持續(xù)關(guān)注我們的工作,多多交流。
論文:https://arxiv.org/pdf/2312.00589.pdf