多模態(tài)CoT思維鏈架構(gòu)來(lái)了,現(xiàn)已開(kāi)源|來(lái)自廈大&騰訊優(yōu)圖
多模態(tài)大模型,也有自己的CoT思維鏈了!
廈門(mén)大學(xué)&騰訊優(yōu)圖團(tuán)隊(duì)提出一種名為“領(lǐng)唱員(Cantor)”的決策感知多模態(tài)思維鏈架構(gòu),無(wú)需額外訓(xùn)練,性能大幅提升。
在 ScienceQA 上,基于GPT-3.5的Cantor準(zhǔn)確率達(dá)到了82.39%,相比基于GPT-3.5的思維鏈方法提升了4.08%。
在更具挑戰(zhàn)性的MathVista上,基于Gemini的Cantor準(zhǔn)確率比原始Gemini提高了5.9%。
目前Cantor論文已上傳arXiv,代碼也已經(jīng)開(kāi)源。(地址在文末領(lǐng)?。?/p>
多模態(tài)專屬思維鏈
思想鏈(Chain-of-Thought, CoT)是一種廣泛應(yīng)用的提示方法,通過(guò)添加中間推理步驟,可以顯著增強(qiáng)大模型的推理能力。
然而,在視覺(jué)推理任務(wù)中,模型不僅需要把握問(wèn)題背后的總體邏輯,還需結(jié)合圖像信息進(jìn)行具體分析。
多模態(tài)思維鏈應(yīng)運(yùn)而生。
現(xiàn)有的多模態(tài)思維鏈方法通常將問(wèn)題分解為多個(gè)相關(guān)的子任務(wù),并調(diào)用各種外部工具依次處理。
然而,由于視覺(jué)信息不足和低級(jí)感知工具的局限性,這種范式在決策中面臨潛在的“決策幻覺(jué)”,以及低級(jí)感知工具無(wú)法提供高級(jí)推理信息的挑戰(zhàn)。
Cantor架構(gòu)賦予多模態(tài)大語(yǔ)言模型(MLLM)或大語(yǔ)言模型(LLM)像合唱團(tuán)中的領(lǐng)唱員一樣的協(xié)調(diào)能力:
首先使MLLM或LLM同時(shí)處理視覺(jué)和文本上下文,形成全面的理解并進(jìn)行決策感知,避免決策幻覺(jué)。
隨后,將具體任務(wù)分配給MLLM 扮演的“專家”,以獲得高級(jí)的認(rèn)知信息以進(jìn)一步輔助推理。
圖中(a)展示了不同視覺(jué)信息對(duì)決策的影響:
- 在沒(méi)有視覺(jué)上下文的情況下,詢問(wèn)GPT-3.5燒杯的最大刻度,會(huì)由于缺乏圖像信息而無(wú)法回答,出現(xiàn)決策幻覺(jué),要求提供更多信息。
- 基于LLM的Cantor通過(guò)字幕引入了視覺(jué)語(yǔ)境,避免了決策幻覺(jué),提出了合理的解決方法。
- 基于MLLM的Cantor通過(guò)圖像加強(qiáng)了視覺(jué)語(yǔ)境,進(jìn)一步提高了決策質(zhì)量,將子任務(wù)具體化。
圖中(b)展示了不同視覺(jué)工具的比較:
- 對(duì)于目標(biāo)檢測(cè)相關(guān)的子任務(wù),傳統(tǒng)方法使用的低級(jí)感知工具(如檢測(cè)器)只能獲得基本數(shù)據(jù)(如坐標(biāo))。這些低級(jí)線索需要后續(xù)的進(jìn)一步整合才能得到有用信息,這會(huì)增加推理負(fù)擔(dān)。
- 由MLLM扮演的高級(jí)認(rèn)知專家可以直接獲得高級(jí)推理信息(如目標(biāo)的相對(duì)數(shù)量關(guān)系),有助于后續(xù)推理。
決策生成+執(zhí)行兩步驟
Cantor的架構(gòu)如下,它包含兩個(gè)主要步驟:決策生成和執(zhí)行。
前者對(duì)問(wèn)題進(jìn)行分析與解耦,結(jié)合各種專家模塊特性,生成合理的決策。
后者調(diào)用各種專家模塊執(zhí)行子任務(wù),并匯總信息加以思考,生成最終答案。
團(tuán)隊(duì)具體設(shè)計(jì)了四種專家模塊:
- TextIntel Extract:此模塊會(huì)按要求針對(duì)性地提取圖像中的文本。它對(duì)于包含文本和圖形元素混合的圖像特別有用。
- ObjectQuant Locator:此模塊用于識(shí)別并定位圖像中的對(duì)象。它在比較數(shù)量和識(shí)別空間關(guān)系等方面有優(yōu)勢(shì)。
- VisionIQ Analyst:此模塊用于處理和解釋視覺(jué)數(shù)據(jù),它能夠處理任何與圖像內(nèi)容相關(guān)的查詢,善于分析圖像。
- ChartSense Expert:此模塊專門(mén)分析和解釋圖表中的信息。它可以提取數(shù)據(jù)點(diǎn),了解趨勢(shì),并識(shí)別圖表中的標(biāo)題、軸、標(biāo)簽和圖例等關(guān)鍵組件。
決策生成部分讓MLLM或LLM扮演決策生成器,也就是充當(dāng)決策大腦,先對(duì)問(wèn)題進(jìn)行分析,并結(jié)合各專家模塊特點(diǎn),分配子任務(wù),并給出分配理由。
例如要比較兩瓶溶液的溫度大小時(shí),Cantor會(huì)先分析粒子溫度與粒子動(dòng)能的關(guān)系,分析粒子動(dòng)能的表達(dá)式為1/2mv^2。并結(jié)合圖像信息與專家模塊特點(diǎn),為T(mén)extIntel Extractor和ObjectQuant Locator分別分配子任務(wù):
1、提取樣品A和樣品B中每個(gè)顆粒的質(zhì)量和速度。
2、哪個(gè)樣品的粒子數(shù)量更多?
該步驟有以下特點(diǎn):
最初,LLM或MLLM被用作決策生成器,充當(dāng)決策的大腦。
接下來(lái),團(tuán)隊(duì)提供多個(gè)專家模塊,以完成各種類型的子任務(wù),充當(dāng)決策的四肢。這種集成確保了決策生成既全面又精細(xì),能夠充分利用了每個(gè)模塊的優(yōu)勢(shì)。
此后,決策生成器根據(jù)從原理分析中獲得的見(jiàn)解,為選定的專家模塊量身定制任務(wù),這種動(dòng)態(tài)的任務(wù)分配提高了Cantor的效率和性能。
執(zhí)行又分為模塊化執(zhí)行和匯總執(zhí)行兩步:
一是模塊化執(zhí)行:
在這個(gè)階段Cantor通過(guò)調(diào)用各種專家模塊來(lái)完成決策生成階段分配的子任務(wù),以獲得補(bǔ)充信息。
值得注意的是,團(tuán)隊(duì)只使用MLLM來(lái)扮演各種專家模塊,以獲得高級(jí)的認(rèn)知信息輔助推理(如數(shù)量的大小關(guān)系,位置的相對(duì)關(guān)系)。
例如,對(duì)應(yīng)上一步分配的子任務(wù),TextIntel Extractor和ObjectQuant Locator分別獲得以下答案:
1、樣品A:質(zhì)量44u,速度1,400m/s。樣品B:質(zhì)量46u,速度1,400m/s。
2、兩個(gè)樣品的粒子數(shù)量相同。
?
二是匯總執(zhí)行:
在這個(gè)階段Cantor匯總子任務(wù)和子答案的信息,并結(jié)合基本原理,生成最終答案。
其中包括了三個(gè)關(guān)鍵,首先通過(guò)提示,讓MLLM或LLM扮演一個(gè)知識(shí)淵博并且善于整合信息的答案生成器,這既保證他的專業(yè)性,能對(duì)問(wèn)題有基本判斷,又保證他能更好地整合信息。
其次為了可解釋性,展示模型的思維過(guò)程并提高其思維能力,要求它先生成為答案的基本原理,然后生成相應(yīng)的選項(xiàng)。
最后要求Cantor保持理性與批判性,不要完全依賴模塊執(zhí)行獲得的信息。
免訓(xùn)練也能超越微調(diào)方法
Cantor分為兩個(gè)版本,Cantor(GPT-3.5)將GPT-3.5作為決策生成器和答案生成器,以及Cantor(Gemini)將Gemini Pro 1.0作為決策生成器和答案生成器。
團(tuán)隊(duì)在ScienceQA和MathVista兩個(gè)復(fù)雜的視覺(jué)推理數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
在ScienceQA上的實(shí)驗(yàn)結(jié)果如下:
結(jié)果顯示使用GPT-3.5作為基本LLM進(jìn)行決策和回答,Cantor的準(zhǔn)確率達(dá)到82.39%,比GPT-3.5提示的思想鏈(CoT)提高了4.08%。
使用Gemini作為決策生成器和答案生成器,Cantor的準(zhǔn)確率達(dá)到84.96%,大大超過(guò)了所有免訓(xùn)練方法,甚至優(yōu)于UnifiedQA(CoT)和MM-CoT等微調(diào)方法。
團(tuán)隊(duì)進(jìn)一步展示了ScienceQA中IMG類的性能,該類的所有問(wèn)題都包括了圖像上下文。
可以看出,基于GPT-3.5的Cantor在各種問(wèn)題上都顯著超過(guò)了基線,甚至超過(guò)了一些著名的MLLMs,如SPHINX和LLaVA-1.5。
Cantor(Gemini)性能相比于基線也得到了顯著增長(zhǎng)。
MathVista是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,它將各種數(shù)學(xué)推理任務(wù)與可視化任務(wù)集成在一起。
上表比較了不同方法的性能。從一般的視覺(jué)問(wèn)題回答到專業(yè)的數(shù)學(xué)問(wèn)題,Cantor在幾乎所有類型的問(wèn)題中都大大超過(guò)了基線。
這表明,正確的決策和模塊化專家可以激發(fā)他們細(xì)粒度、深入的視覺(jué)理解和組合推理能力。
值得注意的是,Cantor(GPT-3.5)甚至超過(guò)了基于CoT和PoT的GPT-4。
團(tuán)隊(duì)進(jìn)一步展示了Gemini與Cantor(Gemini)的具體例子比較:
可以看出Cantor通過(guò)任務(wù)分配,以及讓Gemini進(jìn)行角色扮演,做到了原來(lái)難以做到的事情,并且正確得出了答案。
值得注意的是,即使Gemini在一些問(wèn)題上答對(duì)了,但是它的推理過(guò)程其實(shí)是有問(wèn)題的,相比之下Cantor沒(méi)有出現(xiàn)這個(gè)問(wèn)題。
論文地址:??https://arxiv.org/abs/2404.16033???
項(xiàng)目地址:???https://ggg0919.github.io/cantor/??
本文轉(zhuǎn)自 量子位 ,作者:量子位
