自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Cantor?:激發(fā)MLLM的多模態(tài)思維鏈 原創(chuàng)

發(fā)布于 2024-7-1 13:05
瀏覽
0收藏

?摘要:隨著通過(guò)思維鏈(CoT)方法增強(qiáng)的大型語(yǔ)言模型(LLMs)的出現(xiàn),視覺(jué)推理問(wèn)題通常被分解成可管理的子任務(wù),并使用各種外部工具依次解決。然而,這種范式面臨決策中潛在的“確定性幻覺(jué)”的挑戰(zhàn),這是由于視覺(jué)信息不足以及低級(jí)感知工具的限制,這些工具無(wú)法提供全面推理所需的抽象總結(jié)。我們認(rèn)為,視覺(jué)上下文獲取與邏輯推理的融合是解決視覺(jué)推理任務(wù)的關(guān)鍵。本文深入探討了多模態(tài)CoT的領(lǐng)域,使用多模態(tài)大型語(yǔ)言模型(MLLMs)及其認(rèn)知能力來(lái)解決復(fù)雜的視覺(jué)推理任務(wù)。為此,我們提出了一個(gè)創(chuàng)新的多模態(tài)CoT框架,稱為Cantor,其特點(diǎn)是感知決策架構(gòu)。Cantor首先作為一個(gè)決策生成器,整合視覺(jué)輸入來(lái)分析圖像和問(wèn)題,確保與實(shí)際上下文更緊密的對(duì)齊。此外,Cantor利用MLLMs的高級(jí)認(rèn)知功能,作為多方面的專家來(lái)推導(dǎo)出更高級(jí)別的信息,增強(qiáng)CoT生成過(guò)程。我們廣泛的實(shí)驗(yàn)證明了所提出框架的有效性,顯示出在兩個(gè)復(fù)雜的視覺(jué)推理數(shù)據(jù)集上多模態(tài)CoT性能的顯著提升,而無(wú)需進(jìn)行微調(diào)或需要真實(shí)理由。項(xiàng)目頁(yè)面:

??https://ggg0919.github.io/cantor/??。

1. 引言

隨著大型語(yǔ)言模型(LLMs)的發(fā)展,研究人員開(kāi)始采用思維鏈(CoT)策略來(lái)提高模型在推理任務(wù)中的性能。CoT模仿了人類逐步推理的過(guò)程,通過(guò)構(gòu)建一系列邏輯步驟來(lái)幫助模型提高對(duì)復(fù)雜視覺(jué)推理問(wèn)題的深入理解和分析能力。CoT在語(yǔ)言推理任務(wù)中的有效性已經(jīng)得到了廣泛驗(yàn)證。最近,研究人員自然地將其應(yīng)用擴(kuò)展到多模態(tài)領(lǐng)域。視覺(jué)推理任務(wù)[29, 30]本質(zhì)上適合使用思維鏈(CoT)方法。這些任務(wù)要求模型不僅要“感知”圖像中的內(nèi)容和上下文,還要“理解”這些視覺(jué)元素,以做出連貫的推理和決策。因此,多模態(tài)CoT的探索在研究社區(qū)中顯著擴(kuò)大。

大多數(shù)現(xiàn)有的多模態(tài)CoT方法分為兩個(gè)階段:決策生成和執(zhí)行。

1) 決策生成。這是多模態(tài)CoT方法的第一步,涉及理解、分析問(wèn)題并制定推理計(jì)劃?,F(xiàn)有的確定方法包括將問(wèn)題分解為子問(wèn)題[53],捕獲圖像中的場(chǎng)景圖[32],尋找相關(guān)圖像中的相似性和差異[49]等[41, 44]。它們?cè)噲D在文本層面簡(jiǎn)化問(wèn)題或在視覺(jué)層面增加更多上下文信息。

2) 執(zhí)行。在這個(gè)階段,模型執(zhí)行前一確定階段安排的特定操作。具體來(lái)說(shuō),模型將計(jì)劃轉(zhuǎn)化為實(shí)際解決方案?,F(xiàn)有的執(zhí)行方法通常依賴于各種專門(mén)的API工具或視覺(jué)-語(yǔ)言模型(VLMs),前者強(qiáng)調(diào)任務(wù)執(zhí)行的特定性[31, 41],后者強(qiáng)調(diào)任務(wù)執(zhí)行的普遍性[44, 53]。

盡管這些多模態(tài)CoT方法提高了視覺(jué)推理任務(wù)的性能,但仍有局限性:首先,在做出決策時(shí),現(xiàn)有方法通常直接將純文本輸入到LLMs中,而不考慮視覺(jué)上下文[17, 44, 53]。直觀上,這增加了LLMs對(duì)問(wèn)題的發(fā)散性思維,但實(shí)際上,它可能導(dǎo)致“確定性幻覺(jué)”。如圖1(a)所示,如果問(wèn)題本身與圖像沒(méi)有密切關(guān)系,僅基于文本詢問(wèn)“這個(gè)班級(jí)測(cè)量的最高量是多少?”,LLM(GPT-3.5)不清楚“這個(gè)班級(jí)”具體指的是什么。它將回答提供的信息不足,并開(kāi)始猜測(cè)“班級(jí)”是指物理中的度量單位還是編程中的類。這種感知不確定性可能導(dǎo)致LLMs做出與問(wèn)題無(wú)關(guān)或甚至錯(cuò)誤的決策,誤導(dǎo)后續(xù)執(zhí)行并導(dǎo)致完全無(wú)關(guān)的答案。

其次,在執(zhí)行期間,現(xiàn)有方法通常通過(guò)調(diào)用外部工具來(lái)執(zhí)行任務(wù),因?yàn)镸LLMs仍然無(wú)法解決許多視覺(jué)推理任務(wù)[17, 31, 32, 38, 44]。但這些工具大多是低級(jí)視覺(jué)感知工具(檢測(cè)器、識(shí)別器、OCR等),只能提取低級(jí)視覺(jué)信息。如圖1(b)所示,當(dāng)比較溶液中粒子的數(shù)量時(shí),它們只提供粒子的位置,而無(wú)法推斷出它們的數(shù)量關(guān)系等高級(jí)信息。它們進(jìn)一步將這些低級(jí)線索輸入到LLMs中進(jìn)行組織和總結(jié)[17, 32, 53]。當(dāng)復(fù)雜線索增加時(shí),這無(wú)疑增加了LLMs在長(zhǎng)文本推理上的負(fù)擔(dān)。同時(shí),隨著許多外部工具的使用,它也增加了流程的復(fù)雜性。


Cantor?:激發(fā)MLLM的多模態(tài)思維鏈 -AI.x社區(qū)


圖 1. (a) 決策生成中視覺(jué)信息的比較:詢問(wèn)GPT-3.5(沒(méi)有視覺(jué)上下文)會(huì)導(dǎo)致由于圖像不清晰而產(chǎn)生的“確定性幻覺(jué)”。Cantor(帶有標(biāo)題)通過(guò)標(biāo)題引入視覺(jué)上下文,不會(huì)遇到這個(gè)問(wèn)題。Cantor(帶圖像)甚至更精確,提高了任務(wù)分配的合理性。(b) 不同視覺(jué)工具的比較:傳統(tǒng)方法中使用的低級(jí)專業(yè)感知工具僅獲得基本數(shù)據(jù)。由MLLM扮演的高級(jí)通用認(rèn)知專家獲得對(duì)象數(shù)量關(guān)系,使直接和后續(xù)推理成為可能。

為了解決上述局限性,我們提出了一個(gè)新穎的多模態(tài)CoT框架,Cantor。在決策生成中,我們使MLLM或LLM作為合唱團(tuán)中的Cantor,同時(shí)處理視覺(jué)和文本上下文,以全面理解,然后為由單個(gè)MLLM扮演的“專家”分配特定任務(wù),以進(jìn)行高級(jí)邏輯問(wèn)題解決。具體來(lái)說(shuō),在決策生成期間,我們?cè)敿?xì)分析了視覺(jué)信息在確定階段的重要性。這包括有或沒(méi)有視覺(jué)信息的確定質(zhì)量,以及詳細(xì)或簡(jiǎn)潔視覺(jué)信息對(duì)確定的影響差異。最終,我們得出結(jié)論,視覺(jué)信息在決策生成階段至關(guān)重要。當(dāng)我們使用MLLM模型(如Gemini)作為決策生成器時(shí),我們直接將圖像輸入到模型中,以完全理解問(wèn)題并對(duì)其進(jìn)行深思熟慮。然而,當(dāng)使用LLM模型(如GPT-3.5)時(shí),我們發(fā)現(xiàn)提供更詳細(xì)的圖像標(biāo)題更有助于理解問(wèn)題。此外,決策生成器需要明確提供解釋性決策,包括問(wèn)題解決策略、調(diào)用專家的原因以及每個(gè)專家的具體任務(wù)執(zhí)行。因此,它指導(dǎo)MLLM作為定制專家(如ObjectQuant定位器、TextIntel提取器、VisionIQ分析師和ChartSense專家)為過(guò)程中的子任務(wù)提供確定性答案。如圖1(a)所示,當(dāng)使用LLM做出決策時(shí),在詳細(xì)標(biāo)題的指導(dǎo)下,模型知道它正在詢問(wèn)燒杯的最大體積,并做出正確的決策。當(dāng)圖像對(duì)MLLM可用時(shí),決策更清晰,即要求VisionIQ分析師提取杯壁頂部的數(shù)字。在執(zhí)行期間,我們觀察到MLLM是一個(gè)先進(jìn)的認(rèn)知工具,它在直接獲取高級(jí)信息(例如,相對(duì)位置和數(shù)量)方面比獲取檢測(cè)位置等低級(jí)視覺(jué)信息表現(xiàn)得更好。這種高級(jí)信息對(duì)多模態(tài)CoT更為優(yōu)越。Cantor不是使用幾個(gè)外部工具,而是通過(guò)不同的專家身份和任務(wù)指令,將不同任務(wù)分配給單個(gè)MLLM,探索MLLM作為某些專家的專業(yè)潛力。定制專家直接提供高級(jí)專業(yè)信息,從而減少了后續(xù)綜合推理的負(fù)擔(dān)。如圖1(b)所示,當(dāng)比較綠色粒子的濃度時(shí),我們首先需要比較兩個(gè)瓶子中粒子的數(shù)量。MLLM作為ObjectQuant定位器,直接比較兩種溶液中的數(shù)量變化。與獲取粒子位置相比,MLLM更準(zhǔn)確地獲得了數(shù)量關(guān)系的結(jié)果。這個(gè)結(jié)果直接應(yīng)用于最終答案的進(jìn)一步推理。

我們提出的框架Cantor在ScinceQA[29]和Mathvista[30]上都取得了最先進(jìn)的結(jié)果。當(dāng)Gemini用作決策生成器時(shí),Cantor分別獲得了4.11%和5.9%的準(zhǔn)確率提升。在Cantor中使用GPT-3.5也實(shí)現(xiàn)了2.24%和9.2%的準(zhǔn)確率提升。在我們的所有實(shí)驗(yàn)中,我們只使用一個(gè)MLLM(Gemini)扮演多個(gè)專家的角色,執(zhí)行具有不同要求的不同子任務(wù)。

我們的貢獻(xiàn)如下:

? 我們提出了一個(gè)鼓舞人心的多模態(tài)CoT框架,名為Cantor,它以感知決策架構(gòu)為特色,有效地整合了視覺(jué)上下文和邏輯推理,以解決視覺(jué)推理任務(wù)。

? 我們利用MLLM的先進(jìn)認(rèn)知能力,扮演多方面的專家,獲取高級(jí)信息,并顯著增強(qiáng)CoT生成。

? 我們證明了Cantor在兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中的有效性,大大超過(guò)了現(xiàn)有的對(duì)手。

2. 相關(guān)工作

2.1 多模態(tài)大型語(yǔ)言模型

最近的研究顯示,多模態(tài)大型語(yǔ)言模型(MLLMs)[6, 10, 11, 33, 37, 39, 47, 48]的發(fā)展是將大型語(yǔ)言模型(LLMs)的高級(jí)推理能力與視覺(jué)-語(yǔ)言模型(VLMs)的能力相結(jié)合的產(chǎn)物。這些模型通過(guò)整合視覺(jué)和語(yǔ)言信息,在多模態(tài)任務(wù)中取得了顯著的性能提升。特別是,在將視覺(jué)和文本表示與對(duì)比視覺(jué)和語(yǔ)言模型連接方面取得了重大進(jìn)展[13, 23, 36],但它們?cè)谔幚硇枰山M件或?qū)σ曈X(jué)和語(yǔ)言進(jìn)行更精細(xì)推理的下游任務(wù)時(shí)遇到了限制。為了克服這些限制,MLLM通過(guò)直接推斷嵌入式視覺(jué)特征[1, 2, 7, 9, 24, 54],將LLM的推理和生成能力擴(kuò)展到視覺(jué)領(lǐng)域。此外,MLLMs通過(guò)微調(diào)視覺(jué)指令進(jìn)一步提高性能[28]。

這些進(jìn)步不僅展示了MLLM處理復(fù)雜多模態(tài)信息的能力,而且還為通過(guò)豐富的多模態(tài)信息實(shí)現(xiàn)通用人工智能(AGI)提供了新的可能性。通過(guò)整合LLM的文本推理能力與視覺(jué)語(yǔ)言模型的圖像理解能力,MLLM可以在多種模態(tài)中實(shí)現(xiàn)深入的理解和表達(dá),處理如圖像字幕和視覺(jué)問(wèn)題回答等復(fù)雜任務(wù)。開(kāi)源MLLMs如LLaVA[28]展示了這些能力,而閉源模型如GPT4-V[34]和Gemini[40]在捕捉場(chǎng)景上下文、推理和創(chuàng)造力方面邁出了更大的一步。盡管對(duì)于特定任務(wù),這些閉源模型可能不直接具備能力或微調(diào)。然而,提示學(xué)習(xí)在一定程度上可以克服這些限制。本文致力于探索CoT[43]技術(shù),以增強(qiáng)MLLM捕捉復(fù)雜視覺(jué)場(chǎng)景完整上下文的能力,從而進(jìn)一步加強(qiáng)其推理能力。

2.2 工具增強(qiáng)型語(yǔ)言模型

近年來(lái),盡管大型語(yǔ)言模型(LLMs)表現(xiàn)出色,但它們并非沒(méi)有固有的局限性。這些包括獲取最新信息的挑戰(zhàn)[21]、無(wú)法使用特定工具[31, 38]以及執(zhí)行復(fù)雜推理過(guò)程的困難[29, 30]。與此同時(shí),研究人員越來(lái)越感興趣于使用外部工具和模塊化方法,通過(guò)提示和上下文學(xué)習(xí)來(lái)增強(qiáng)LLM。這些增強(qiáng)的LLM可以利用不同的外部工具為L(zhǎng)LM提供更多功能并獲得更多知識(shí)。一些工作[5, 12, 17, 19]利用提示生成可以由計(jì)算機(jī)執(zhí)行的復(fù)雜程序,調(diào)用不同的工具更有效地執(zhí)行邏輯推理任務(wù)。例如,PaLI-X-VPD[17]通過(guò)生成多個(gè)候選程序,通過(guò)外部工具執(zhí)行程序并驗(yàn)證其正確性,提取了LLM的推理能力。它將每個(gè)正確的程序轉(zhuǎn)換為推理步驟的語(yǔ)言描述,形成CoT。此外,一些工作提出了基準(zhǔn)測(cè)試(如API Bank[25]、ToolQA[55]和MetaTool[18])來(lái)評(píng)估LLM工具使用的有效性。本文主要強(qiáng)調(diào)增強(qiáng)MLLM的工具使用能力。

2.3 多模態(tài)CoT推理

LLMs和MLLMs越來(lái)越受歡迎。盡管它們自身的能力越來(lái)越強(qiáng),但良好的提示方法仍然是充分發(fā)揮它們能力的關(guān)鍵。思維鏈(CoT)是提高LLM推理能力的一種方法,CoT的核心是鼓勵(lì)LLM以人類思維方式明確它們的推理,具體是在獲得答案之前添加邏輯思考過(guò)程。在NLP領(lǐng)域,CoT已經(jīng)得到了廣泛的研究[8, 15, 42, 51]。Jason Wei等人[43]通過(guò)簡(jiǎn)單地將問(wèn)題解決思路直接添加到上下文示例中,顯著提高了LLM的推理能力。隨后,研究人員主要關(guān)注如何自動(dòng)化構(gòu)建CoT以減少手動(dòng)注釋和更復(fù)雜的結(jié)構(gòu),如思維樹(shù)(ToT)[45]和思維圖(GoT)[3, 22, 46]。

同時(shí),在多模態(tài)CoT方面也取得了驚人的進(jìn)展。MM-CoT[52]首先提出了一個(gè)使用文本和圖像對(duì)作為輸入的兩階段推理框架,首先生成理由,然后生成答案。隨后的工作[14, 14, 41, 53]大多基于這個(gè)框架,專注于設(shè)計(jì)特殊視覺(jué)-語(yǔ)言特征融合機(jī)制以增強(qiáng)多模態(tài)信息交互。然而,這些CoT提示方法需要在自然語(yǔ)言推理的真值上進(jìn)行微調(diào),這需要注釋和計(jì)算成本高昂?;谶@個(gè)問(wèn)題,研究人員提出了其他不需要手動(dòng)注釋和訓(xùn)練的CoT方法。一方面,它們充分挖掘文本信息。例如,DD-CoT[53]進(jìn)一步完善了生成CoT的過(guò)程。它沒(méi)有引入視覺(jué)信息,而是使用LLM將問(wèn)題分解成多個(gè)相關(guān)子問(wèn)題,然后逐個(gè)回答每個(gè)子問(wèn)題以形成CoT。另一方面,研究人員致力于通過(guò)各種手段增強(qiáng)視覺(jué)信息。例如,CoCoT[49]通過(guò)比較圖像之間的相似性和差異來(lái)捕捉圖像特征,而CCoT[32]通過(guò)解構(gòu)圖像中的目標(biāo)和屬性來(lái)獲取場(chǎng)景圖以協(xié)助理由生成。我們方法與這些方法的關(guān)鍵區(qū)別在于,在挖掘文本信息時(shí),我們提前引入視覺(jué)信息,使決策更加合理和事實(shí)。此外,我們通過(guò)調(diào)用多個(gè)專家更全面地增強(qiáng)視覺(jué)信息。最后,Cantor也是一種不需要訓(xùn)練或手動(dòng)注釋的方法,因此它具有強(qiáng)大的通用性和便利性。本文強(qiáng)調(diào)增強(qiáng)MLLM的專家使用能力??紤]到MLLM具有多模態(tài)通用能力,它自然適合擔(dān)任各種專家。因此,本文將賦予MLLM各種身份,并探索其扮演專家的能力。

3. 方法

為了解決多模態(tài)CoT在解決視覺(jué)推理任務(wù)中的局限性,我們提出了Cantor,它引入了視覺(jué)信息以做出正確的決策,并使用單個(gè)MLLM充當(dāng)多個(gè)專家,以適應(yīng)廣泛的問(wèn)題的需要。我們描述了Cantor的框架(第3.1節(jié))。然后,我們?cè)敿?xì)介紹了我們的兩步方法:首先是決策生成(第3.2節(jié)),其次是執(zhí)行(第3.3節(jié))。

3.1. 預(yù)備知識(shí)

Cantor由兩個(gè)階段組成:決策生成和執(zhí)行,如圖2所示。在Cantor的決策生成階段,Cantor的輸入包括X = {I, T, Pin},其中I表示視覺(jué)輸入(圖像或標(biāo)題),T表示文本輸入,代表問(wèn)題陳述及其上下文的串聯(lián),Pin代表生成決策的提示。正式地,給定輸入查詢X,生成決策P如下:Pout = F(X),其中F表示決策生成器(LLM或MLLM)。特別地,Pout = {R, O, St},其中R表示原則分析,O表示模塊選擇與推理,St表示分配給專家模塊的任務(wù)。具體示例,請(qǐng)參見(jiàn)圖2中間的藍(lán)色部分。

在執(zhí)行模塊化階段,從決策Pout和圖像I派生的多個(gè)子任務(wù)St = {st1, st2...stn}共同發(fā)送到相應(yīng)的專家模塊,以獲得子答案Sa = {sa1, sa2, ..., san}。過(guò)程如下:Sa = G(St, I),其中G表示各種專家(MLLM)。這個(gè)過(guò)程對(duì)應(yīng)于圖2右下角紫色部分的執(zhí)行模塊化階段。然后在執(zhí)行綜合階段,我們將子任務(wù)和子答案串聯(lián)起來(lái)形成輔助信息S = {St, Sa},并設(shè)計(jì)答案生成提示E。最后,輸入更新后的輸入X' = {I, T, S, E}并推斷最終答案A = F(X'),其中F表示答案生成器(LLM或MLLM),如圖2右上角所示。


Cantor?:激發(fā)MLLM的多模態(tài)思維鏈 -AI.x社區(qū)


圖 2. Cantor的概述和一個(gè)具體示例。Cantor通過(guò)決策生成器分析圖像和問(wèn)題,提供問(wèn)題的原則分析,并提供模塊選擇與推理以及具體的任務(wù)分配。隨后,MLLM充當(dāng)各種專家模塊來(lái)執(zhí)行子任務(wù)。最后,Cantor通過(guò)答案生成器進(jìn)行綜合和思考,提供最終答案。

(注釋:Cantor是一個(gè)多模態(tài)思維鏈框架,旨在增強(qiáng)大型多模態(tài)語(yǔ)言模型(MLLMs)的決策能力。其工作原理可以分解為幾個(gè)關(guān)鍵步驟,結(jié)合了視覺(jué)信息和邏輯推理來(lái)解決復(fù)雜的視覺(jué)推理問(wèn)題。

1. 決策生成(Decision Generation):

- 在這一階段,Cantor使用決策生成器來(lái)分析問(wèn)題和圖像。

- 決策生成器會(huì)進(jìn)行原理分析(Principle Analysis),即對(duì)問(wèn)題進(jìn)行初步理解,并確定解決問(wèn)題所需的基本原理。

- 然后,Cantor進(jìn)行模塊選擇與推理(Module Selection & Reason),決定需要哪些專家模塊來(lái)幫助解決問(wèn)題。

- 最后,Cantor進(jìn)行任務(wù)分配(Task Allocation),為每個(gè)選定的專家模塊分配具體的任務(wù)。

2. 執(zhí)行模塊化(Execution-Modularization):

- 在這一階段,MLLM作為不同的專家模塊執(zhí)行分配的子任務(wù)。

- 每個(gè)專家模塊針對(duì)其特定的任務(wù)進(jìn)行操作,比如“TextIntel Extractor”提取文本信息,“ObjectQuant Locator”比較粒子數(shù)量等。

3. 執(zhí)行綜合(Execution-Synthesis):

- 完成所有子任務(wù)后,Cantor進(jìn)入執(zhí)行綜合階段。

- 在這一階段,Cantor將所有子任務(wù)和得到的子答案進(jìn)行綜合,形成輔助推理的補(bǔ)充信息。

4. 答案生成(Answer Generation):

- 最后,Cantor通過(guò)答案生成器進(jìn)行最終的綜合和思考。

- 答案生成器結(jié)合問(wèn)題、選項(xiàng)和補(bǔ)充信息,生成最終答案。

以圖片中的具體示例來(lái)解釋Cantor的工作原理:

- 問(wèn)題涉及到比較兩個(gè)樣本(Sample A和Sample B)的溫度,已知它們的粒子平均速度相同,但質(zhì)量不同。

- 在決策生成階段,Cantor確定需要使用“TextIntel Extractor”來(lái)提取樣本中粒子的質(zhì)量和速度信息,以及使用“ObjectQuant Locator”來(lái)比較兩個(gè)樣本中粒子的數(shù)量。

- 在執(zhí)行模塊化階段,MLLM作為專家模塊執(zhí)行以下任務(wù):

- “TextIntel Extractor”提取出Sample A的質(zhì)量為44單位,速度為1,400米/秒;Sample B的質(zhì)量為46單位,速度也為1,400米/秒。

- “ObjectQuant Locator”確定兩個(gè)樣本中的粒子數(shù)量相同。

- 在執(zhí)行綜合階段,Cantor綜合這些信息,并利用動(dòng)能公式(1/2mv^2)來(lái)比較兩個(gè)樣本的平均動(dòng)能,從而推斷出哪個(gè)樣本具有更高的溫度。

- 最終,在答案生成階段,Cantor得出結(jié)論:Sample B由于質(zhì)量更大,即使速度相同,也會(huì)擁有更多的動(dòng)能,因此溫度更高。

通過(guò)這種方法,Cantor能夠有效地結(jié)合視覺(jué)信息和邏輯推理,解決復(fù)雜的視覺(jué)推理問(wèn)題,提供準(zhǔn)確的答案。)

3.2. 第1步:決策生成

我們的第一步是生成考慮到并部署問(wèn)題決策的Pout。請(qǐng)注意,我們正在研究無(wú)監(jiān)督視覺(jué)推理任務(wù),這涉及讓模型為問(wèn)題生成相應(yīng)的決策而無(wú)需真實(shí)情況[44, 49]。此外,為了標(biāo)準(zhǔn)化和準(zhǔn)確性,我們采用了少量設(shè)置提示,為模型提供決策生成提示Pin,其中包括決策生成的要求、可調(diào)用模塊的特點(diǎn)以及幾個(gè)手動(dòng)編寫(xiě)的決策示例。

讓我們?cè)敿?xì)介紹Cantor的決策生成過(guò)程以及提示Pin的具體組成部分:

1. 擔(dān)任決策生成器。我們用“你是一個(gè)高級(jí)問(wèn)答代理,需要四個(gè)專業(yè)模塊來(lái)幫助分析和回應(yīng)有關(guān)圖像的查詢”來(lái)提示LLM或MLLM,使其能夠在Cantor中充當(dāng)決策生成器。

2. 專家模塊揭曉。如圖2的專家模塊所示。我們?yōu)镃antor提供了每個(gè)專家模塊的詳細(xì)特點(diǎn)信息,目的是在決策生成階段根據(jù)解決問(wèn)題的原則分配任務(wù)給每個(gè)專家模塊,如下:TextIntel提?。涸撃K提取并轉(zhuǎn)換圖像中的文本為可編輯文本格式。它特別適用于包含文本和圖形元素混合的圖像。ObjectQuant定位器:該模塊識(shí)別并定位圖像中的對(duì)象。它在比較數(shù)量和識(shí)別空間關(guān)系方面非常先進(jìn)。VisionIQ分析師:該模塊處理并解釋視覺(jué)數(shù)據(jù),使你能夠提出與圖像內(nèi)容相關(guān)的任何查詢。ChartSense專家:該模塊專門(mén)分析和解釋圖表和圖形中的信息。它可以提取數(shù)據(jù)點(diǎn),了解趨勢(shì),并識(shí)別圖表中的關(guān)鍵組件,如標(biāo)題、軸、標(biāo)簽和圖例。

3. 原理分析和模塊選擇與推理。我們提示Cantor“為你回答問(wèn)題的方法提供理由,解釋你將如何使用圖像和模塊中的信息來(lái)形成一個(gè)全面的答案”,對(duì)問(wèn)題進(jìn)行整體評(píng)估和模塊分析。

4. 任務(wù)分配。我們提示“根據(jù)他們的功能,按需為每個(gè)模塊分配特定任務(wù),以收集準(zhǔn)確回答問(wèn)題所必需的額外信息?!?,要求Cantor選擇必要的模塊并分配它們相應(yīng)的特定任務(wù)。

5. 上下文洞察和實(shí)際應(yīng)用。我們引入了一些上下文示例以增強(qiáng)Cantor對(duì)我們提示的理解,確保其響應(yīng)符合期望的格式。詳細(xì)的實(shí)例在補(bǔ)充材料中提供以供進(jìn)一步參考。

然后,我們輸入需要解決的具體問(wèn)題及其上下文細(xì)節(jié),使Cantor能夠制定微妙的決策。圖2左半部分的藍(lán)色部分顯示了一個(gè)具體的決策生成示例。

上述五個(gè)部分結(jié)合形成最終的決策生成提示Pin。隨后,Pin與視覺(jué)輸入I和文本輸入T一起,構(gòu)成了Cantor第一階段的完整輸入,提示Cantor提供深思熟慮的決策Pout。

決策生成方法代表了我們工作的核心新貢獻(xiàn)。最初,LLM或MLLM被用作決策生成器,充當(dāng)大腦。接下來(lái),集成了一系列專業(yè)專家模塊,增強(qiáng)了決策生成,具有類似肢體的多樣化能力。這種整合確保了決策生成既全面又細(xì)致,利用每個(gè)模塊的優(yōu)勢(shì)。之后,決策生成器根據(jù)原則分析中獲得的洞察力為選定的專家模塊定制任務(wù)。這種動(dòng)態(tài)任務(wù)分配增強(qiáng)了Cantor的效率和有效性。最終,引入上下文示例使MLLM能夠?qū)W習(xí)和參考,從而進(jìn)一步提高決策生成的準(zhǔn)確性和適應(yīng)性。值得注意的是,在決策生成階段而不是執(zhí)行階段提前引入視覺(jué)上下文,有效地緩解了確定性幻覺(jué)。

3.3. 第2步:執(zhí)行

在Cantor中,執(zhí)行階段可以分為兩個(gè)階段,執(zhí)行模塊化和執(zhí)行綜合。

前者通過(guò)調(diào)用各種專家模塊并提供輔助信息來(lái)完成決策生成階段分配的子任務(wù)。后者總結(jié)了執(zhí)行模塊化階段的各種輔助信息,并通過(guò)合理和詳細(xì)的思考生成最終答案。

執(zhí)行模塊化。我們調(diào)用專家模塊來(lái)執(zhí)行決策生成階段分配的各種子任務(wù)。特別地,我們首先從Pout中提取子任務(wù)St = {st1, st2...stn}。接下來(lái),我們按順序找到與子任務(wù)sti對(duì)應(yīng)的專家模塊,并將子任務(wù)sti作為提示輸入到專家中,例如:“ObjectQuant定位器:哪個(gè)樣本有更多的顆粒?”。隨后,我們獲得子任務(wù)答案sai,例如,“它們的數(shù)量相同”,如圖2右下角所示。

象征性地,我們輸入由MLLM扮演的專家,子任務(wù)sti和圖像I,MLLM提供了子任務(wù)的執(zhí)行結(jié)果。過(guò)程如下:sai = G(I, sti),其中G(·)表示MLLM扮演專家,sai表示子任務(wù)的答案。在執(zhí)行子任務(wù)時(shí),我們只使用一個(gè)MLLM來(lái)扮演不同的專家模塊。這不僅簡(jiǎn)化了方法的流程,而且旨在充分利用MLLM的高級(jí)認(rèn)知能力。

執(zhí)行綜合。我們將獲得的子任務(wù)和子任務(wù)答案進(jìn)行串聯(lián)和總結(jié),以獲得輔助推理的輔助信息S,如下:S = {[st1, sa1] · [st2, sa2] · ... · [stn, san]}。值得注意的是,在答案生成階段,我們引入了答案生成提示E,其中包括生成答案的提示和格式化要求,如下:“你是一個(gè)知識(shí)淵博且精通信息整合的科學(xué)專家。請(qǐng)根據(jù)給定的問(wèn)題、選項(xiàng)和補(bǔ)充信息逐步思考并回答問(wèn)題。請(qǐng)注意,我們不僅需要答案,更重要的是,我們需要獲得答案的理由。請(qǐng)結(jié)合你的知識(shí)和補(bǔ)充信息來(lái)獲得推理和答案。請(qǐng)優(yōu)先使用你的知識(shí)回答問(wèn)題。如果無(wú)法回答,請(qǐng)保持批判性思維,并選擇有效信息來(lái)幫助你選擇最正確的選項(xiàng)作為答案。此外,請(qǐng)不要僅依賴補(bǔ)充信息,因?yàn)樘峁┑难a(bǔ)充信息可能并不總是有效的?!?/p>

這包括三個(gè)關(guān)鍵點(diǎn)。首先,我們使用提示讓Cantor扮演一個(gè)知識(shí)淵博且擅長(zhǎng)整合信息的答案生成器的角色。這不僅確保了其專業(yè)性和對(duì)問(wèn)題的基本判斷能力,而且還確保了它能夠更好地整合執(zhí)行模塊化階段獲得的信息。其次,為了提高可解釋性,展示Cantor的思考過(guò)程并提高其思考能力,我們要求Cantor首先回答基本原則,然后生成相應(yīng)的選項(xiàng),如圖2中的粉色框所示。最后,我們要求Cantor保持理性和批判性,確保它不僅僅依賴于從執(zhí)行模塊化階段獲得的信息。這種方法促進(jìn)了更加平衡和全面的執(zhí)行綜合過(guò)程。

4.實(shí)驗(yàn)(略)

5. 結(jié)論

在本文中,我們介紹了一個(gè)鼓舞人心的多模態(tài)思維鏈框架,名為Cantor,旨在增強(qiáng)MLLMs的決策能力。通過(guò)深入探討視覺(jué)信息在決策生成過(guò)程中的關(guān)鍵作用,本文強(qiáng)調(diào)了在決策階段整合視覺(jué)線索的重要性,有效減輕了LLMs可能出現(xiàn)的幻覺(jué)問(wèn)題。Cantor框架的新穎之處還在于其能夠使MLLM模擬特定領(lǐng)域的專家角色,獲取高級(jí)信息,從而促進(jìn)更合理和深入的推理過(guò)程。在涉及復(fù)雜視覺(jué)推理任務(wù)的ScienceQA和MathVista挑戰(zhàn)性基準(zhǔn)測(cè)試中,Cantor展現(xiàn)出了顯著的適應(yīng)性和有效性,證明了其在解決各個(gè)領(lǐng)域現(xiàn)實(shí)世界推理問(wèn)題方面的強(qiáng)有力潛力。

Gao T, Chen P, Zhang M, et al. Cantor: Inspiring Multimodal Chain-of-Thought of MLLM[J]. arXiv preprint arXiv:2404.16033, 2024.

?

本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:????https://mp.weixin.qq.com/s/h2cTwcjoTLDO1BdD6f90SA???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦