多模態(tài)大模型的構(gòu)成式思維鏈提示 原創(chuàng)
??摘要:強(qiáng)大的視覺主干與大型語言模型(LLM)推理的結(jié)合,導(dǎo)致大型多模態(tài)模型(LMM)成為當(dāng)前廣泛視覺語言(VL)任務(wù)的標(biāo)準(zhǔn)。然而,最近的研究顯示,即使是最先進(jìn)的LMM,在捕捉屬性和對象之間關(guān)系等構(gòu)成性視覺推理方面仍然存在困難。一種解決方案是利用場景圖(SG)——對象及其關(guān)系和屬性的形式化表達(dá),它已廣泛用作連接視覺和文本領(lǐng)域的橋梁。然而,場景圖數(shù)據(jù)需要場景圖注釋,這在收集方面成本高昂,因此不易擴(kuò)展。此外,基于SG數(shù)據(jù)微調(diào)LLM可能會導(dǎo)致嚴(yán)重遺忘預(yù)訓(xùn)練目標(biāo)。為了克服這一問題,受到思維鏈方法的啟發(fā),我們提出了組成式思維鏈(CCoT),這是一種新型的零-shot思維鏈提示方法,利用SG表示從LLM中提取組成知識。具體來說,我們首先使用LLM生成一個SG,然后在提示中使用該SG生成響應(yīng)。通過廣泛的實驗,我們發(fā)現(xiàn)提出的CCoT方法不僅改善了在多個視覺語言(VL)組成基準(zhǔn)上的LLM性能,還提高了幾種流行LLM在一般多模態(tài)基準(zhǔn)上的性能,而無需微調(diào)或標(biāo)記的SG ground-truth 。代碼:??https://github.com/chancharikmitra/CCoT??。
1. 簡介
近年來,諸如LLaVA [46]、GPT-4V [55] 和InstructBLIP [16] 等大型多模態(tài)模型(LMMs)在視覺和語言(VL)領(lǐng)域展示了令人印象深刻的成果,特別是在多模態(tài)推理和視覺問答(VQA)方面 [5, 39, 47, 48, 52]。然而,最近的實證研究 [18, 28, 51] 表明,表現(xiàn)最佳的VL模型傾向于將圖像視為“對象包”。請看圖1中的示例。假設(shè)一個VL模型被要求描述提供的圖像。該圖像包含許多物體:筆記本電腦、鼠標(biāo)、一些書和一張桌子。描述這些物體之間的關(guān)系以及它們的重要特征是一個具有挑戰(zhàn)性的問題。因此,我們有動機(jī)利用場景圖(SG),它捕捉了對象的重要關(guān)系和屬性。例如,LMM使用生成的SG來生成描述:“在一張桌子上,有一本疊在筆記本電腦上的書?!?/p>
圖 1. 我們的組合鏈?zhǔn)剿季S(Compositional Chain-of-Thought,CCoT)方法的高級概述。我們的CCoT方法包括一個兩步提示過程:1. 首先,提示大型語言模型(LLM)生成與圖像和任務(wù)提示相關(guān)的場景圖,如圖中的任務(wù)“描述圖像”。2. 隨后,提示LLM使用生成的場景圖、圖像和任務(wù)提示作為上下文,結(jié)合場景圖中的組合信息,以正確描述復(fù)雜場景。
(注釋:
1. Scene Graph Generation(場景圖生成):
- 場景圖是一種數(shù)據(jù)結(jié)構(gòu),用于表示圖像中的對象及其相互關(guān)系。在CCoT方法中,首先需要生成與圖像和任務(wù)提示相關(guān)的一個場景圖。
- Response Generation(響應(yīng)生成):
- 在生成了場景圖之后,使用這個場景圖、圖像和任務(wù)提示作為上下文,來生成一個響應(yīng)。這個響應(yīng)需要結(jié)合場景圖中的組合信息,以提供對復(fù)雜場景的正確描述。
3. Task Prompt(任務(wù)提示):
- 任務(wù)提示是指導(dǎo)場景圖生成和響應(yīng)生成的指令。例如,在圖片中的任務(wù)提示是“Describe the image”,即描述圖像。
4. LMM(Language Model Module,語言模型模塊):
- LMM是CCoT方法中的核心組件,負(fù)責(zé)根據(jù)任務(wù)提示生成場景圖和響應(yīng)。在第一步中,LMM被提示生成與圖像和任務(wù)相關(guān)的一個場景圖;在第二步中,LMM使用生成的場景圖、圖像和任務(wù)提示來生成響應(yīng)。
5. Example Scene Graph(示例場景圖):
- 圖片中給出了一個示例場景圖,展示了一個桌子上有一個筆記本電腦,筆記本電腦上有一摞書和一個粉色鼠標(biāo)。場景圖中的元素包括“table”(桌子)、“l(fā)aptop”(筆記本電腦)、“books”(書)和“pink mouse”(粉色鼠標(biāo)),以及它們之間的關(guān)系,如“on”(在...上面)。
6. Figure 1:
- 圖片中的Figure 1展示了CCoT方法的高層次視圖,包括場景圖生成和響應(yīng)生成的步驟。
總的來說,CCoT方法通過兩步提示過程,利用語言模型模塊來生成場景圖和響應(yīng),以實現(xiàn)對復(fù)雜場景的描述。這種方法可以提高對圖像內(nèi)容的理解和描述的準(zhǔn)確性。)
理解視覺場景的結(jié)構(gòu)是機(jī)器感知的核心問題。視覺場景不僅包括物體,還包括相關(guān)的特征和關(guān)系,這些對于更好地理解場景的組合性至關(guān)重要。在本文中,我們考慮如何最好地改進(jìn)LMMs的組合性。最近,場景圖(SG)標(biāo)注——視覺場景的結(jié)構(gòu)化圖表示——已被引入作為強(qiáng)大的VL表示,并在許多前人的工作中得到廣泛探索 [24, 34, 79, 80]。然而,SG數(shù)據(jù)的可用性不如文本描述,因為獲取SG的成本高且不可擴(kuò)展。此外,正如[28]所示,在SG數(shù)據(jù)上訓(xùn)練可能導(dǎo)致對預(yù)訓(xùn)練目標(biāo)的遺忘。因此,在本文中,我們提出在沒有標(biāo)注的場景圖數(shù)據(jù)和不進(jìn)行微調(diào)的情況下,利用場景圖表示LMMs。
最近,大型語言模型(LLMs)通過結(jié)合鏈?zhǔn)剿季S(CoT)提示方法 [36, 76] 顯示出令人鼓舞的結(jié)果。CoT方法使用LLM來執(zhí)行任務(wù),包括中間推理步驟,無論是零樣本(沒有明確的例子)還是少樣本(有明確的例子)。受此啟發(fā),我們設(shè)計了一種零樣本的CoT方法,該方法利用場景圖表示進(jìn)行多模態(tài)和組合視覺推理任務(wù)。我們的方法允許我們從LMM中提取比沒有提示時更多的組合知識。接下來,我們問自己,應(yīng)該如何設(shè)計一種CoT提示方法,以利用場景圖而不依賴于真實的SG標(biāo)注或模型微調(diào)。
我們提出的設(shè)計方法——組合鏈?zhǔn)剿季S(CCoT)——可以分為兩步。第一步是生成場景圖,以繞過使用輸入圖像和任務(wù)提示(例如,視覺問題)所需的真實SG數(shù)據(jù)。第二步是使用圖像、任務(wù)提示和生成的場景圖來提示LMM以生成響應(yīng)。在提示中結(jié)合場景圖消除了微調(diào)的需要,并防止遺忘。我們方法的另一個好處是生成的SG可以描述任何視覺場景,因此使CCoT普遍適用于更廣泛的VL任務(wù)。最后,生成的場景圖是圖像的緊湊語言表示,使CCoT成為一種令牌效率高的提示方法。鑒于LMMs由于同時處理圖像和文本輸入而常面臨的有限文本上下文長度,這一點尤為重要。
總而言之,我們的主要貢獻(xiàn)如下:
(i) 我們引入了CCoT,這是一種零樣本鏈?zhǔn)剿季S方法,利用場景圖表示從LMM中提取組合知識;
(ii) 我們提出的CCoT方法不需要任務(wù)特定的微調(diào)或標(biāo)注的SG數(shù)據(jù),并且適用于各種不同的LMM架構(gòu)且易于使用;
(iii) 我們的方法不僅在Winoground和WHOOPS! 等VL組合基準(zhǔn)上,而且在SEEDBench、MMBench和LLaVA-Bench-in-the-Wild等一般多模態(tài)基準(zhǔn)上均顯示出LLaVA-1.5、Instruct-BLIP、SPHINX和GPT-4V的性能提升,突顯了我們方法的有效性。
2. 相關(guān)工作
大型多模態(tài)模型(LMMs)。LMMs的發(fā)展主要得益于將LLMs強(qiáng)大的推理能力 [15, 60, 67] 與現(xiàn)有的VL模型結(jié)合起來。一個很好的例子是對比視覺和語言模型 [20, 40, 59],這些模型在連接視覺和語言表示方面邁出了重要的一步。然而,這些方法在直接應(yīng)用于需要生成組件或更明確的跨模態(tài)推理的下游任務(wù)(如視覺問答 [5, 23, 29, 31, 52, 61])時有限。解決方案是將LLMs的推理和生成能力應(yīng)用于文本和視覺信息——從而開發(fā)出LMMs。
LMMs直接對嵌入的視覺特征進(jìn)行推理 [1, 7, 16, 19, 21, 41, 45, 46, 83, 84, 92]。特別重要的是對模型進(jìn)行視覺指令微調(diào) [46, 89]。受LLMs的文本指令微調(diào) [75] 啟發(fā),視覺指令微調(diào)通過向頂級LLMs(如GPT-4 [55])傳遞詳細(xì)的文本描述和對象位置信息,已被證明對復(fù)雜的視覺任務(wù)有效。然而,這種方法需要高質(zhì)量的訓(xùn)練數(shù)據(jù),而這并不總是可用或可擴(kuò)展的。在本文中,我們提出了一種不需要訓(xùn)練數(shù)據(jù)的方法。
與LMMs類似,另一類多模態(tài)方法使用代碼生成作為視覺推理的代理(如ViperGPT [65]、VisProg [22] 和CodeVQA [64]),我們在本文中稱之為視覺程序模型(VPMs)[49, 57, 62, 63, 77]。受神經(jīng)模塊網(wǎng)絡(luò)架構(gòu) [3, 4, 33] 啟發(fā),這些架構(gòu)利用和擴(kuò)展了視覺推理的組合性質(zhì),VPMs建立在無需額外編程的高效現(xiàn)成LLMs的基礎(chǔ)上。值得注意的是,這些方法并不直接對視覺信息進(jìn)行推理,且受限于它們通過有限上下文提供的精確API或模型。與這些方法不同,我們在此探索了利用場景圖作為視覺和語言領(lǐng)域之間橋梁的LMMs在組合視覺推理中的潛力。
多模態(tài)提示方法。 考慮到LLMs和LMMs的日益普及,提示方法對于利用它們的能力至關(guān)重要,因為它們能夠精確控制模型輸出并提供使用模型的上下文。更重要的是,提示方法發(fā)生在推理時間。它們包括零樣本方法 [35, 69, 71]、少樣本方法 [13, 17, 50, 54]、專家提示 [78] 和鏈?zhǔn)剿季S(CoT)[76, 87],以及擴(kuò)展如自一致性 [73]、思維樹(ToT)[81] 和思維圖(GoT)[11, 38, 82] 等更復(fù)雜的結(jié)構(gòu)。據(jù)我們所知,三種方法——VidIL [74]、DDCoT [91] 和多模態(tài)CoT方法 [70, 88]——代表了當(dāng)前多模態(tài)提示的最新技術(shù)。VidIL是一種專為視頻設(shè)計的架構(gòu),具有一個在視頻幀字幕上進(jìn)行推理的語言模型。同樣,DDCoT設(shè)計了其自己的CoT提示方法,而不是明確的視覺特征。最后,多模態(tài)CoT利用一個直接對視覺和文本輸入特征進(jìn)行推理的LMM,但其鏈?zhǔn)剿季S提示方法需要在真實的自然語言推理上進(jìn)行微調(diào),這既昂貴又耗時。
CCoT與這些方法的關(guān)鍵區(qū)別在于,我們在CoT設(shè)計中利用生成的SG而不是字幕(生成或收集的真實數(shù)據(jù))作為推理步驟。這提高了LMMs的組合性,能夠明確對視覺特征進(jìn)行推理。此外,我們證明了我們的方法更廣泛地增強(qiáng)了多模態(tài)推理。最后,由于CCoT是一種在推理時間使用的零樣本方法,它廣泛適用于各種基于LMMs的架構(gòu)。
組合性。 組合性,即理解概念是由其各自的子部分和關(guān)系組成的,通過對圖像中的對象、關(guān)系和屬性進(jìn)行推理,是視覺概念的寶貴范式。組合性已應(yīng)用于多個領(lǐng)域,包括:視覺和語言[2, 14, 18, 28, 42, 66, 85]、視覺問答 [29, 37, 52]、視頻理解 [6, 8, 25, 27, 53, 72]、關(guān)系推理 [9, 10, 30] 和場景圖 [24, 26, 32, 58, 79]。最近的實證研究 [28, 68, 86, 90] 顯示,即使是最強(qiáng)的LMMs在進(jìn)行組合視覺理解時也會遇到困難,包括識別對象屬性和對象之間的關(guān)系。特別是,研究表明VL模型 [51] 傾向于學(xué)習(xí)“對象包”表示,使它們的組合性較差。在這項工作中,我們展示了更結(jié)構(gòu)化的CoT方法可以提高LMMs的組合推理能力,通過在組合基準(zhǔn)上的改進(jìn)表現(xiàn)證明了這一點。
3. 組合鏈?zhǔn)剿季S
為了應(yīng)對LMMs將圖像視為“對象包”的挑戰(zhàn),如前人的研究所示,我們的方法引入了一種新穎的方法來增強(qiáng)組合視覺理解。我們首先描述標(biāo)準(zhǔn)的LMM架構(gòu)(第3.1節(jié))。然后介紹我們兩步鏈?zhǔn)剿季S方法:第一步是場景圖生成(第3.2節(jié)),第二步是響應(yīng)生成(第3.3節(jié))。我們的方法如圖2所示。
圖2. CCoT的完整提示示例。我們提示方法的第一步是根據(jù)圖像和文本任務(wù)作為背景生成一個場景圖。隨后,通過使用圖像、場景圖、問題和答案提取提示來提示LLM,從中提取答案。我們方法中獨特的提示部分已用粗體標(biāo)記。
(注釋:
?圖片中展示的是Compositional Chain-of-Thought (CCoT)方法的完整提示示例。CCoT方法通過生成場景圖(Scene Graph)和響應(yīng)(Response)來提高對圖像的理解和描述的準(zhǔn)確性。下面是對圖片中內(nèi)容的詳細(xì)解釋:
1. Scene Graph Generation(場景圖生成):
- 場景圖是一種結(jié)構(gòu)化的數(shù)據(jù)表示,用于描述圖像中的物體、屬性和它們之間的關(guān)系。在CCoT方法中,第一步是生成場景圖。
2. Response Generation(響應(yīng)生成):
- 在生成場景圖之后,使用場景圖、圖像和任務(wù)提示作為上下文,來生成一個響應(yīng)。這個響應(yīng)需要結(jié)合場景圖中的信息,以提供對問題的正確答案。
3. Task(任務(wù)):
- 任務(wù)是選擇更準(zhǔn)確的描述。這里給出了兩個選項:
- (A) Some books on a laptop(一些書在筆記本電腦上)
- (B) A laptop on some books(一個筆記本電腦在一些書上)
4. Scene Graph in JSON Format(JSON格式的場景圖):
- 場景圖以JSON格式表示,包括以下元素:
- "objects":與回答問題相關(guān)的物體,例如 "books"(書)、"laptop"(筆記本電腦)、"mouse"(鼠標(biāo))。
- "attributes":物體的屬性,例如鼠標(biāo)的屬性是 "pink"(粉色),筆記本電腦的屬性是 "gray"(灰色)。
- "relationships":描述物體之間關(guān)系的數(shù)組,例如 "books" 和 "laptop" 之間的關(guān)系是 "on"(在...上面)。
5. Answer Extraction(答案提?。?
- 使用圖像、場景圖、問題和答案提取提示,從語言模型模塊(LMM)中提取答案。在本例中,答案是 "A"。
6. Full Prompt Example of CCoT(CCoT的完整提示示例):
- 圖片中的Figure 2展示了CCoT方法的完整提示示例。首先,使用圖像和文本任務(wù)作為上下文生成場景圖。然后,通過提示LMM,結(jié)合圖像、場景圖、問題和答案提取提示來提取答案。
7. Prompt Sections(提示部分):
- 特別強(qiáng)調(diào)的部分是CCoT方法中獨特的提示部分,這些部分使用加粗字體表示。
8. LMM(Language Model Module,語言模型模塊):
- LMM是CCoT方法中的核心組件,負(fù)責(zé)生成場景圖和響應(yīng)。在本例中,LMM根據(jù)提供的圖像和場景圖,選擇了正確的描述選項 "A"。
總的來說,CCoT方法通過生成場景圖和響應(yīng),結(jié)合圖像和任務(wù)提示,提高了對圖像內(nèi)容的理解和描述的準(zhǔn)確性。在本例中,通過分析圖像和生成的場景圖,LMM能夠正確選擇描述圖像的更準(zhǔn)確選項。)
3.1 初步知識
LMMs是直接對視覺和語言模態(tài)進(jìn)行推理的多模態(tài)模型。它們通常接收一個圖像 I 和一個關(guān)聯(lián)的文本形式的任務(wù)提示 Pin(例如,問題、字幕生成等)。每種模態(tài)然后被編碼到一個共享的嵌入空間,該空間由語言模型 fθ(·)(參數(shù)為θ)進(jìn)行推理。更具體地說,圖像由一個可訓(xùn)練的視覺編碼器 v?(·)(參數(shù)為?)進(jìn)行編碼,而語言嵌入為 l。給定輸入圖像 I 和輸入任務(wù)提示 Pin,語言模型(通常是LLM)然后輸出文本響應(yīng) R。
R = fθ(v?(I),l(Pin))
LLM、視覺編碼架構(gòu)和參數(shù)θ、?的預(yù)訓(xùn)練方法在不同模型之間有所不同,但上述總體方法保持不變。
我們提出CCoT,這是一種零樣本鏈?zhǔn)剿季S提示方法,利用場景圖生成來提高LMMs的組合視覺理解和多模態(tài)推理。值得注意的是,這種方法不需要任何微調(diào),因為它純粹是基于提示的。此外,不需要標(biāo)注的SG,因為該方法是零樣本的。最終,我們的方法圍繞一個場景圖生成提示 Sin 展開,該提示可以集成到 Pin 中,使得LMM能夠輸出一個場景圖 Sg,作為中間的多模態(tài)推理步驟,以更好地響應(yīng)任務(wù)提示,如問題、分類或字幕生成。
3.2 第一步:場景圖生成
我們的第一步是生成場景圖 Sg,避免了對真實標(biāo)注的SG數(shù)據(jù)的需求。場景圖生成提示 Sin 指導(dǎo)LMM系統(tǒng)地構(gòu)建一個包含三個關(guān)鍵屬性的場景圖:對象、它們的屬性以及它們之間的關(guān)系。為了解決“對象包”問題,我們希望不僅僅看到對象(它們是視覺推理的主要單元),還希望看到它們的屬性以及它們之間的交互關(guān)系。
在場景圖生成提示 Sin 中,我們進(jìn)一步將其格式設(shè)定為JSON。這種JSON格式的標(biāo)準(zhǔn)化旨在便于LMM的解釋。通過在場景圖中系統(tǒng)地組織視覺信息,包括對象、關(guān)系和屬性,我們實現(xiàn)了更結(jié)構(gòu)化和全面的推理。這種結(jié)構(gòu)化方法在圖2中展示。場景圖生成方法是我們工作的核心新貢獻(xiàn),旨在克服現(xiàn)有多模態(tài)推理模型的局限性,增強(qiáng)LMMs的組合理解。
我們包括圖像 I 和任務(wù)提示 Pin 以及 Sin,以便生成的場景圖與給定的任務(wù)提示相關(guān)。這是因為SG本質(zhì)上是非常長尾的:僅基于圖像生成的場景圖可能會包含與給定任務(wù)提示無關(guān)的信息。
我們將整個第一個提示給LMM,記為 Pin(1),由輸入圖像 I、任務(wù)提示 Pin 和最顯著的場景圖生成提示 Sin(在圖2的場景圖生成部分用紅色顯示)組合而成。完整的提示如下:
Pin(1) = “[I][Pin][Sin]”
其中[·]表示插入提示各個元素的槽。LMM因此生成一個SG如下:
Sg = fθ(v?(I),l(Pin(1)))
3.3 第二步:響應(yīng)生成
為了繞過微調(diào)的需求并因此消除遺忘,我們利用生成的場景圖 Sg 作為中間鏈?zhǔn)剿季S推理步驟。因此,LMM接收原始任務(wù)提示、圖像和相應(yīng)生成的場景圖作為提示,使這三者共同作為上下文來響應(yīng)新的任務(wù)提示。生成響應(yīng)的整體輸入提示如下:
Pin(2) = “[I][Sg][C][Pin][E]”
除了輸入圖像 I、原始任務(wù)提示 Pin 和生成的場景圖 Sg,我們插入一個上下文句子 C 和一個答案提取句子 E。C簡要地指示LMM使用提供的上下文。具體來說,這被表示為“使用圖像和場景圖作為上下文并回答以下問題:”。最后,雖然LLM文本生成的靈活性是高層次多模態(tài)推理的一個很好的建模選擇,但這種靈活性也使得以特定格式生成響應(yīng)變得困難。例如,許多多模態(tài)基準(zhǔn)是多項選擇格式。由于我們在這些類型的基準(zhǔn)上評估我們的方法,因此需要一個簡短的附加提示 E(通常是一個條件句)以字母形式返回答案。例如,我們的答案提取附加提示“從給定的選擇中直接回答選項的字母”取自LLaVA-1.5 [45],因為它在大型多項選擇基準(zhǔn)上已被證明是可靠的。然而,這種方法可以很容易地推廣到其他答案格式,如簡短答案或詳細(xì)描述,通過修改或完全刪除 E。因此,LMM生成對原始圖像、任務(wù)提示對 (I, Pin) 的最終響應(yīng)如下:
R = fθ(v?(I),l(Pin(2)))
4. 實驗與結(jié)果
我們將CCoT方法應(yīng)用于四個流行的LMMs:InstructBLIP-13B [16]、LLaVA-1.5-13B [45]、Sphinx [44] 和GPT-4V [55]。我們還在多個基準(zhǔn)上評估了我們的方法,重點關(guān)注多模態(tài)推理和VL組合任務(wù)。更多結(jié)果可在附錄A中找到。
4.1 實現(xiàn)細(xì)節(jié)
我們使用PyTorch [56] 實現(xiàn)了CCoT。為了獲取預(yù)訓(xùn)練模型進(jìn)行評估,我們使用了每個模型的官方實現(xiàn)。盡管不同模型的計算和內(nèi)存需求不同,我們的提示方法只需要運行這些模型推理所需的基礎(chǔ)設(shè)施。更多信息請參閱附錄B。
4.2 數(shù)據(jù)集
我們工作的目標(biāo)是證明我們的方法不僅可以提高LMMs的組合視覺理解,還能增強(qiáng)各種視覺與語言任務(wù)。在接下來的內(nèi)容中,我們描述了我們的評估數(shù)據(jù)集。
VL組合基準(zhǔn)。 為了評估我們方法的組合視覺理解,我們考慮了Winoground [68] 和WHOOPS! [12] 基準(zhǔn):
(1) Winoground是一個手工挑選的數(shù)據(jù)集,旨在測試VL模型的組合視覺理解。每個樣本包含兩張圖像和一對相應(yīng)的圖像字幕。這兩條字幕在句法上非常相似,但在對象、關(guān)系或兩者的語義交換方面有一個關(guān)鍵區(qū)別。在同一數(shù)據(jù)集上,Winoground的表現(xiàn)通過三個指標(biāo)進(jìn)行評估:
- 文本分?jǐn)?shù):給定一張圖像,必須識別出正確的字幕。
- 圖像分?jǐn)?shù):給定一條字幕,必須識別出正確的圖像。
- 組分?jǐn)?shù):必須正確匹配兩對。
(2)WHOOPS! 也通過違反典型視覺常識的圖像測試組合性。任務(wù)種類更廣泛,特別是:
- 解釋生成
- 圖像字幕
- 跨模態(tài)匹配
- 組合VQA
我們在數(shù)據(jù)集的組合VQA部分評估我們的方法。
多模態(tài)推理基準(zhǔn)。 最近,推出了幾個新基準(zhǔn),專門設(shè)計用來評估LMMs的多模態(tài)推理能力。在我們的工作中,我們重點關(guān)注SEEDBench [39]、MMBench [47] 和LLaVA-Bench In-the-Wild [45]。SEEDBench和MMBench都包括不同的部分,測試一般視覺感知和視覺推理。例如,SEEDBench包含評估LMM實例識別和實例屬性理解能力的感知任務(wù),同時也包含更高階的推理部分,如場景理解和實例交互。MMBench也有類似的部分。我們排除了視頻,評估我們的方法在SEEDBench的圖像部分和MMBench的整體表現(xiàn)。
為了評估不同類型的多模態(tài)推理,我們進(jìn)一步在LLaVA-Bench In-the-Wild上評估了我們的方法,該基準(zhǔn)測試LMMs回答視覺問題的詳細(xì)長文形式答案的能力。
4.3 模型
在我們的工作中,我們將CCoT方法應(yīng)用于以下四個流行的LMMs。
LLaVA-1.5:LLaVA [46]架構(gòu)作為一種強(qiáng)大的最新LMM方法,以其將CLIP視覺特征映射到LLM語言標(biāo)記共享嵌入空間的簡單線性投影而著稱。LLaVA在一個包含對話、詳細(xì)描述和復(fù)雜推理響應(yīng)類型的數(shù)據(jù)集(LLaVA-Instruct-158k)上進(jìn)行指令微調(diào),以便比簡單的圖像-文本對有更好的視覺對齊。在我們的工作中,我們評估了改進(jìn)后的LLaVA-1.5 [45]。與原始架構(gòu)相比,模型改進(jìn)包括:(1) 用MLP替代線性投影,(2) 在更多樣化的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
InstructBLIP:雖然InstructBLIP也使用凍結(jié)的視覺編碼器和LLM,但它通過Q-former變壓器計算視覺特征,類似于BLIP-2 [41] 模型,該模型輸出可學(xué)習(xí)的視覺標(biāo)記。不同之處在于,InstructBLIP的Q-former還關(guān)注任務(wù)提示,使得視覺特征具備指令意識。這加上更廣泛的視覺指令調(diào)優(yōu)數(shù)據(jù)集(包括LLaVA-Instruct-158k),使其在如SEEDBench [39] 等基準(zhǔn)上表現(xiàn)優(yōu)異。
SPHINX:SPHINX [44] 與其他LMMs的兩個關(guān)鍵區(qū)別在于:(1) 在指令微調(diào)期間解凍其LLM權(quán)重,(2) 具有更廣泛的多模態(tài)問答任務(wù),包括區(qū)域級理解、字幕定位、文檔布局檢測和人體姿態(tài)估計 [44]。
GPT-4V:與其他三個模型不同,GPT-4V的架構(gòu)和預(yù)訓(xùn)練細(xì)節(jié)未公開。然而,使用最先進(jìn)的GPT-4作為LLM骨干將有助于評估我們的方法在具有更強(qiáng)語言推理能力的LMM上的效果。
4.4 基線
在我們的實驗中,我們將我們的CCoT提示方法與兩種其他提示基線進(jìn)行了比較,如表1所示。首先,為了評估我們的方法對預(yù)訓(xùn)練LMMs的附加好處,我們的第一個基線是在沒有任何提示工程的情況下應(yīng)用模型到基準(zhǔn)。其次,我們考慮了語言零樣本(ZS)CoT提示方法 [36] 作為基線,以確定CCoT相對于最新CoT提示方法的優(yōu)勢。該方法分兩步進(jìn)行:(i) 給定輸入問題和文本,在提示末尾附加推理觸發(fā)語“讓我們一步一步思考”,生成回答問題的語言推理。(ii) 因為答案隱含在輸出的推理中,第二步涉及傳遞圖像、問題、第一步的輸出推理和答案提取短語以返回所需格式的響應(yīng)。我們發(fā)現(xiàn),與原始論文中建議的答案提取短語相比,LLaVA [45]建議的短語在大多數(shù)基準(zhǔn)上提供了更高的準(zhǔn)確性,因此在原始ZS-CoT實現(xiàn)的基礎(chǔ)上進(jìn)行了這一微小的改動。我們還將我們的工作與最近的最新多模態(tài)CoT提示方法MMCoT [88]、DDCoT [91] 和VidIL [74] 在SEEDBench-Image數(shù)據(jù)集上的表現(xiàn)進(jìn)行了比較,如表2所示。
表1. 在SeedBench、MMBench、Winoground和WHOOPS! 基準(zhǔn)上的主要結(jié)果表。縮寫:SEEDBench-Image [SEED-I];Winoground文本得分:Wino-Text,圖像得分:Wino-Image,組得分:Wino-Group。與我們的零樣本方法不同,標(biāo)有?的模型是經(jīng)過監(jiān)督和在標(biāo)注場景圖上微調(diào)的。更多結(jié)果,請參見附錄A.2。
表2. 與多模態(tài)CoT方法的比較。TBD實例計數(shù) [IC]、場景理解 [SU]、實例身份 [IId]、實例屬性 [IA]、實例位置 [IL]、空間關(guān)系 [SR]、視覺推理 [VR]、文本理解 [TU]、實例交互 [IIn]。注意,?表示MMCoT是一種在ScienceQA上預(yù)訓(xùn)練的微調(diào)方法。
4.5 結(jié)果
結(jié)果如表1所示。我們方法的一個優(yōu)勢是它可以應(yīng)用于各種不同的預(yù)訓(xùn)練方法和視覺架構(gòu)。我們展示了在多個基準(zhǔn)上應(yīng)用CCoT優(yōu)于基準(zhǔn)模型,突顯了我們方法的有效性。在圖3中,我們展示了我們的方法在某些基準(zhǔn)上的改進(jìn)實例以及仍然失敗的情況。更多結(jié)果請參見附錄A.2。
圖3. 示例輸出。上圖展示了我們的方法在SEEDBench和Winoground上的示例。在左側(cè)展示了CCoT的成功案例,而右側(cè)展示了失敗案例。更多定性可視化結(jié)果,請參見附錄C。
組合視覺理解。對所有四個LMMs的測試結(jié)果顯示,使用CCoT相比基線在Winoground和WHOOPS! 基準(zhǔn)上有顯著增加。事實上,未進(jìn)行任何指令微調(diào)的GPT-4V-CCoT在Winoground上的表現(xiàn)顯著優(yōu)于之前的SOTA模型SGVL,該模型在真實的SG標(biāo)注上進(jìn)行了微調(diào) [28]。有趣的是,ZS-CoT方法實際上在組合基準(zhǔn)的多個分裂中降低了性能,這可能是由于提示中缺乏對視覺信息的考慮,因為它是為LLMs設(shè)計的。因此,這些結(jié)果證明了CCoT在無需微調(diào)或真實標(biāo)注SG數(shù)據(jù)的情況下提高LMMs組合視覺推理的有效性。
多模態(tài)基準(zhǔn)。我們還看到,CCoT在SEEDBench圖像分割、MMBench和LLaVA-Bench In-the-Wild上優(yōu)于基線。盡管許多LMMs具有各種不同的LLM骨干和預(yù)訓(xùn)練方法,但在SEEDBench上連續(xù)最先進(jìn)模型之間的差異通常為1%或更少。所有CCoT的改進(jìn)均在1%以上。因此,這些結(jié)果是我們方法有利于提高LMMs組合視覺理解和其一般多模態(tài)推理能力的有力證據(jù)。同樣,ZS-CoT提示在這些基準(zhǔn)的許多分裂中實際上對LMMs有害。
4.6 消融實驗
我們在SEEDBench上對我們的LLaVA-1.5-CCoT模型進(jìn)行了全面的消融研究(見表3)。我們注意到?jīng)]有報告實例計數(shù)和文本理解(OCR)分裂,因為它們不構(gòu)成視覺推理。更多消融實驗請參見附錄A.1。
表3. SEEDBench-Image上的消融實驗。這張表描述了我們的方法在SEEDBench [39]所有圖像分割上的關(guān)鍵分割級別消融結(jié)果:實例計數(shù) [IC]、場景理解 [SU]、實例身份 [IId]、實例屬性 [IA]、實例位置 [IL]、空間關(guān)系 [SR]、視覺推理 [VR]、文本理解 [TU]、實例交互 [IIn]。W. Avg. 表示加權(quán)平均值。
需要邊界框。在我們對生成的SGs的定性探索中,我們發(fā)現(xiàn)一些SGs包括對象的邊界框坐標(biāo)。因此,我們實驗了一個指示LMM在生成的SG中包括所有對象的邊界框坐標(biāo)的提示(表中顯示為“w\ Object Locations”)。我們發(fā)現(xiàn),在SEEDBench-Image上的加權(quán)平均準(zhǔn)確率下降了1.6%,這表明要求精確的對象位置對多模態(tài)推理任務(wù)沒有幫助。
JSON結(jié)構(gòu)增強(qiáng)SG利用。雖然SGs是結(jié)構(gòu)化的視覺表示,但它們可能以多種不同的文本格式出現(xiàn)。因此,我們消融了SG生成提示的JSON格式要求(稱為w/out JSON Format),以評估強(qiáng)制執(zhí)行特定SG格式是否影響LMMs對內(nèi)容的使用。我們的結(jié)果表明,強(qiáng)制執(zhí)行如JSON的通用系統(tǒng)格式確實有利(無JSON時下降2.0%)于LMMs最有效地利用SG。
用字幕替換SGs。SGs是視覺信息的高度結(jié)構(gòu)化表示,這使它們區(qū)別于簡單的圖像自然語言描述。因此,我們通過生成字幕而不是SGs來消融SG結(jié)構(gòu)的重要性(稱為LLaVA-1.5-Caption-CoT)。我們在表3中發(fā)現(xiàn),生成與我們的SG方法具有相同信息上下文的字幕,但性能下降(比我們的方法低1.4%),這表明SG結(jié)構(gòu)對多模態(tài)任務(wù)的重要性。
LMM大小。我們還評估了LMM大小的影響。我們發(fā)現(xiàn)LLaVA-1.5-7B-CCoT與LLaVA-1.5-7B相比準(zhǔn)確率沒有明顯差異(+0.1%)。LLaVA-1.5-13B-CCoT和GPT-4-CCoT的更大增益表明我們的方法對較大模型尺寸最有效。這一點很關(guān)鍵,因為我們的零樣本方法相比微調(diào)這些較大的LMMs成為相對較不計算昂貴的過程。
SG大小的影響。我們考慮SG的大小如何影響生成的響應(yīng),通過比較使用不同標(biāo)記長度的SG時的準(zhǔn)確率。具體來說,我們評估了使用長度為1024(下降0.6%)、512(下降0.5%)和128(下降0.3%)標(biāo)記的SG時的效果。結(jié)果表明,最佳SG大小為256標(biāo)記。這表明文本SG在小序列長度中封裝有用信息的有效性,同時也證明了一個最小信息量對于正確回答問題是必要的。
5. 結(jié)論
我們的研究表明,CCoT方法在從LMM中提取組合信息方面具有顯著潛力。這種提取的知識導(dǎo)致了LMMs在下游任務(wù)中組合視覺和多模態(tài)推理的增強(qiáng),而無需微調(diào)或依賴真實標(biāo)注的SG數(shù)據(jù)。我們的方法通過零樣本方式生成SG,有效地解決了標(biāo)注SG的可用性問題。使用生成的SG進(jìn)行鏈?zhǔn)剿季S推理提示也解決了通過不進(jìn)行微調(diào)導(dǎo)致的災(zāi)難性遺忘。在組合視覺推理基準(zhǔn)(如Winoground和WHOOPS!)以及一般多模態(tài)基準(zhǔn)(如SEEDBench、MMBench和LLaVA-Bench In-the-Wild)上觀察到的顯著改進(jìn),強(qiáng)調(diào)了我們方法在多種任務(wù)中的有效性。這一點通過我們的消融實驗進(jìn)一步得到證實,這些實驗揭示了使用結(jié)構(gòu)
化SG而非字幕、利用JSON格式和優(yōu)化SG長度對增強(qiáng)LMMs的視覺組合和多模態(tài)推理的重要性。這些結(jié)果共同突顯了我們方法在拓寬LMMs在組合和多模態(tài)推理任務(wù)中的能力方面的價值。
6. 限制
在這項工作中,我們提出了一種零樣本鏈?zhǔn)剿季S提示方法,利用場景圖表示進(jìn)行多模態(tài)和組合視覺推理任務(wù)。我們展示了在幾種不同的模型和基準(zhǔn)上的性能提升。然而,我們的工作有一個核心限制。雖然擴(kuò)展上下文長度是一個活躍的研究領(lǐng)域,但我們的方法受到LMMs使用的LLMs當(dāng)前上下文長度的限制。此外,在執(zhí)行強(qiáng)調(diào)語言而非視覺推理的多模態(tài)任務(wù)(如文檔理解)時,場景圖并不是特別有用的表示。最后,我們不預(yù)期此工作會產(chǎn)生負(fù)面影響,但如同任何機(jī)器學(xué)習(xí)方法,我們建議謹(jǐn)慎使用。
Mitra C, Huang B, Darrell T, et al. Compositional chain-of-thought prompting for large multimodal models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 14420-14431.
University of California, Berkeley
?
本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt
原文鏈接:????????https://mp.weixin.qq.com/s/rJVY946mqSTtN4XcX7hmTg??
