檢索增強(qiáng)型多模態(tài)思維鏈推理用于大型語言模型 原創(chuàng) 精華
?摘要:大型語言模型(LLMs)的進(jìn)步使得思維鏈(Chain of Thought,CoT)方法受到了極大的關(guān)注,主要是因?yàn)樗軌蛟鰪?qiáng)LLMs在復(fù)雜推理任務(wù)上的能力。此外,CoT方法的重要性還擴(kuò)展到了將LLMs應(yīng)用于多模態(tài)任務(wù)。然而,由于多模態(tài)樣本固有的復(fù)雜性,為多模態(tài)推理選擇最優(yōu)CoT示例的問題在LLMs中尚未得到充分探索。在本文中,我們介紹了一種新穎的方法,通過使用檢索機(jī)制來動(dòng)態(tài)且自動(dòng)地根據(jù)跨模態(tài)和內(nèi)模態(tài)相似性選擇示例,從而解決這一挑戰(zhàn)。此外,我們采用了分層抽樣方法,將示例根據(jù)類型分類成不同組,然后分別從不同組中檢索示例,以促進(jìn)示例的多樣性。通過在兩個(gè)流行的基準(zhǔn)數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn):ScienceQA和MathVista,我們證明了我們的方法顯著提高了GPT-4在ScienceQA上的性能6%,在MathVista上的性能12.9%,并且在兩個(gè)數(shù)據(jù)集上提高了GPT-4V的性能2.7%,大幅提高了最先進(jìn)LLMs和LMMs在復(fù)雜多模態(tài)推理任務(wù)上的性能。
1. 引言
自然語言處理(NLP)領(lǐng)域由于大型語言模型(LLMs)的出現(xiàn)而經(jīng)歷了顯著的進(jìn)步,這些模型憑借其廣泛的能力重塑了許多任務(wù)的格局。一個(gè)對(duì)LLMs成功貢獻(xiàn)很大的關(guān)鍵技術(shù)是鏈?zhǔn)剿季S(CoT)技術(shù),這在先前的研究中已有記載(Wei et al., 2022a; Kojima et al., 2022)。這種技術(shù)在應(yīng)用于多模態(tài)任務(wù)時(shí)尤其重要。其最突出的應(yīng)用之一是多模態(tài)問答,這涉及文本和圖像的推理(Zhang et al., 2023c; Lu et al., 2023b; Lyu et al., 2023; Li et al., 2023e)。然而,隨著研究人員進(jìn)一步探索CoT與LLMs的整合(Wang et al., 2022; Zhou et al., 2022; Zhang et al., 2022),選擇合適的示例來指導(dǎo)多模態(tài)推理成為一個(gè)反復(fù)出現(xiàn)的挑戰(zhàn)。由于多模態(tài)示例通常結(jié)合了文本和視覺數(shù)據(jù)的復(fù)雜性,識(shí)別最相關(guān)和最有信息量的示例是一項(xiàng)艱巨的任務(wù)(Bar et al., 2022; Li et al., 2023b,a)。
為了解決這個(gè)問題,我們的論文提出了一種新方法,利用檢索機(jī)制動(dòng)態(tài)且自動(dòng)地選擇示例。如圖1所示,我們的方法檢索到的相關(guān)且有信息量的示例可以激發(fā)LLMs的推理能力,進(jìn)而得出正確答案。圖3展示了我們提出的方法概覽。我們的方法主要利用了跨模態(tài)相似性和模態(tài)內(nèi)相似性。我們利用這些相似性來檢索示例,以期通過更相關(guān)的示例增強(qiáng)CoT在多模態(tài)任務(wù)上的推理過程(Zhang et al., 2023a; Sun et al., 2023)。為了確保選擇的示例更全面和多樣化,我們創(chuàng)新性地使用了分層抽樣(Liberty et al., 2016)。這種簡單但有效的方法按順序根據(jù)檢索樣本所屬的組進(jìn)行抽樣。通過從不同組中抽樣,我們旨在為LLMs提供多樣化的示例,從而提高多模態(tài)推理的整體質(zhì)量。
圖1:我們的MM-Retrieval方法根據(jù)問題動(dòng)態(tài)檢索示例。與CoT相比,它具有更好的適應(yīng)性,能夠激發(fā)LLMs的推理能力。紅色的D1、D2表示根據(jù)問題檢索到的示例,而藍(lán)色的D1、D2表示不考慮問題的固定示例。
(圖片說明:- 左上角(Problem):提出了一個(gè)問題,要求找出圖中正方形的值,答案是2。
- 左下角(CoT-2-shots):展示了傳統(tǒng)的鏈?zhǔn)剿季S(CoT)方法,使用了兩個(gè)固定的示例(D1和D2),無論問題是什么,這些示例都不會(huì)變化。圖中紅色的D1和D2分別代表了固定的示例:
- D1示例:計(jì)算購買烤盤、冰激凌勺和砂鍋盤所需的錢數(shù)。
- D2示例:找出國家中飛機(jī)總部所在城市的最大城市,答案是東京。
- 右側(cè)(MM-Retrieval):展示了我們的方法如何動(dòng)態(tài)地基于問題檢索示例:
- D1示例:計(jì)算圖中角度x的大小。
- D2示例:找出圖表中最小的獨(dú)立條的值。
在MM-Retrieval方法中,這些檢索到的示例被整合到提示和測(cè)試問題中,作為LLMs的輸入。圖中綠色高亮部分顯示了解決問題的詳細(xì)過程,包括將圖中的形狀賦值并通過方程求解,最終得出答案為2。
圖例說明:
- 紅色的D1、D2表示根據(jù)問題動(dòng)態(tài)檢索到的示例。
- 藍(lán)色的D1、D2表示無論問題如何變化都固定的示例。
圖1的文字說明強(qiáng)調(diào)了MM-Retrieval方法的動(dòng)態(tài)適應(yīng)性和對(duì)LLMs推理能力的刺激效果,優(yōu)于傳統(tǒng)的固定示例方法。)
為了評(píng)估我們提出的方法的有效性,我們?cè)趦蓚€(gè)基準(zhǔn)多模態(tài)問答數(shù)據(jù)集ScienceQA(Lu et al., 2022)和MathVista(Lu et al., 2023a)上進(jìn)行了廣泛的實(shí)驗(yàn)。這些實(shí)驗(yàn)表明,我們的方法大大提高了LLMs的性能,在多模態(tài)推理任務(wù)上建立了新的最先進(jìn)水平。如圖2所示,在ScienceQA和MathVista數(shù)據(jù)集上,我們的方法顯示了顯著的改進(jìn)。對(duì)于ScienceQA數(shù)據(jù)集,基于ChatGPT和GPT-4的檢索方法分別比最先進(jìn)的Chameleon高出4.8%和4.4%。隨著更多示例的加入,基于ChatGPT和GPT-4的方法的最佳性能可以達(dá)到86.4%和92.5%。對(duì)于GPT-4V,我們的方法相較于零樣本設(shè)置可以實(shí)現(xiàn)2.7%的平均準(zhǔn)確率提升。
圖2:在ScienceQA(Lu et al., 2022)和MathVista(Lu et al., 2023a)的不同類別上的結(jié)果。我們提出的方法在GPT-4基礎(chǔ)模型上相比于之前的基線模型,包括CoT(Lu et al., 2023b)、PoT(Lu et al., 2023a)和Chameleon(Lu et al., 2023b),取得了顯著的提升。
此外,我們的方法在MathVista數(shù)據(jù)集上也表現(xiàn)出優(yōu)越的性能?;贑hatGPT和GPT-4的方法分別獲得了8.4%和13.6%的顯著提升。此外,我們的方法還可以進(jìn)一步提升最先進(jìn)的LLM - GPT-4V的性能,使其在MathVista上的整體準(zhǔn)確率提高2.7%,這證明了我們方法的有效性。
我們還對(duì)我們方法的各部分貢獻(xiàn)進(jìn)行了全面的實(shí)驗(yàn),包括視覺信息、檢索機(jī)制和分層抽樣。此外,我們還進(jìn)行了詳細(xì)的分析,研究了不同數(shù)量的示例對(duì)結(jié)果的影響,提供了我們的方法在多模態(tài)任務(wù)中與LLMs協(xié)同工作的寶貴見解。
2. 相關(guān)工作
2.1 檢索增強(qiáng)生成(RAG)用于LLMs
檢索增強(qiáng)生成(RAG)代表了通過整合外部知識(shí)源來增強(qiáng)模型生成能力的重要進(jìn)展。早期的工作如REALM(Guu et al., 2020)和RAG(Lewis et al., 2020)介紹了將外部文檔融入生成過程的基礎(chǔ)方法。后續(xù)研究將檢索增強(qiáng)范式擴(kuò)展到多模態(tài)環(huán)境,如MuRAG(Chen et al., 2022)和REVEAL(Hu et al., 2022),它們利用來自外部來源的文本和視覺信息來增強(qiáng)語言生成。此外,最近的研究如FiD-Light(Hofst?tter et al., 2022)和REPLUG(Shi et al., 2023)則集中于提高檢索增強(qiáng)系統(tǒng)的效率和效果,以及探索上下文中的檢索增強(qiáng)機(jī)制(Ram et al., 2023;de Jong et al., 2023)。
2.2 上下文學(xué)習(xí)(ICL)
上下文學(xué)習(xí)(ICL)利用LLMs在嵌入上下文中的少量示例基礎(chǔ)上完成任務(wù)(Devlin et al., 2019;Radford et al., 2019;Brown et al., 2020;Chowdhery et al., 2022),在NLP和復(fù)雜的數(shù)學(xué)推理中顯示出效果(Wei et al., 2022b)。ICL的設(shè)置包括使用任務(wù)指導(dǎo)和示例生成LLMs的響應(yīng)。它對(duì)提示結(jié)構(gòu)、示例選擇和示例順序敏感(Zhao et al., 2021;Wang et al., 2023a;Fu et al., 2022)。ICL的應(yīng)用擴(kuò)展到多模態(tài)任務(wù),包括圖像分割、合成和文本到語音合成(Bar et al., 2022;Wang et al., 2023b,c,e;Tsimpoukelli et al., 2021;Alayrac et al., 2022),并在圖結(jié)構(gòu)等結(jié)構(gòu)化空間中顯示出潛力(Huang et al., 2023)。
2.3 鏈?zhǔn)剿季S推理(CoT)
鏈?zhǔn)剿季S(CoT)推理指導(dǎo)LLMs逐步推理,提高了在算術(shù)、符號(hào)和邏輯任務(wù)上的性能(Wei et al., 2022b;Kojima et al., 2022)。方法包括采樣多個(gè)推理路徑(Wang et al., 2022),將復(fù)雜問題劃分為子問題(Zhou et al., 2022),以及動(dòng)態(tài)選擇用于少樣本提示的示例(Zhang et al., 2022;Shi et al., 2022)。除了文本數(shù)據(jù),CoT還適用于表格數(shù)據(jù)(Ziqi和Lu, 2023)。此外,其潛力在多模態(tài)環(huán)境中得到了探索,通過語言和視覺的融合展示了增強(qiáng)的推理能力(Zhang et al., 2023c;Lu et al., 2023b,c)。研究如(Zhang et al., 2023c)提出了一個(gè)兩階段的CoT框架,用于多模態(tài)任務(wù),顯著提高了在ScienceQA等基準(zhǔn)上的推理準(zhǔn)確性。Chameleon(Lu et al., 2023b)引入了插拔式模塊,用于大型多模態(tài)模型(LMMs),通過結(jié)合不同的工具實(shí)現(xiàn)復(fù)雜推理。
3. 方法
我們的方法基于CoT上下文學(xué)習(xí)范式,旨在有效利用LLMs。對(duì)于每個(gè)輸入查詢,我們希望利用一組相關(guān)的CoT示例來增強(qiáng)LLM的推理能力。為此,我們引入了一種新方法,使用檢索機(jī)制動(dòng)態(tài)且自動(dòng)地選擇示例,并將視覺知識(shí)融入提示中。圖4詳細(xì)說明了我們的方法。我們方法的核心是提取跨模態(tài)相似性和模態(tài)內(nèi)相似性,在測(cè)試問題q的文本上下文qt和視覺上下文qv與示例池Q={q1,...,qn}中的示例之間進(jìn)行交叉比較。我們方法的另一個(gè)獨(dú)特特征是引入了分層抽樣。通過根據(jù)示例的固有屬性將其分類為不同組,我們旨在擴(kuò)展所選示例的多樣性。從不同組中檢索示例確保LLMs接收到多方面的示例,從而增強(qiáng)多模態(tài)推理的魯棒性。
圖3:我們提出的多模態(tài)檢索方法概述。我們采用了跨模態(tài)檢索和內(nèi)模態(tài)檢索(文本模態(tài)和圖像模態(tài)檢索),從示例池中獲取相關(guān)的示例作為檢索示例。然后,這些檢索到的示例與提示和測(cè)試問題集成在一起,作為LLMs的輸入。
(注釋:1. 示例池(Demonstration Pool):
- 包含多個(gè)問題及其選項(xiàng)和相關(guān)圖像。例如,問題1是“以下三種物體有哪些共同的屬性?”,選項(xiàng)包括透明、毛茸茸、黃色,并附有對(duì)應(yīng)的圖像。
2. 測(cè)試問題(Test Question):
- 包含待回答的問題及其選項(xiàng)和相關(guān)圖像。例如,測(cè)試問題是“以下兩種物體有哪些共同的屬性?”,選項(xiàng)包括粗糙和有彈性,并附有對(duì)應(yīng)的圖像。
3. MM-檢索模塊(MM-Retrieval Module):
- 包括三個(gè)檢索器:跨模態(tài)檢索器(Cross-modal Retriever)、文本模態(tài)檢索器(Text-modal Retriever)和圖像模態(tài)檢索器(Image-modal Retriever)。
- 這些檢索器根據(jù)測(cè)試問題從示例池中動(dòng)態(tài)檢索相關(guān)的示例。
4. 示例構(gòu)建(Demos Construction):
- 構(gòu)建檢索到的示例集,包括從示例池中檢索到的具體問題及其答案。例如,Demo 1的問題是“以下三種物體有哪些共同的屬性?”,答案是黃色。
5. 檢索到的示例(Retrieved Demos):
- 包括檢索到的多個(gè)示例問題及其相關(guān)信息。
6. 大型語言模型(Large Language Model):
- 將測(cè)試問題、檢索到的示例和提示結(jié)合起來輸入到大型語言模型中,以生成最終答案。
7. 最終答案(Test Answer):
- 生成包含推理過程的最終答案。例如,最終答案是“兩個(gè)物體的共同屬性是粗糙的,因此答案是A”。
通過這種方法,我們能夠動(dòng)態(tài)檢索和集成相關(guān)示例,從而提升LLMs在多模態(tài)任務(wù)中的推理能力。)
圖4:我們多模態(tài)檢索方法的詳細(xì)說明,其中我們使用模態(tài)內(nèi)相似性和跨模態(tài)相似性從示例池Q中抽樣示例D。
(注釋:1. 測(cè)試問題(Test Question):
- 包含待回答的問題及其選項(xiàng)和相關(guān)圖像。例如,測(cè)試問題是“以下兩種物體有哪些共同的屬性?”,選項(xiàng)包括粗糙和有彈性,并附有對(duì)應(yīng)的圖像(例如木頭和菠蘿)。
2. MM-檢索模塊(MM-Retrieval Module):
- 包括四個(gè)檢索器:
- 文本模態(tài)檢索器(Text-modal Retriever):基于文本相似性檢索相關(guān)的文本示例。
- 跨模態(tài)檢索器(Cross-modal Retriever):包括文本-圖像跨模態(tài)檢索器(Text-image Cross-modal Retriever)和圖像-文本跨模態(tài)檢索器(Image-text Cross-modal Retriever),基于跨模態(tài)相似性檢索相關(guān)示例。
- 圖像模態(tài)檢索器(Image-modal Retriever):基于圖像相似性檢索相關(guān)的圖像示例。
3. 示例池(Demonstration Pool):
- 包含多個(gè)問題及其選項(xiàng)和相關(guān)圖像。例如,問題1是“以下三種物體有哪些共同的屬性?”,選項(xiàng)包括透明、毛茸茸、黃色,并附有對(duì)應(yīng)的圖像;問題2是“火山渣是哪種類型的巖石?”,選項(xiàng)包括火成巖、變質(zhì)巖、沉積巖。
4. 檢索到的示例(Retrieved Demos):
- 包括檢索到的多個(gè)示例問題及其相關(guān)信息。例如,檢索到的問題1是“以下三種物體有哪些共同的屬性?”,選項(xiàng)包括透明、毛茸茸、黃色,并附有對(duì)應(yīng)的圖像。
圖示中不同顏色的箭頭表示不同類型的相似性:
- 綠色箭頭表示文本相似性(Text Similarity)。
- 藍(lán)色箭頭表示圖像相似性(Image Similarity)。
- 粉色箭頭表示跨模態(tài)相似性(Cross-modal Similarity)。
通過這些檢索器,我們可以從示例池中動(dòng)態(tài)地抽樣相關(guān)的示例D,這些示例將與測(cè)試問題結(jié)合,作為輸入提供給大型語言模型(LLMs),從而提升模型在多模態(tài)任務(wù)中的推理能力。)
3.1 將視覺信息納入LLMs
我們的方法適用于LLMs和LMMs,我們的任務(wù)是包含圖像和相應(yīng)文本問題的多模態(tài)問答任務(wù)。對(duì)于LLMs來說,如果不通過輔助視覺專家模型將圖像模態(tài)轉(zhuǎn)換為文本模態(tài),很難正確回答。因此,LLM通過視覺信息模型獲取問題的視覺信息非常重要。按照Chameleon和MathVista的實(shí)現(xiàn),我們的視覺信息模型主要包括兩部分:
- 圖像描述:我們使用圖像描述模型獲取給定圖像的文本描述。圖像描述結(jié)果表示為{Vc},它是表示圖像主要內(nèi)容的文本片段。
- 光學(xué)字符識(shí)別(OCR):除了圖像描述系統(tǒng),我們還使用OCR系統(tǒng)識(shí)別給定圖像中的文本字符,檢測(cè)到的文本表示為{Vo}。
因此,我們使用的視覺信息表示為V={Vc, Vo},這是生成的圖像描述和OCR系統(tǒng)檢測(cè)到的文本的連接。
3.2 檢索機(jī)制
假設(shè)我們有一個(gè)待回答的測(cè)試示例q,它包括視覺上下文qv(通常是圖像)和文本上下文qt(通常是問題描述)。Q中的每個(gè)問題與q具有相同的組成部分,所以qi={qvi, qti},其中qi∈Q。同時(shí),我們還有一個(gè)多模態(tài)問題集合Q={q1,...,qn},我們可以從中收集示例幫助LLM回答測(cè)試示例q。使用檢索函數(shù),從Q中提取示例形成檢索到的示例集D。一般的檢索過程可以表示為:
其中,F(xiàn)e表示用于編碼q的編碼器模型,F(xiàn)e(q) ∈ R1×h 和 Fe(qi) ∈ R1×h。k表示我們從Q中采樣與q具有最大余弦相似性的前k個(gè)示例。然后,采樣的前k個(gè)示例作為示例。
具體來說,考慮到多模態(tài)設(shè)置中檢索的復(fù)雜性,我們通過分別使用qv和qt從Q中檢索示例來擴(kuò)展公式1:
公式中的Fk1(qv, Qv)表示我們根據(jù)Fe(qv) R1×h和Fe(qiv) R1×h之間的余弦相似性,從 Q中檢索前k1個(gè)示例,這表示測(cè)試問題q 的視覺上下文與示例池中的示例 qi 之間的比較,其他同理。需要注意的是, k = ∑i=14 ki 。公式2右側(cè)的前兩個(gè)項(xiàng)表示基于模態(tài)內(nèi)相似性的檢索,而后兩個(gè)項(xiàng)表示跨模態(tài)檢索。Fe可以是任何適當(dāng)?shù)木幋a器,用于獲取qt(文本編碼器)和qv(視覺編碼器)的嵌入。
3.3 抽樣方法
此外,為了在我們的示例中保持多樣性和相關(guān)性,我們采用了分層抽樣(Liberty et al., 2016)。這種方法允許我們從基于跨模態(tài)和模態(tài)內(nèi)相似性檢索到的四個(gè)組中抽樣示例。為了簡化,我們將Fk1(qv, Qv)簡化為DI2Ik1,F(xiàn)k2(qt, Qt)簡化為DT2Tk2,F(xiàn)k3(qv, Qt)簡化為DI2Tk3,F(xiàn)k4(qt, Qv)簡化為DT2Ik4。分層抽樣過程S如下:
其中,dk1i ∈ DI2Ik1,dk2i ∈ DT2Tk2,dk3i∈ DI2Tk3,dk4i∈ DT2Ik4。此外,為了適應(yīng)多模態(tài)數(shù)據(jù)的不同復(fù)雜特性(例如不同領(lǐng)域的示例具有不同的性質(zhì)),我們提出在處理不同類型問題q時(shí)自適應(yīng)使用分層抽樣。具體來說,我們使用經(jīng)驗(yàn)函數(shù)σ來決定是否采用分層抽樣(即σ可以是開發(fā)集上的性能Δ或其他啟發(fā)式方法)。詳細(xì)的抽樣策略如表3所示。
3.4 最終預(yù)測(cè)
通過檢索到的示例,我們的下一步是預(yù)測(cè)給定測(cè)試問題q的最終答案。為此,我們將測(cè)試問題q與檢索到的示例集D以及視覺信息V結(jié)合起來。目標(biāo)是為LLM提供一個(gè)包含初始問題和相關(guān)示例見解的豐富上下文。問題和示例的結(jié)合可以表示為V ⊕ D ⊕ q,這是LLM的提示。當(dāng)我們將這個(gè)提示輸入LLM時(shí),我們得到最終結(jié)果:
Answer = λ(V ⊕ D ⊕ q)
在這個(gè)公式中,λ代表LLM的預(yù)測(cè)過程。這個(gè)最終預(yù)測(cè)步驟至關(guān)重要,因?yàn)樗w現(xiàn)了我們建立的整個(gè)過程。它確保LLM考慮到原始問題和示例集中的額外信息,以生成一個(gè)信息豐富且準(zhǔn)確的答案。
4. 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集
在實(shí)驗(yàn)中,我們使用了兩個(gè)用于多模態(tài)CoT推理的基準(zhǔn)數(shù)據(jù)集:
1. ScienceQA (Lu et al., 2022):這是一個(gè)綜合性基準(zhǔn)數(shù)據(jù)集,旨在評(píng)估大型語言模型的多模態(tài)推理能力。
2. MathVista (Lu et al., 2023a):這個(gè)數(shù)據(jù)集用于評(píng)估LLMs和LMMs在視覺上下文中的數(shù)學(xué)推理能力。
模型
在實(shí)驗(yàn)中,我們通過OpenAI API使用了ChatGPT (OpenAI, 2022)、GPT-4 (OpenAI, 2023)和GPT-4V (OpenAI, 2023)。我們使用了GPT-3.5-TURBO作為ChatGPT的版本,而GPT-4用于GPT-4。對(duì)于GPT-4V的評(píng)估,我們使用了GPT-4-VISION-PREVIEW。
實(shí)現(xiàn)細(xì)節(jié)
用于編碼CoT示例的文本和視覺上下文的TEXT-ENCODER和VISUAL-ENCODER是預(yù)訓(xùn)練在大規(guī)模語料和圖像上的模型。具體來說,對(duì)于模態(tài)內(nèi)相似性,我們分別使用SentenceBERT (Reimers and Gurevych, 2019)和ViT (Dosovitskiy et al., 2021) (ViT-base-patch16-224)來編碼文本和圖像。對(duì)于跨模態(tài)相似性,我們使用CLIP (Radford et al., 2021)來編碼文本和圖像。具體而言,我們遵循了Chameleon的方法,將元數(shù)據(jù)和知識(shí)檢索結(jié)果與當(dāng)前問題連接起來作為我們的基線。我們的方法基于此基礎(chǔ)進(jìn)一步開發(fā)了基于文本的問題方法。為了整合視覺上下文,我們分別使用BLIP (Li et al., 2023c)和GPT-4V (OpenAI, 2023)為ScienceQA和MathVista獲取圖像描述。我們選擇了ScienceQA的訓(xùn)練集作為示例池。至于MathVista,我們?cè)趖est-mini上評(píng)估了性能。由于測(cè)試集沒有發(fā)布答案且數(shù)量較多,我們選擇使用它作為示例池。由于MathVista的測(cè)試集中沒有答案或推理過程,我們使用GPT-4V零樣本的響應(yīng)作為推理的基礎(chǔ)。具體來說,對(duì)于GPT-4V MM-Retrieval,我們的文本提示與LLMs相同,但我們會(huì)在文本提示后添加問題的圖像。
表1:ScienceQA上的實(shí)驗(yàn)結(jié)果(Lu 等,2022)。我們通過與各種基線模型(包括監(jiān)督和非監(jiān)督模型)進(jìn)行比較來評(píng)估系統(tǒng)的性能。結(jié)果表明,我們提出的CoT-MM-Retrieval方法在平均準(zhǔn)確率和幾乎所有問題類別上都優(yōu)于之前的最先進(jìn)模型。需要注意的是,*表示我們方法的最佳結(jié)果,此時(shí)我們使用了更多的示例。
4.2 結(jié)果
在我們針對(duì)ScienceQA數(shù)據(jù)集(Lu et al., 2022)進(jìn)行的實(shí)驗(yàn)中,如表1所示,對(duì)各種模型在不同問題類型上的性能進(jìn)行了評(píng)估?;€模型的結(jié)果取自ScienceQA排行榜2,在這里我們根據(jù)是否明確在ScienceQA訓(xùn)練集上進(jìn)行訓(xùn)練來區(qū)分監(jiān)督系統(tǒng)和無監(jiān)督系統(tǒng)。我們的方法稱為CoT-MM-Retrieval,使用了兩個(gè)示例,提供了與Chameleon(Lu et al., 2023b)公平的比較,而CoT-MM-Retrieval*表示我們?cè)诟嗍纠闆r下的最佳性能。
對(duì)于基于ChatGPT的模型:
1. Chameleon (ChatGPT)(Lu et al., 2023b)略微超過了基礎(chǔ)ChatGPT CoT,平均準(zhǔn)確率為79.9%。
2. 我們的方法ChatGPT CoT-MM-Retrieval基于檢索增強(qiáng)的ChatGPT,平均準(zhǔn)確率達(dá)到了84.7%,比之前的最先進(jìn)Chameleon高出4.8%。
3. 其中,ChatGPT CoT-MM-Retrieval*取得了最佳性能,平均得分為86.4%。
對(duì)于基于GPT-4的模型:
1. Chameleon (GPT-4)(Lu et al., 2023b)作為之前的最先進(jìn)模型,平均得分為86.5%。
2. 我們的方法GPT-4 CoT-MM-Retrieval*超過了Chameleon (GPT-4) 6%,平均得分達(dá)到了92.5%。它在SOC和NO等問題類型上設(shè)立了新的最先進(jìn)水平,得分分別為97.2%和94.9%。
對(duì)于基于GPT-4V的模型:
我們的方法GPT-4V CoT-MM-Retrieval利用了問題圖像,其平均得分比零樣本的GPT-4V高出2.7%,表明我們的方法不僅適用于LLMs,也適用于LMMs。
在我們針對(duì)MathVista數(shù)據(jù)集(Lu et al., 2023a)進(jìn)行的實(shí)驗(yàn)中,如表2所示,我們的方法稱為CoT-MM-Retrieval,使用了兩個(gè)示例,提供了與CoT和PoT公平的比較。
對(duì)于基于ChatGPT的模型:
我們的方法ChatGPT CoT-MM-Retrieval比ChatGPT CoT高出8.4%,平均得分為41.6%。
對(duì)于基于GPT-4的模型:
我們的方法GPT-4 CoT-MM-Retrieval分別比ChatGPT CoT和ChatGPT PoT高出13.6%和12.9%。
對(duì)于基于GPT-4V的模型:
我們的方法GPT-4V CoT-MM-Retrieval在零樣本的平均得分上比GPT-4V高出2.7%,在14個(gè)指標(biāo)中有8個(gè)超過了零樣本。值得注意的是,在MathVista,由于數(shù)學(xué)問題的難度,目前的GPT-4V在平均得分上無法超過人類。
4.3 消融研究
我們對(duì)不同檢索方法和示例數(shù)量(少樣本學(xué)習(xí)中的shots)在方程2中的影響進(jìn)行了分析。結(jié)果如圖5所示。
我們探討了四種檢索方法:1)文本到文本(T2T),2)文本到圖像(T2I),3)圖像到文本(I2T),4)圖像到圖像(I2I),并隨著示例數(shù)量的增加(從0到4,分別為k1, k2, k3, k4)研究其對(duì)模型性能的影響。提供了不同問題類型的性能指標(biāo),使我們能夠辨別不同類別中的模式和變化。圖5的結(jié)果首先表明,在上下文中添加示例可以提高整體準(zhǔn)確率,特別是在ScienceQA和MathVista中。從圖5中我們還可以觀察到:
1. 文本到文本檢索(T2T):隨著示例數(shù)量的增加,T2T檢索的準(zhǔn)確率在ScienceQA上保持相對(duì)穩(wěn)定,平均準(zhǔn)確率在80.8%到81.3%之間。而在MathVista上,平均準(zhǔn)確率在35.6%到40.6%之間。該方法的最高準(zhǔn)確率是在ScienceQA上使用1個(gè)示例(81.3%)和在MathVista上使用2個(gè)示例(40.6%)時(shí)達(dá)到的,這表明增加更多示例并不總能保證性能提升。
2. 文本到圖像檢索(T2I):其表現(xiàn)與T2T類似,在ScienceQA上的平均準(zhǔn)確率在80.4%到81%之間,在MathVista上的平均準(zhǔn)確率在36.2%到40.1%之間。對(duì)于這種方法,最高準(zhǔn)確率是在ScienceQA上使用2個(gè)示例(81%)和在MathVista上使用3個(gè)示例(40.1%)時(shí)達(dá)到的。
3. 圖像到文本檢索(I2T):該方法的準(zhǔn)確率變化比前兩種略大,在ScienceQA上的準(zhǔn)確率在81.4%到82%之間,在MathVista上的準(zhǔn)確率在31.7%到38.8%之間。這里,2個(gè)示例在ScienceQA上提供了最佳平均表現(xiàn)(82%),而在MathVista上使用1個(gè)示例時(shí)(38.8%)達(dá)到了最高準(zhǔn)確率。
4. 圖像到圖像檢索(I2I):這種方法在MathVista上的表現(xiàn)與文本到文本檢索相似,平均準(zhǔn)確率在34.8%到39.8%之間。該方法的最高準(zhǔn)確率是在使用2個(gè)示例(39.8%)時(shí)達(dá)到的。在ScienceQA上,這種檢索方法展示了最有趣的趨勢(shì)。隨著示例數(shù)量的增加,準(zhǔn)確率顯著提高,從1個(gè)示例時(shí)的82.8%提高到4個(gè)示例時(shí)的85.9%。在ScienceQA上,G1-6類型的表現(xiàn)始終很好,準(zhǔn)確率通常在84%以上。
檢索方法的選擇和示例數(shù)量在確定模型性能方面起著關(guān)鍵作用。我們的消融研究結(jié)果表明,我們提出的檢索策略在不同模態(tài)和不同示例數(shù)量上具有穩(wěn)健性和適應(yīng)性。值得注意的是,不同問題類型中的一致性能強(qiáng)調(diào)了我們方法在增強(qiáng)LLMs推理能力方面的有效性。
5 結(jié)論
本文提出了一種新穎的方法來應(yīng)對(duì)為大語言模型(LLMs)進(jìn)行多模態(tài)推理時(shí)選擇合適的示例的問題(Lu 等,2022)。通過將檢索機(jī)制與LLMs相結(jié)合并強(qiáng)調(diào)文本和圖像之間的模態(tài)連接,我們的方法旨在提高LLMs在多模態(tài)鏈?zhǔn)剿季S(CoT)(Wei 等,2022b;Zhang 等,2023c)推理中的效率。此外,我們的方法引入了分層抽樣,確保LLMs能夠接觸到多樣且全面的示例。在對(duì)ScienceQA數(shù)據(jù)集(Lu 等,2022)和MathVista數(shù)據(jù)集(Lu 等,2023a)的實(shí)驗(yàn)中,我們的方法持續(xù)優(yōu)于現(xiàn)有的最先進(jìn)模型,如Chameleon(Lu 等,2023b)和ChatGPT PoT(Lu 等,2023a)。這些實(shí)驗(yàn)證實(shí)了我們的假設(shè),即將LLMs與我們提出的定制檢索機(jī)制相結(jié)合,可以顯著提升多模態(tài)推理性能。隨著CoT技術(shù)在自然語言處理社區(qū)中日益受到關(guān)注,我們的工作強(qiáng)調(diào)了有效示例選擇的重要性。
未來的研究應(yīng)著重于優(yōu)化檢索過程,并將本研究中開發(fā)的方法擴(kuò)展到其他多模態(tài)任務(wù)中。這些任務(wù)可能包括LLMs輸出涵蓋多種模態(tài)的任務(wù),如文本到圖像和文本到視頻生成(Liu 等,2023a;Wang 等,2023d)。此外,將其應(yīng)用于如醫(yī)療領(lǐng)域等專業(yè)領(lǐng)域(Li 等,2023d),也是一個(gè)有前途的方向。同時(shí),在開發(fā)越來越復(fù)雜的多模態(tài)LLMs,特別是那些采用CoT推理的LLMs時(shí),解決幻覺問題也非常重要(Ji 等,2023;Zhang 等,2023b)。我們相信我們的工作為這些未來的探索奠定了堅(jiān)實(shí)的基礎(chǔ)。
局限性
本文提出了一種通過多模態(tài)檢索增強(qiáng)LLMs進(jìn)行CoT示例的新方法。然而,我們的工作存在一些局限性。首先,我們的方法僅在兩個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試:ScienceQA和MathVista。這兩個(gè)數(shù)據(jù)集主要涉及科學(xué)和數(shù)學(xué)主題,不能廣泛覆蓋其他復(fù)雜的推理任務(wù)。因此,我們的方法還應(yīng)在其他復(fù)雜推理任務(wù)上進(jìn)行評(píng)估。其次,由于資源限制,我們僅在閉源系統(tǒng)上進(jìn)行了實(shí)驗(yàn),未在開源LLMs上進(jìn)行實(shí)驗(yàn),這使得我們的結(jié)果難以復(fù)制且成本高。此外,由于這些閉源LLMs的性質(zhì),我們無法完全消除數(shù)據(jù)污染的風(fēng)險(xiǎn)。因此,我們的方法還應(yīng)在更多具代表性的語言上進(jìn)行全面評(píng)估。
Liu B, Lyu C, Min Z, et al. Retrieval-augmented multi-modal chain-of-thoughts reasoning for large language models[J]. arXiv preprint arXiv:2312.01714, 2023.
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/bq1hQJ23DAQDJN9j2uNh6g??
