電子科大、同濟(jì)大學(xué)、新加坡國(guó)立大學(xué)等發(fā)表的Math-LLaVA:引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力
一、結(jié)論寫在前面
下面介紹的論文來自:電子科技大學(xué)、新加坡科技設(shè)計(jì)大學(xué)、同濟(jì)大學(xué)、新加坡國(guó)立大學(xué)。
論文標(biāo)題:Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
論文鏈接:??https://arxiv.org/pdf/2406.17294??
代碼和數(shù)據(jù):??https://github.com/HZQ950419/Math-LLaVA??。
LLMs在文本數(shù)學(xué)問題解決方面展示了令人印象深刻的推理能力。然而,現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每個(gè)圖像包含有限的問題-答案對(duì),未能充分利用視覺信息來增強(qiáng)多模態(tài)LLMs(MLLMs)的數(shù)學(xué)推理能力。
為了填補(bǔ)這一空白,論文通過從24個(gè)現(xiàn)有數(shù)據(jù)集中收集40K高質(zhì)量圖像及其問題-答案對(duì),并合成320K新對(duì),創(chuàng)建了MathV360K數(shù)據(jù)集,該數(shù)據(jù)集增強(qiáng)了多模態(tài)數(shù)學(xué)問題的廣度和深度。論文引入了基于LLaVA-1.5的Math-LLaVA模型,該模型通過MathV360K進(jìn)行微調(diào)。
這一新穎方法顯著提升了LLaVA-1.5的多模態(tài)數(shù)學(xué)推理能力,實(shí)現(xiàn)了19個(gè)百分點(diǎn)的提升,并在MathVista的迷你測(cè)試分組上與GPT-4V表現(xiàn)相當(dāng)。此外,Math-LLaVA展示了增強(qiáng)的泛化能力,在MMMU基準(zhǔn)上取得了顯著進(jìn)步。論文的研究強(qiáng)調(diào)了數(shù)據(jù)多樣性和合成在提升MLLMs數(shù)學(xué)推理能力中的重要性。
二、論文的簡(jiǎn)單介紹
2.1 論文的背景
多模態(tài)數(shù)學(xué)推理任務(wù)要求模型解釋多樣化的圖像并應(yīng)用高級(jí)推理技能。盡管開源的多模態(tài)大型語言模型(MLLMs)如LLaVA和Mini-GPT4在視覺問答任務(wù)上表現(xiàn)良好,但它們?cè)诮鉀Q涉及視覺內(nèi)容的復(fù)雜數(shù)學(xué)問題方面仍不及專有的MLLMs。
提升多模態(tài)大型語言模型(MLLMs)數(shù)學(xué)推理能力的兩種常見方法是提示方法和微調(diào)方法。提示方法通過精心設(shè)計(jì)的提示利用MLLMs的潛在能力,而微調(diào)方法則使用從現(xiàn)實(shí)世界或高級(jí)LLMs(如GPT-4)生成的合成數(shù)據(jù)中收集的推理數(shù)據(jù)來調(diào)整模型參數(shù)。然而,現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每張圖像包含的問答對(duì)數(shù)量有限,未能充分利用視覺信息來增強(qiáng)MLLMs的多模態(tài)數(shù)學(xué)推理能力。
為了填補(bǔ)這一空白,論文從24個(gè)現(xiàn)有數(shù)據(jù)集中選取了40K張高質(zhì)量圖像及其對(duì)應(yīng)的問答對(duì)。這些圖像和問題涵蓋了代數(shù)、算術(shù)、幾何、邏輯、數(shù)值常識(shí)、科學(xué)和視覺問答等多個(gè)學(xué)科。選取標(biāo)準(zhǔn)基于圖像清晰度和理解復(fù)雜性。此外,論文提出了一種流程,基于這40K張圖像和種子查詢合成320K個(gè)新問答對(duì)。
2.2 數(shù)據(jù)合成
現(xiàn)有的開源圖像指令微調(diào)數(shù)據(jù)集,每張圖像包含有限的問答對(duì),未能充分發(fā)掘視覺信息以增強(qiáng)MLLM的多模態(tài)數(shù)學(xué)推理能力。
為此,論文提出MathV360K,一個(gè)基于40K精選圖像和多子領(lǐng)域種子問答對(duì)合成的強(qiáng)大數(shù)據(jù)集。如圖1左側(cè)所示,論文首先從24個(gè)開源多模態(tài)問答數(shù)據(jù)集中,根據(jù)圖像清晰度和理解復(fù)雜度篩選出40K高質(zhì)量數(shù)據(jù)點(diǎn)。在第二步,如圖1右上方所示,論文嘗試充分挖掘圖像的視覺信息以生成額外問題。數(shù)據(jù)生成流程包括創(chuàng)建多樣化的新問題以充分發(fā)掘視覺信息、更復(fù)雜的問題以進(jìn)一步提高推理能力,重述問題和未明確指定的問題以提高模型的魯棒性。通過數(shù)據(jù)生成流程,論文為選定的40K數(shù)據(jù)點(diǎn)收集了36萬條高質(zhì)量且多樣化的指令調(diào)優(yōu)數(shù)據(jù),以增強(qiáng)LLaVA-1.5開源模型的圖像理解和數(shù)學(xué)推理能力。
圖1:提出的多模態(tài)問答數(shù)據(jù)選擇與數(shù)據(jù)增強(qiáng)的整體流程圖。論文的數(shù)據(jù)選擇依賴于微調(diào)后的ViT作為圖像分類器。數(shù)據(jù)生成過程依賴于視覺-語言模型
2.2.1 多模態(tài)推理數(shù)據(jù)選擇
2.2.1.1 源數(shù)據(jù)
論文收集了24個(gè)視覺問答和多模態(tài)數(shù)學(xué)推理數(shù)據(jù)集,每個(gè)數(shù)據(jù)集針對(duì)特定的任務(wù)類型和視覺內(nèi)容。論文聚焦于需要高級(jí)推理的五種問題任務(wù)類型來編譯源數(shù)據(jù)集:圖表問答(FQA)、幾何問題解決(GPS)、數(shù)學(xué)文字問題(MWP)、教科書問答(TQA)和視覺問答(VQA)。附錄中的表5展示了每個(gè)源數(shù)據(jù)集的任務(wù)類型和視覺內(nèi)容的更多細(xì)節(jié)。
每個(gè)多模態(tài)訓(xùn)練樣本包含三個(gè)組成部分:一張圖像,一個(gè)文本問題,以及一個(gè)真實(shí)答案。從這種數(shù)據(jù)格式中,模型旨在捕捉視覺信息和問題語義以推理出最終答案。
2.2.1.2 圖像過濾與比例分配
在獲取24個(gè)源數(shù)據(jù)集后,論文根據(jù)以下標(biāo)準(zhǔn)有意識(shí)地從原始圖像中選擇數(shù)據(jù):(1)圖像的清晰度,因?yàn)橘|(zhì)量差的圖像會(huì)引入噪聲并干擾圖像語義的學(xué)習(xí);(2)圖像的理解復(fù)雜度,從簡(jiǎn)單到復(fù)雜不等。通過將圖像分類為不同的復(fù)雜度級(jí)別并按比例選擇,論文可以形成一個(gè)具有適當(dāng)難度分布的訓(xùn)練集;(3)相應(yīng)文本問題數(shù)據(jù)的質(zhì)量,確保難度與圖像的理解復(fù)雜度相匹配。
論文微調(diào)了兩個(gè)Vision Transformer(ViT)模型,分別用于圖像清晰度和圖像理解復(fù)雜度的分類。由于缺乏標(biāo)注的圖像數(shù)據(jù),論文首先從源數(shù)據(jù)集中均勻且隨機(jī)地采樣了10K張圖像。這些圖像使用GPT-4V(OpenAI)進(jìn)行清晰度和理解復(fù)雜度的標(biāo)注,論文設(shè)計(jì)的提示語如圖2所示。對(duì)于圖像清晰度,標(biāo)簽0表示模糊、質(zhì)量差的圖像,標(biāo)簽1表示清晰、質(zhì)量好的圖像。圖像理解復(fù)雜度由對(duì)象數(shù)量、它們的位置關(guān)系、是否需要數(shù)學(xué)計(jì)算、細(xì)節(jié)級(jí)別、紋理和材質(zhì)屬性決定。圖像被分為0、1、2和3四個(gè)評(píng)分,評(píng)分越低表示視覺上下文理解越容易?;谶@10K張標(biāo)注圖像,論文使用交叉熵?fù)p失訓(xùn)練了兩個(gè)ViT模型,并初始化了全連接層進(jìn)行分類。論文首先使用微調(diào)后的圖像清晰度分類器對(duì)所有源訓(xùn)練數(shù)據(jù)集圖像進(jìn)行分類,并過濾掉標(biāo)簽為0的圖像。表5顯示了過濾前(即訓(xùn)練圖像)和過濾后(即清晰圖像)的圖像數(shù)量。
接下來,論文使用圖像理解復(fù)雜度分類器對(duì)篩選后的圖像進(jìn)行評(píng)分。表5顯示,大多數(shù)圖像被分類為中等復(fù)雜度,其次是簡(jiǎn)單,最后是最復(fù)雜??紤]到簡(jiǎn)單圖像更容易學(xué)習(xí),而復(fù)雜圖像更難且需要更多參考樣本,論文采用從簡(jiǎn)單到復(fù)雜的漸進(jìn)比例對(duì)前三個(gè)復(fù)雜度類別進(jìn)行采樣。由于評(píng)分3的圖像最為稀缺,論文收集了所有這些圖像。論文根據(jù)總體復(fù)雜度2:3:4:1的比例選擇了40K數(shù)據(jù)點(diǎn),確保從每個(gè)源數(shù)據(jù)集中均勻選擇不同復(fù)雜度的樣本。因此,論文獲得了40K高質(zhì)量(1, Q, A)真實(shí)數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)在圖像信息和問題難度上具有多樣性和漸進(jìn)性。
圖2:論文在GPT-4V API中用于圖像標(biāo)注的提示模板。圖像清晰度被視為二元分類,而圖像理解復(fù)雜度被視為多分類
2.2.2 數(shù)據(jù)增強(qiáng)
2.2.2.1 挖掘圖像以生成QA
在選擇了40K多模態(tài)推理數(shù)據(jù)后,論文觀察到每張圖像通常對(duì)應(yīng)有限的問題。如圖1的表格圖像所示,原始問題往往僅關(guān)注局部算術(shù)差異。然而,還可以提出關(guān)于總體平均值、連續(xù)變化等問題,表明僅通過一個(gè)問題并未充分利用圖像的視覺信息。因此,論文可以通過為每張圖像生成更多的問題-答案對(duì)來進(jìn)一步增強(qiáng)可用真實(shí)數(shù)據(jù)。
論文使用GPT-4V根據(jù)輸入圖像和原始問題生成額外的問題。如果以零樣本方式生成問題,它們往往聚焦于單方面的視覺場(chǎng)景,缺乏推理和數(shù)學(xué)技能。對(duì)于來自特定任務(wù)的圖像,如幾何圖形,應(yīng)提出更多任務(wù)特定的問題。因此,論文采用少樣本示范方法讓GPT-4V生成新問題。
對(duì)于屬于某一類別(FQA、GPS、MWP、TQA、VQA)的圖像,論文首先將每個(gè)任務(wù)類別內(nèi)的源數(shù)據(jù)集問題內(nèi)部聚類為五個(gè)類別。具體來說,使用TF-IDF獲取文本問題的特征,并使用K-Means進(jìn)行聚類。如圖4所示,論文以IconQA為例。在訓(xùn)練集中對(duì)問題進(jìn)行聚類后,每個(gè)聚類內(nèi)部代表一種特定的提問格式和模式,可供參考。通過從屬于某個(gè)任務(wù)類型的每個(gè)源數(shù)據(jù)集的每個(gè)聚類中隨機(jī)抽取一個(gè)問題來構(gòu)建示范。
生成輸入圖像新問題的提示如圖3所示。這種方法確保新生成的問題與原始參考問題的分布一致,同時(shí)提高多樣性。通過這種方法,論文基于選定的40K數(shù)據(jù)點(diǎn)生成了200K個(gè)新的問題-答案對(duì)。
2.2.2.2 原始問題增強(qiáng)
論文設(shè)計(jì)了提示來增強(qiáng)原始問題,如圖5所示。使用GPT-4V,論文生成了40K個(gè)更復(fù)雜的問題、40K個(gè)簡(jiǎn)化的問題和40K個(gè)改寫的問題。增強(qiáng)主要集中在以下方面:
復(fù)雜性。更復(fù)雜的推理樣本可以增強(qiáng)微調(diào)LLMs(大型語言模型)的推理能力。論文的第一種方法是在原始圖像和相應(yīng)詢問的基礎(chǔ)上創(chuàng)建更復(fù)雜的問題。
邏輯一致性。魯棒的多模態(tài)大型語言模型(MLLMs)應(yīng)對(duì)給定圖像中的相似內(nèi)容提供一致的回答。論文采用GPT-4V,通過不同方式提問相同問題,確保答案不變。
圖3:論文使用的GPT-4V API提示模板為每個(gè)輸入圖像生成額外問題。演示通過從每個(gè)源數(shù)據(jù)集的每個(gè)集群中隨機(jī)抽取一個(gè)問題構(gòu)建,以適應(yīng)特定任務(wù)類型
語義欠規(guī)范。魯棒的MLLMs必須處理語義欠規(guī)范問題,即語言信號(hào)僅傳達(dá)了成功交流所需的部分信息。因此,論文在不影響與圖像結(jié)合的語義理解的前提下,簡(jiǎn)化了原始問題。
2.3 實(shí)驗(yàn)
2.3.1 模型與訓(xùn)練
論文采用LLaVA-1.5架構(gòu)作為基礎(chǔ)模型,主要包含Vicuna-v1.5語言模型(Team, 2023)和預(yù)訓(xùn)練的Vision Transformer(ViT)作為圖像編碼器。為了保持基礎(chǔ)模型卓越的視覺感知和描述能力,論文使用提出的MathV360K指令調(diào)優(yōu)數(shù)據(jù)集對(duì)LLaVA-1.5-13B進(jìn)行微調(diào)。該數(shù)據(jù)集中多樣的問題模式和豐富的視覺內(nèi)容增強(qiáng)了模型的多模態(tài)數(shù)學(xué)推理能力,同時(shí)保持其通用的視覺-語言理解技能。
2.3.2 評(píng)估與指標(biāo)
論文采用零樣本方式,使用MathVista的minitest子集來評(píng)估論文的模型。該minitest子集包含1000個(gè)樣本,其中包括540道多項(xiàng)選擇題和460道需要以整數(shù)、浮點(diǎn)數(shù)或列表形式自由作答的問題。Math-Vista充分評(píng)估了MLLMs在多模態(tài)數(shù)學(xué)技能方面的能力,涵蓋代數(shù)推理(ALG)、算術(shù)推理(ARI)、幾何推理(GEO)、邏輯推理(LOG)、數(shù)值常識(shí)(NUM)、科學(xué)推理(SCD)和統(tǒng)計(jì)推理(STA)。此外,Math-Vista的問題可以分為以下子集:FQA、GPS、MWP、TQA和VQA。在評(píng)估過程中,論文首先利用GPT-4從響應(yīng)中提取預(yù)測(cè)選項(xiàng)或答案,然后報(bào)告答案準(zhǔn)確性,即判斷最終答案是否與標(biāo)準(zhǔn)答案匹配。此外,論文還使用MMMU基準(zhǔn)來評(píng)估論文模型的增強(qiáng)泛化能力。
MMMU基準(zhǔn)包含900個(gè)評(píng)估樣本,涵蓋六個(gè)核心學(xué)科:藝術(shù)與設(shè)計(jì)、商業(yè)、科學(xué)、健康與醫(yī)學(xué)、人文與社會(huì)科學(xué)以及技術(shù)與工程,適合評(píng)估MLLMs推理能力的泛化性。
2.3.3 實(shí)施細(xì)節(jié)
論文利用GPT-4V(GPT-4 Vision Preview)進(jìn)行數(shù)據(jù)生成過程。為了對(duì)圖像清晰度和理解復(fù)雜度進(jìn)行分類,論文微調(diào)了兩個(gè)ViT-Large-Patch16-224模型,每個(gè)模型的學(xué)習(xí)率為2e-4,訓(xùn)練周期為5個(gè)epoch。
圖 4:T-SNE 對(duì) K-Means 的可視化。論文以 IconQA 為例。每個(gè)集群的提問格式可以作為參考,用于生成類似視覺內(nèi)容的新問題
對(duì)于 LLaVA-1.5-13B 模型,輸入圖像分辨率設(shè)置為 336 乘 336 像素。投影線性層和語言模型均可訓(xùn)練。在微調(diào)階段,論文設(shè)置學(xué)習(xí)率為 2e-5,采用批量大小為 16,并使用配備 80GB 內(nèi)存的 A800 GPU 進(jìn)行 2 個(gè)周期的微調(diào)。
2.4 結(jié)果與分析
2.4.1 主要比較:MathVista
論文在 MathVista 基準(zhǔn)的 minitest 分割上比較了 Math-LLaVA 與其他多模態(tài)語言模型(MLLMs),結(jié)果如表 1 所示。如圖所示,開源 MLLMs 如 miniGPT4、instructBLIP和 LLaVA-1.5-13B 在多模態(tài)數(shù)學(xué)方面表現(xiàn)不佳,總體準(zhǔn)確率低于 30%。
與基礎(chǔ)模型 LLaVA-1.5-13B 相比,其多模態(tài)數(shù)學(xué)能力較差,Math-LLaVA 實(shí)現(xiàn)了 46.6% 的總體準(zhǔn)確率,顯著提升了 19%。更令人驚訝的是,提出的 Math-LLaVA 模型超過了閉源模型 Gemini 1.0 Pro和 Claude 3 Haiku,甚至達(dá)到了與 GPT-4V(OpenAI)相當(dāng)?shù)男阅埽顝?qiáng)大的閉源MLLMs。
Math-LLaVA在GPS子集上達(dá)到了57.7%的準(zhǔn)確率,超過了G-LLaVA-13B(Gao et al., 2023),后者已在170K高質(zhì)量的幾何圖像-標(biāo)題和問題-答案對(duì)上進(jìn)行了訓(xùn)練。Math-LLaVA的優(yōu)越性能表明,高質(zhì)量、多樣化的多模態(tài)問題-答案對(duì)的數(shù)據(jù)選擇和合成在提高M(jìn)LLM的多模態(tài)數(shù)學(xué)推理能力方面是有效的。
圖5:在論文的GPT-4V API中使用的提示模板,用于從原始問題文本生成更復(fù)雜、邏輯一致和欠規(guī)范的問題
2.4.2 Math-LLaVA的泛化能力
提出的Math-LLaVA模型在多模態(tài)數(shù)學(xué)推理任務(wù)中展示了出色的性能。為了評(píng)估其泛化能力,論文使用包含各種學(xué)科和領(lǐng)域的MMMU基準(zhǔn)進(jìn)行了評(píng)估實(shí)驗(yàn)。結(jié)果如表2所示。僅使用選定的數(shù)據(jù),Math-LLaVA在科學(xué)子集上的性能有所下降。
然而,論文可以觀察到,在MathV360K上微調(diào)的Math-LLaVA模型在所有六個(gè)子領(lǐng)域上都能顯著超越基礎(chǔ)模型LLaVA-1.5-13B,以及其他幾個(gè)開源MLLMs。這種優(yōu)越性能突顯了其向下的多模態(tài)理解和推理任務(wù)的泛化能力。此外,使用論文的合成數(shù)據(jù)進(jìn)行微調(diào)的過程并沒有削弱模型在其他領(lǐng)域的推理能力;相反,它增強(qiáng)了其泛化能力。
表1:與MathVista基準(zhǔn)測(cè)試mini集上的基準(zhǔn)對(duì)比?;鶞?zhǔn)結(jié)果來自Lu et al. (2023)。"表示論文復(fù)現(xiàn)的LLaVA-1.5-13B結(jié)果。閉源和開源MLLMs中的最佳結(jié)果以粗體顯示。MathVista分為兩種方式:任務(wù)類型或數(shù)學(xué)技能,論文報(bào)告每個(gè)子集的準(zhǔn)確性
2.4.3 對(duì)合成數(shù)據(jù)集的過擬合問題
提出的數(shù)據(jù)合成流程為每張圖像生成額外的問答對(duì),以增強(qiáng)MLLMs的數(shù)學(xué)推理能力。直觀上,論文應(yīng)該探究所提出的模型Math-LLaVA是否在生成的問答對(duì)上發(fā)生過擬合。如果發(fā)生過擬合,Math-LLaVA可能會(huì)記憶或檢索圖像信息,而不需要任何視覺輸入。
為了檢查這一點(diǎn),論文比較了Math-LLaVA在數(shù)據(jù)合成前后的性能,分別稱為Math-LLaVA-DS和Math-LLaVA,在MathVista上僅使用文本輸入進(jìn)行測(cè)試。如表3所示,Math-LLaVA在沒有視覺信息的情況下進(jìn)行推理時(shí),在MathVista上表現(xiàn)出與Math-LLaVA-DS相似的性能,約為32.0%。此外,僅使用文本數(shù)據(jù)對(duì)Math-LLaVA進(jìn)行微調(diào)也得到了類似的觀察結(jié)果。這表明Math-LLaVA模型并未在合成的問答對(duì)上發(fā)生過擬合。
有趣的是,論文也觀察到,僅使用文本輸入時(shí),LLaVA-1.5-13B在MathVista上的準(zhǔn)確率為23.3%。潛在的原因,如(Chen et al., 2024b)所探討的,可能是MathVista中的許多樣本不需要視覺內(nèi)容,并且在LLMs和MLLMs的預(yù)訓(xùn)練過程中可能發(fā)生了無意中的數(shù)據(jù)泄露。
2.4.4 合成數(shù)據(jù)的有效性
為了驗(yàn)證數(shù)據(jù)選擇和提出的數(shù)據(jù)增強(qiáng)策略的有效性,論文對(duì)MathV360K的各個(gè)組件進(jìn)行了獨(dú)立實(shí)驗(yàn)。首先,論文在源數(shù)據(jù)集中隨機(jī)抽取40K個(gè)數(shù)據(jù)點(diǎn)對(duì)LLaVA-1.5模型進(jìn)行微調(diào),不進(jìn)行任何選擇,以展示數(shù)據(jù)過濾和比例調(diào)整的效果。
隨后,論文分別將選定的40K數(shù)據(jù)點(diǎn)與使用四種增強(qiáng)方法生成的數(shù)據(jù)結(jié)合:為QA生成挖掘圖像(AskImg),提出復(fù)雜問題(CompQ),重新表述問題為了邏輯一致性(RephQ),以及簡(jiǎn)化問題以解決不明確性(SimpQ)。表4展示了不同增強(qiáng)組合在MathVista上達(dá)到的準(zhǔn)確率。結(jié)果表明,論文的數(shù)據(jù)合成方法,結(jié)合了數(shù)據(jù)選擇和每種增強(qiáng)方法,取得了更好的性能。綜合這些策略,相較于隨機(jī)采樣40K數(shù)據(jù)點(diǎn),實(shí)現(xiàn)了顯著的11%提升。
表2:在MMMU基準(zhǔn)上與基線模型的比較
表3:僅使用Math-Vista的文本作為輸入進(jìn)行推理的結(jié)果。對(duì)LLaVA-1.5使用圖像-文本或純文本數(shù)據(jù)進(jìn)行微調(diào)
表4:數(shù)據(jù)選擇和不同數(shù)據(jù)增強(qiáng)策略在MathVista上的有效性
2.4.5 每種任務(wù)類型增強(qiáng)的提升效果
鑒于論文從五種不同的問答任務(wù)類型中選擇了數(shù)據(jù),論文的目標(biāo)是研究哪些類型或技能在多模態(tài)數(shù)學(xué)推理中可以通過增強(qiáng)每個(gè)單獨(dú)任務(wù)類別的源數(shù)據(jù)得到提升。為此,論文對(duì)新數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),針對(duì)每種任務(wù)類型合成的數(shù)據(jù),與選定的數(shù)據(jù)混合。MathVista上的結(jié)果如圖6所示。
論文觀察到,對(duì)各種類型的源數(shù)據(jù)進(jìn)行增強(qiáng)可以進(jìn)一步提高模型在相應(yīng)任務(wù)上的性能。特別是在涉及FQA、MWP和VQA的任務(wù)中,增強(qiáng)效果尤為顯著。有趣的是,針對(duì)單一任務(wù)類型的數(shù)據(jù)增強(qiáng)也顯示出對(duì)其他任務(wù)類型有效性的提升,這可能是因?yàn)椴煌蝿?wù)之間所需的推理技能存在重疊。
圖6:通過針對(duì)每種任務(wù)類型的增強(qiáng)在MathVista上的準(zhǔn)確性
本文轉(zhuǎn)載自??AI帝國(guó)??,作者: 無影寺 ????
