VLM版o1超越一眾開(kāi)源和閉源模型!LLaVA-o1:多階段自主推理(北大&清華&阿里等)
論文鏈接:https://arxiv.org/abs/2411.10440
亮點(diǎn)直擊
- 引入了LLaVA-o1,這是一種專為系統(tǒng)性推理設(shè)計(jì)的視覺(jué)語(yǔ)言模型,在需要結(jié)構(gòu)化思維和推理的任務(wù)中表現(xiàn)出色。
- 證明了LLaVA-o1使用階段級(jí)束搜索具有推理時(shí)的可擴(kuò)展性。這意味著通過(guò)增加計(jì)算資源,本文的方法性能可以進(jìn)一步提升,從而適用于更復(fù)雜的任務(wù)和場(chǎng)景。
- 在各種基準(zhǔn)測(cè)試上的廣泛實(shí)驗(yàn)表明,本文的方法相較于更大規(guī)模和閉源模型實(shí)現(xiàn)了更優(yōu)異的性能,凸顯了 LLaVA-o1 在多模態(tài)推理中的有效性。
總結(jié)速覽
解決的問(wèn)題
當(dāng)前視覺(jué)語(yǔ)言模型(VLMs)在處理復(fù)雜的視覺(jué)問(wèn)答任務(wù)時(shí),系統(tǒng)性和結(jié)構(gòu)化推理能力較弱,尤其在多階段推理任務(wù)中表現(xiàn)不佳。
提出的方案
引入 LLaVA-o1,一個(gè)新型 VLM,采用自主的多階段推理策略。與鏈?zhǔn)剿季S(chain-of-thought)提示不同,LLaVA-o1 將推理分為以下獨(dú)立階段:總結(jié)、視覺(jué)解釋、邏輯推理和結(jié)論生成。
應(yīng)用的技術(shù)
- 構(gòu)建 LLaVA-o1-100k 數(shù)據(jù)集,整合多種視覺(jué)問(wèn)答數(shù)據(jù)來(lái)源,提供結(jié)構(gòu)化推理標(biāo)注。
- 提出推理階段級(jí)別的束搜索(beam search)方法,以實(shí)現(xiàn)推理時(shí)的擴(kuò)展能力。
達(dá)到的效果
- LLaVA-o1 在推理密集型任務(wù)的精確性上顯著提高。
- 使用僅 100k 訓(xùn)練樣本及簡(jiǎn)單有效的推理擴(kuò)展方法,LLaVA-o1 在多模態(tài)推理基準(zhǔn)測(cè)試上表現(xiàn)超越基礎(chǔ)模型 8.9%。
- 超越包括 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct 等更大規(guī)模甚至閉源模型的性能。
方法
LLaVA-o1 通過(guò)漸進(jìn)式的逐步推理過(guò)程增強(qiáng)了視覺(jué)語(yǔ)言模型(VLMs)的推理能力,并支持高效的推理時(shí)間擴(kuò)展。通過(guò)結(jié)構(gòu)化思維,LLaVA-o1 實(shí)現(xiàn)了系統(tǒng)化且高效的推理過(guò)程。其推理時(shí)間框架使其在推理時(shí)間可擴(kuò)展性方面超越現(xiàn)有方法。這一設(shè)計(jì)確保了在需要推理的復(fù)雜任務(wù)中具備魯棒性和準(zhǔn)確性,與傳統(tǒng)方法形成了鮮明對(duì)比。下圖 1 展示了推理過(guò)程的總體框架。
通過(guò)結(jié)構(gòu)化思維增強(qiáng)推理能力
在訓(xùn)練過(guò)程中,本文的目標(biāo)是開(kāi)發(fā)一種能夠執(zhí)行擴(kuò)展推理鏈的視覺(jué)語(yǔ)言模型,使其能夠進(jìn)行系統(tǒng)化和深入的推理。
推理階段
LLaVA-o1 將答案生成過(guò)程分解為四個(gè)結(jié)構(gòu)化推理階段:
- 總結(jié)階段在初始階段,LLaVA-o1 提供問(wèn)題的高層次總結(jié)性解釋,概述其需要解決的主要問(wèn)題。
- 描述階段如果有圖像存在,LLaVA-o1 提供與問(wèn)題相關(guān)的視覺(jué)元素的簡(jiǎn)要概述,以幫助理解多模態(tài)輸入。
- 推理階段在總結(jié)的基礎(chǔ)上,LLaVA-o1 進(jìn)行結(jié)構(gòu)化的邏輯推理,得出初步答案。
- 結(jié)論階段在最終階段,LLaVA-o1 根據(jù)之前的推理綜合生成答案。在這一階段,結(jié)論輸出直接提供給用戶,而前三個(gè)階段是 LLaVA-o1 的內(nèi)部“隱藏階段”,代表其推理過(guò)程。結(jié)論階段的輸出會(huì)根據(jù)用戶的需求進(jìn)行調(diào)整:例如,如果用戶請(qǐng)求簡(jiǎn)短的答案,結(jié)論將簡(jiǎn)明扼要;如果需要詳細(xì)解釋,結(jié)論將提供詳盡的、全面的回應(yīng)。
每個(gè)階段由模型自主啟動(dòng),無(wú)需外部提示工程框架或額外提示。為模型提供了四組特殊標(biāo)簽:??<SUMMARY></SUMMARY>?
??、??<CAPTION></CAPTION>?
??、??<REASONING></REASONING>?
?? 和 ??<CONCLUSION></CONCLUSION>?
?。這些標(biāo)簽分別對(duì)應(yīng)總結(jié)響應(yīng)方法、描述相關(guān)圖像內(nèi)容、進(jìn)行推理以及準(zhǔn)備最終答案。
在訓(xùn)練過(guò)程中,模型根據(jù)自身判斷自主選擇這些標(biāo)簽,并激活相應(yīng)階段。與 OpenAI o1 類似,所有階段均在單次推理中由模型完成。這種結(jié)構(gòu)化的方法使模型能夠獨(dú)立管理其推理過(guò)程,從而提升其在復(fù)雜推理任務(wù)中的適應(yīng)性和性能。
數(shù)據(jù)準(zhǔn)備與模型訓(xùn)練
現(xiàn)有的大多數(shù) VQA 數(shù)據(jù)集缺乏訓(xùn)練 LLaVA-o1 所需的詳細(xì)推理過(guò)程。因此,整合多個(gè)常用 VQA 數(shù)據(jù)集,構(gòu)建了一個(gè)包含 99k 圖像問(wèn)答對(duì)的新數(shù)據(jù)集(每對(duì)可能包括一個(gè)或多個(gè)回合的問(wèn)答)。如下圖 3 所示,由于當(dāng)前沒(méi)有多模態(tài)模型能夠直接生成系統(tǒng)化的結(jié)構(gòu)化推理,研究者們使用 GPT-4o 生成詳細(xì)的推理過(guò)程,包括總結(jié)、描述、推理和結(jié)論,并將這些數(shù)據(jù)匯編成 LLaVA-o1-100k 數(shù)據(jù)集,計(jì)劃公開(kāi)發(fā)布。
整合的數(shù)據(jù)既包括通用型 VQA 數(shù)據(jù)集,也包括面向科學(xué)的 VQA 數(shù)據(jù)集,具體如下:
通用 VQA 數(shù)據(jù)集
- ShareGPT4V:提供來(lái)自 GPT4V 交互的多輪問(wèn)答數(shù)據(jù)。
- ChartQA:專注于解釋圖表和圖形。
- A-OKVQA:強(qiáng)調(diào)超越可見(jiàn)內(nèi)容的外部知識(shí)。
- DocVQA:涉及基于文檔的問(wèn)題,需理解文本內(nèi)容。
- PISC:用于理解社會(huì)關(guān)系。
- CLEVR:解決對(duì)象屬性、空間關(guān)系和計(jì)數(shù)任務(wù)。
面向科學(xué)的 VQA 數(shù)據(jù)集 這些數(shù)據(jù)集包括用于幾何推理的 GeoQA+,以及專注于科學(xué)問(wèn)題的 AI2D 和 ScienceQA。CLEVR-Math 是 CLEVR 的擴(kuò)展版,專注于視覺(jué)背景下的算術(shù)分析。下表 1 列出了從每個(gè)數(shù)據(jù)集中選擇的問(wèn)答對(duì)數(shù)量。
模型訓(xùn)練
本文構(gòu)建的 LLaVA-o1-100k 數(shù)據(jù)集可以用于對(duì)現(xiàn)有模型進(jìn)行監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT),以增強(qiáng)其推理能力。在本研究中,選擇 Llama-3.2-11B-Vision-Instruct 模型作為基礎(chǔ)模型,并使用 LLaVA-o1-100k 數(shù)據(jù)集對(duì)其進(jìn)行全參數(shù)微調(diào)。訓(xùn)練在一臺(tái)配備 8 張 H100 GPU 的節(jié)點(diǎn)上完成。
使用階段級(jí)束搜索實(shí)現(xiàn)有效的推理時(shí)間擴(kuò)展
訓(xùn)練完成后,在推理過(guò)程中進(jìn)一步增強(qiáng)模型的推理能力。利用 LLaVA-o1 的階段輸出,這種分階段的結(jié)構(gòu)化輸出為推理時(shí)間擴(kuò)展提供了理想的粒度。方法包括以下步驟:
值得注意的是,正是 LLaVA-o1 的結(jié)構(gòu)化輸出設(shè)計(jì)使得這一方法成為可能,從而在每個(gè)階段實(shí)現(xiàn)高效且準(zhǔn)確的驗(yàn)證。這驗(yàn)證了結(jié)構(gòu)化輸出在提高推理時(shí)間擴(kuò)展中的有效性。三種方法的示意圖見(jiàn)下圖 4。
下圖 5 中提供了一個(gè)示例。當(dāng)未應(yīng)用推理時(shí)間擴(kuò)展時(shí),盡管模型生成了正確的推理步驟,但在推理過(guò)程中未能得出具體答案。這導(dǎo)致模型在結(jié)論階段進(jìn)行猜測(cè),從而得出錯(cuò)誤結(jié)果。相比之下,應(yīng)用推理時(shí)間擴(kuò)展后,模型保留了通向最終結(jié)果的推理步驟,確保了答案的正確性。
后訓(xùn)練性能
本節(jié)將 LLaVA-o1 與基礎(chǔ)模型 Llama-3.2-11B-Vision-Instruct 在六個(gè)常用的多模態(tài)基準(zhǔn)上進(jìn)行比較,以展示本文方法在訓(xùn)練階段的有效性。隨后,通過(guò)消融研究評(píng)估方法中各組件的貢獻(xiàn),重點(diǎn)解決以下三個(gè)關(guān)鍵問(wèn)題:
- LLaVA-o1-100k 數(shù)據(jù)集是否比直接使用原始數(shù)據(jù)集的問(wèn)答對(duì)更有效?
- 結(jié)構(gòu)化標(biāo)簽對(duì)性能的影響如何?具體而言,探討 LLaVA-o1 在沒(méi)有標(biāo)簽的情況下,能否通過(guò)隱式分段實(shí)現(xiàn)響應(yīng)的不同階段。
- 與基礎(chǔ)模型相比,本文的模型在哪些具體領(lǐng)域表現(xiàn)出最大的改進(jìn)?是否真正增強(qiáng)了推理能力?
實(shí)驗(yàn)設(shè)置
本文選擇了六個(gè)廣泛使用且具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):MMStar、MMBench V1.1、MMVet、MathVista、AI2D] 和 HallusionBench。
- MMStar、MMBench和MMVet主要評(píng)估模型的一般視覺(jué)問(wèn)答能力。
- MathVista和AI2D關(guān)注模型在數(shù)學(xué)和科學(xué)推理方面的能力。
- HallusionBench專門(mén)評(píng)估模型處理語(yǔ)言幻覺(jué)和視覺(jué)錯(cuò)覺(jué)的能力。
在 MMBench 基準(zhǔn)中,使用測(cè)試集 V1.1;對(duì)于 MathVista,使用測(cè)試子集 testmini;其余數(shù)據(jù)集則各自包含單一測(cè)試集。
為確保公平性和可復(fù)現(xiàn)性,所有評(píng)估均使用開(kāi)源評(píng)估工具包 VLMEvalKit 進(jìn)行。所有基線模型的性能指標(biāo)均來(lái)源于 VLMEvalKit 的測(cè)試結(jié)果。
基準(zhǔn)測(cè)試結(jié)果
盡管僅使用 100k 數(shù)據(jù),LLaVA-o1 的性能仍顯著提升。根據(jù)下表 2,與基礎(chǔ)模型 Llama-3.2-11B-Vision-Instruct 相比,LLaVA-o1 在一般問(wèn)答、數(shù)學(xué)推理、科學(xué)問(wèn)答以及幻覺(jué)控制任務(wù)上均表現(xiàn)出顯著改進(jìn),平均基準(zhǔn)得分提高了 6.9%,驗(yàn)證了本文方法的有效性。
消融研究
LLaVA-o1-100k 數(shù)據(jù)集相比原始數(shù)據(jù)集的有效性
為了驗(yàn)證改進(jìn)后的 LLaVA-o1-100k 數(shù)據(jù)集的有效性,對(duì)比了 LLaVA-o1 和直接在原始問(wèn)答對(duì)上訓(xùn)練的模型在不同基準(zhǔn)上的表現(xiàn)(見(jiàn)上表 2)。盡管直接在原始問(wèn)答對(duì)上訓(xùn)練的模型對(duì)基礎(chǔ)模型有一定的整體提升,其平均性能仍顯著較低,尤其是在需要更詳細(xì)回答的 MMVet 基準(zhǔn)上,其表現(xiàn)甚至低于基礎(chǔ)模型。這一結(jié)果強(qiáng)調(diào)了 LLaVA-o1-100k 數(shù)據(jù)集中多階段格式在訓(xùn)練具備高級(jí)推理能力的模型時(shí)的重要性。
結(jié)構(gòu)化標(biāo)簽對(duì)性能的必要性
為了研究引入的四個(gè)標(biāo)簽是否提升了模型性能,比較了使用和不使用結(jié)構(gòu)化標(biāo)簽訓(xùn)練的 LLaVA-o1 模型(均基于 LLaVA-o1-100k 數(shù)據(jù)集)。如上表 2 所示,去除標(biāo)簽后性能顯著下降,表明結(jié)構(gòu)化標(biāo)簽促進(jìn)了推理能力的發(fā)揮并提升了模型性能。LLaVA-o1 是首次通過(guò)帶標(biāo)簽的結(jié)構(gòu)化推理成功提升模型推理能力和整體性能的嘗試。
性能主要提升集中在推理密集領(lǐng)域為分析 LLaVA-o1 相較基礎(chǔ)模型在哪些具體領(lǐng)域有所提升,在 MMStar 基準(zhǔn)上對(duì)模型在不同技能方面的表現(xiàn)進(jìn)行了詳細(xì)評(píng)估。MMStar 用于評(píng)估六項(xiàng)核心能力:粗略感知、細(xì)粒度感知、實(shí)例推理、邏輯推理、數(shù)學(xué)以及科學(xué)與技術(shù)。
如下表 3 所示,LLaVA-o1 在需要系統(tǒng)推理的任務(wù)上(如實(shí)例推理、邏輯推理、數(shù)學(xué)、科學(xué)與技術(shù))表現(xiàn)出顯著改進(jìn),而在粗略感知和細(xì)粒度感知上的提升相對(duì)較小。這表明本文的方法主要增強(qiáng)了模型的推理能力。
推理時(shí)間擴(kuò)展
本節(jié)旨在比較階段級(jí)束搜索方法與傳統(tǒng)方法(如最佳 N 選擇法和句子級(jí)束搜索)在相似計(jì)算約束下的有效性。實(shí)驗(yàn)設(shè)置與上一節(jié)一致,評(píng)估基準(zhǔn)包括 MMStar、MMBench V1.1、MMVet、MathVista、AI2D 和 HallusionBench,所有評(píng)估均通過(guò) VLMEvalKit 進(jìn)行以確保結(jié)果可復(fù)現(xiàn)。
基準(zhǔn)測(cè)試結(jié)果
如下表 4 所示,階段級(jí)束搜索在利用 LLaVA-o1 的結(jié)構(gòu)化推理階段方面表現(xiàn)出了顯著的有效性。通過(guò)在每個(gè)推理階段評(píng)估輸出,該方法在嚴(yán)格的質(zhì)量控制與計(jì)算效率之間達(dá)成了平衡,在復(fù)雜推理任務(wù)上顯著提升了推理準(zhǔn)確性,同時(shí)未帶來(lái)明顯的計(jì)算開(kāi)銷。這表明階段級(jí)束搜索是一種高效而強(qiáng)大的推理時(shí)間擴(kuò)展方法,而這一點(diǎn)得益于 LLaVA-o1 的結(jié)構(gòu)化輸出設(shè)計(jì)。
與基線方法的對(duì)比
為了評(píng)估相對(duì)性能,在 MMVet 基準(zhǔn)上將階段級(jí)束搜索方法與基線推理擴(kuò)展方法進(jìn)行了對(duì)比。在公平比較的前提下,所有方法使用了相似的推理時(shí)間計(jì)算成本:
- 最佳 N 選擇法設(shè)置 (N = 10)。
- 階段級(jí)束搜索在每個(gè)階段生成 4 個(gè)候選響應(yīng)。
- 句子級(jí)束搜索每句生成 2 個(gè)候選響應(yīng)。
如下表 5 所示:
- 最佳 N 選擇法的性能僅提升了 0.6%。
- 句子級(jí)束搜索的性能甚至下降了 1.9%,主要原因是過(guò)于細(xì)粒度的句子級(jí)方法難以有效處理開(kāi)放式問(wèn)題。
- 階段級(jí)束搜索的性能提高了 2.6%,突顯了階段級(jí)搜索的優(yōu)越性。
階段級(jí)束搜索的擴(kuò)展趨勢(shì)
為了進(jìn)一步驗(yàn)證階段級(jí)束搜索在推理時(shí)間計(jì)算增加時(shí)的有效性,在 MMVet 基準(zhǔn)上評(píng)估了不同束寬度下的 LLaVA-o1 性能。
如下表 6 所示,在每個(gè)推理階段生成 1 個(gè)(即無(wú)推理時(shí)間擴(kuò)展)、2 個(gè)、3 個(gè)和 4 個(gè)候選響應(yīng),供模型選擇最佳答案。實(shí)驗(yàn)結(jié)果表明,隨著候選響應(yīng)數(shù)量的增加,模型性能持續(xù)提升,確認(rèn)了階段級(jí)束搜索方法的可擴(kuò)展性。
由于計(jì)算資源限制,僅測(cè)試了在所有基準(zhǔn)上束寬度為 2 的情況。然而,預(yù)計(jì)進(jìn)一步增加束寬度將帶來(lái)更顯著的性能提升。
與最先進(jìn)的視覺(jué)語(yǔ)言模型(VLMs)的比較
如下表7所示,將LLaVA-o1與其他最先進(jìn)的開(kāi)源和閉源視覺(jué)語(yǔ)言模型(VLM)在六個(gè)需要高級(jí)推理能力的基準(zhǔn)上進(jìn)行了比較:MMStar-R、MMBench-R、MMVet-R、MathVista、AI2D和HallusionBench。MMStar-R、MMBench-R和MMVet-R是從MMStar、MMBench V1.1和MMVet中衍生的自定義基準(zhǔn),去除了僅需要粗略感知、細(xì)粒度感知和OCR的任務(wù)。這些過(guò)濾后的基準(zhǔn)保留了需要復(fù)雜推理的任務(wù)。MathVista、AI2D和HallusionBench本身聚焦于高級(jí)推理,因此保留了這些基準(zhǔn)中的所有任務(wù)。
結(jié)果表明,LLaVA-o1在多個(gè)基準(zhǔn)上始終優(yōu)于許多開(kāi)源模型,甚至是類似或更大規(guī)模的模型,如InternVL2-8B、Ovis1.5-Gemma2-9B、MiniCPM-V2.6-8B、Llama-3.2-90B-VisionInstruct和VILA-1.5-40B。值得注意的是,LLaVA-o1甚至超越了某些閉源模型,如GPT-4o-mini和Gemini-1.5-pro,凸顯了結(jié)構(gòu)化推理方法的有效性。這一比較驗(yàn)證了本文方法的優(yōu)勢(shì),特別是在那些高度依賴推理能力的基準(zhǔn)上,并突出了LLaVA-o1在推理密集型VLM任務(wù)中的競(jìng)爭(zhēng)力。
結(jié)論
本文提出了LLaVA-o1,一種新穎的視覺(jué)語(yǔ)言模型,能夠在多個(gè)階段執(zhí)行結(jié)構(gòu)化的自主推理。通過(guò)引入四個(gè)明確的階段——總結(jié)、描述、推理和結(jié)論——LLaVA-o1實(shí)現(xiàn)了一種系統(tǒng)化的推理過(guò)程。
本文的貢獻(xiàn)有兩個(gè)方面:首先,創(chuàng)建了LLaVA-o1-100k數(shù)據(jù)集,該數(shù)據(jù)集具有詳細(xì)的推理標(biāo)注,支持對(duì)系統(tǒng)化、結(jié)構(gòu)化響應(yīng)的訓(xùn)練;其次,提出了階段級(jí)束搜索方法,使推理時(shí)間擴(kuò)展變得高效。
總的來(lái)說(shuō),LLaVA-o1為多模態(tài)推理樹(shù)立了新的標(biāo)準(zhǔn),提供了強(qiáng)大的性能和可擴(kuò)展性,尤其是在推理時(shí)間方面。本文的工作為未來(lái)在VLM中開(kāi)展結(jié)構(gòu)化推理的研究奠定了基礎(chǔ),包括通過(guò)外部驗(yàn)證器的擴(kuò)展,以及使用強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)復(fù)雜多模態(tài)推理能力的潛力。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
