多智能體架構(gòu)Insight-V來(lái)了!突破長(zhǎng)鏈視覺(jué)推理瓶頸
本文的主要作者來(lái)自南洋理工大學(xué) S-Lab、騰訊公司和清華大學(xué)智能視覺(jué)實(shí)驗(yàn)室。本文的共同第一作者為南洋理工大學(xué)博士生董宇昊和清華大學(xué)自動(dòng)化系博士生劉祖炎,主要研究方向?yàn)槎嗄B(tài)模型。本文的通訊作者為南洋理工大學(xué)助理教授劉子緯和騰訊高級(jí)研究員饒永銘。
大語(yǔ)言模型(LLMs)通過(guò)更多的推理展現(xiàn)出了更強(qiáng)的能力和可靠性,從思維鏈提示發(fā)展到了 OpenAI-o1 這樣具有較強(qiáng)推理能力的模型。盡管人們?yōu)楦倪M(jìn)語(yǔ)言模型的推理做出了種種努力,但在多模態(tài)視覺(jué)語(yǔ)言任務(wù)中,高質(zhì)量的長(zhǎng)鏈推理數(shù)據(jù)以及優(yōu)化的訓(xùn)練流程仍未得到充分的探索。
為了解決上述問(wèn)題,來(lái)自南洋理工大學(xué)、騰訊、清華大學(xué)的研究者們提出一種能夠進(jìn)行長(zhǎng)鏈視覺(jué)推理的多模態(tài)模型 Insight-V。Insight-V 提供了 1)針對(duì)復(fù)雜的多模態(tài)任務(wù),可擴(kuò)展地生成冗長(zhǎng)且可靠的推理數(shù)據(jù);2)建立有效的訓(xùn)練流程,以增強(qiáng)多模態(tài)語(yǔ)言模型的推理能力。
Insight-V 的核心創(chuàng)新點(diǎn)包括:1)一個(gè)用于生成長(zhǎng)鏈、高質(zhì)量推理數(shù)據(jù)的可擴(kuò)展的數(shù)據(jù)生成流程;2)一個(gè)將視覺(jué)推理任務(wù)分解為推理和總結(jié)的多智能體系統(tǒng);3)一個(gè)用于增強(qiáng)視覺(jué)推理能力的兩階段訓(xùn)練流程。這些設(shè)計(jì)賦予了 Insight-V 較強(qiáng)的視覺(jué)推理能力。
- 論文:https://arxiv.org/abs/2411.14432
- 代碼:https://github.com/dongyh20/Insight-V
- 模型:https://huggingface.co/THUdyh/Insight-V-Reason
1. 介紹
現(xiàn)有的研究通過(guò)長(zhǎng)鏈推理來(lái)提升語(yǔ)言模型(LLMs)的推理能力,已經(jīng)取得了顯著進(jìn)展,這在很大程度上得益于結(jié)構(gòu)化、高質(zhì)量數(shù)據(jù)的可獲取性以及成熟的訓(xùn)練流程。相比之下,多模態(tài)語(yǔ)言模型(MLLMs)進(jìn)行長(zhǎng)鏈視覺(jué)推理仍然是一項(xiàng)重大挑戰(zhàn),主要原因是缺乏大規(guī)模、高質(zhì)量的數(shù)據(jù)集以及高效有效的訓(xùn)練策略。與純文本數(shù)據(jù)相比,視覺(jué)推理數(shù)據(jù)不僅收集成本更高,而且由于缺乏有效的數(shù)據(jù)生成流程,還需要大量人力來(lái)進(jìn)行詳細(xì)標(biāo)注和驗(yàn)證。此外,當(dāng)前的多模態(tài)語(yǔ)言模型無(wú)法有效利用視覺(jué)線索進(jìn)行精確的視覺(jué)推理,需要一種有效的訓(xùn)練程序,使多模態(tài)語(yǔ)言模型在保持清晰視覺(jué)感知的同時(shí)能夠進(jìn)行詳細(xì)推理。
圖 1:Insight-V 方法展示。
為了解決以上挑戰(zhàn),本文提出了一個(gè)視覺(jué)推理的多模態(tài)系統(tǒng) Insight-V,能夠?qū)崿F(xiàn)結(jié)構(gòu)化的長(zhǎng)鏈視覺(jué)推理。如圖 1 所示,Insight-V 由兩個(gè)智能體組成,一個(gè)專門(mén)負(fù)責(zé)推理,另一個(gè)負(fù)責(zé)總結(jié),這使得它在各類視覺(jué)推理基準(zhǔn)測(cè)試中的性能有了顯著提升。
Insight-V 的主要貢獻(xiàn)包括:
- 一個(gè)用于生成長(zhǎng)鏈、高質(zhì)量推理數(shù)據(jù)的可擴(kuò)展的數(shù)據(jù)生成流程。通過(guò)利用已有的模型構(gòu)建數(shù)據(jù)生成流程,從而提供豐富的,可擴(kuò)展的視覺(jué)推理訓(xùn)練數(shù)據(jù)。
- 一個(gè)將視覺(jué)推理任務(wù)分解為推理和總結(jié)的多智能體系統(tǒng)。通過(guò)將視覺(jué)任務(wù)分解為推理和總結(jié),并利用不同的模型來(lái)分別解決不同的任務(wù),來(lái)提升視覺(jué)推理能力。
- 一個(gè)用于增強(qiáng)視覺(jué)推理能力的兩階段訓(xùn)練流程,從而使 Insight-V 能夠在視覺(jué)推理評(píng)測(cè)集上取得優(yōu)異的性能。
我們提供了 Insight-V 的模型權(quán)重,在視覺(jué)推理任務(wù)上表現(xiàn)出色,在 7B 規(guī)模下取得了綜合最好的結(jié)果,在部分?jǐn)?shù)據(jù)集超過(guò)最先進(jìn)的綜合模型和商業(yè)模型,為多模態(tài)視覺(jué)推理的發(fā)展提供了一個(gè)值得探索的方向。
2. 方法概覽
結(jié)構(gòu)化推理數(shù)據(jù)構(gòu)建
圖 2:結(jié)構(gòu)化數(shù)據(jù)構(gòu)建。
現(xiàn)有的研究已經(jīng)探索了將推理能力融入多模態(tài)大型語(yǔ)言模型(MLLMs)中。然而,訓(xùn)練 MLLMs 具備強(qiáng)大的推理技能仍然是一個(gè)相當(dāng)大的挑戰(zhàn),尤其是由于數(shù)據(jù)方面的限制。為了解決這一問(wèn)題,我們介紹了提出的數(shù)據(jù)生成流程,該流程旨在通過(guò)漸進(jìn)式生成過(guò)程和多粒度評(píng)估來(lái)生成高質(zhì)量的長(zhǎng)鏈推理數(shù)據(jù)。如圖 2 所示,這種可擴(kuò)展的方法使我們能夠生成高質(zhì)量的數(shù)據(jù),從而有效地提升模型的推理能力。
漸進(jìn)式長(zhǎng)鏈推理數(shù)據(jù)生成。我們通過(guò)調(diào)用能力強(qiáng)大的多模態(tài)綜合模型,來(lái)收集單步推理結(jié)果。在每一步推理結(jié)束之后,模型根據(jù)歷史的推理結(jié)果來(lái)生成針對(duì)下一輪推理的動(dòng)作,如果動(dòng)作為‘繼續(xù)推理’,下一步模型繼續(xù)執(zhí)行單步推理;如果動(dòng)作為‘總結(jié)’,下一步模型根據(jù)歷史推理內(nèi)容總結(jié)得出答案。
多粒度評(píng)估。我們通過(guò)兩個(gè)步驟來(lái)對(duì)生成的推理數(shù)據(jù)進(jìn)行評(píng)估。首先,我們直接使用真實(shí)答案來(lái)對(duì)推理數(shù)據(jù)進(jìn)行過(guò)濾,過(guò)濾掉最終答案錯(cuò)誤的數(shù)據(jù)。之后,我們使用一個(gè)推理步驟打分模型,來(lái)針對(duì)推理數(shù)據(jù)的質(zhì)量進(jìn)行打分,將推理數(shù)據(jù)分為不同質(zhì)量的子集,以供最后訓(xùn)練數(shù)據(jù)集的構(gòu)建。
模型設(shè)計(jì)
推理模型。我們提出了一種專門(mén)的推理智能體,其旨在針對(duì)輸入查詢生成一個(gè)詳細(xì)的、逐步推進(jìn)的推理過(guò)程。我們通過(guò)為每個(gè)問(wèn)題選取得分最高的推理路徑來(lái)構(gòu)建推理數(shù)據(jù)集。在基于該數(shù)據(jù)集進(jìn)行訓(xùn)練之后,模型轉(zhuǎn)變?yōu)橐粋€(gè)具有更強(qiáng)推理能力的推理智能體,使其能夠生成更詳細(xì)、結(jié)構(gòu)化的推理過(guò)程。
總結(jié)模型。我們開(kāi)發(fā)了一種對(duì)推理路徑中的不準(zhǔn)確之處具有較強(qiáng)適應(yīng)性的總結(jié)模型,該模型可根據(jù)需要有選擇性地納入或忽略某些元素。這種方法在最大程度發(fā)揮推理模型效能的同時(shí),將引入誤導(dǎo)性信息的風(fēng)險(xiǎn)降至最低。我們利用所收集的數(shù)據(jù)集來(lái)完成總結(jié)任務(wù),該數(shù)據(jù)集由兩類數(shù)據(jù)組成:具有最優(yōu)推理過(guò)程的數(shù)據(jù)和具有有缺陷推理過(guò)程的數(shù)據(jù)。此外,為了保留原有的多模態(tài)能力,我們用標(biāo)準(zhǔn)問(wèn)答數(shù)據(jù)對(duì)數(shù)據(jù)集進(jìn)行補(bǔ)充,以維持總結(jié)智能體在直接問(wèn)答方面的性能。
圖 3:訓(xùn)練流程。
訓(xùn)練策略
Insight-V 的訓(xùn)練策略簡(jiǎn)單直接。我們從一個(gè)已經(jīng)訓(xùn)練好的多模態(tài)模型出發(fā),利用這個(gè)模型的權(quán)重來(lái)初始化 Insight-V 當(dāng)中的兩個(gè)模型。
第一階段,我們進(jìn)行多智能體系統(tǒng)的監(jiān)督微調(diào)。對(duì)于推理模型,我們利用精心整理的推理數(shù)據(jù)集來(lái)培養(yǎng)逐步推理的能力。對(duì)于總結(jié)模型,我們按照上文所述構(gòu)建了一個(gè)數(shù)據(jù)集,并從用于基礎(chǔ)模型的數(shù)據(jù)集中抽取了大約一百萬(wàn)對(duì)通用的圖文組合,以保留其原有的視覺(jué)感知能力。
在第二階段,我們利用強(qiáng)化學(xué)習(xí)算法來(lái)進(jìn)一步提升模型的推理能力。我們使用迭代式直接偏好優(yōu)化(Iterative DPO)。通過(guò)進(jìn)行多輪直接偏好優(yōu)化(DPO)訓(xùn)練和抽樣,這種方法能使該模型在訓(xùn)練期間更好地模擬在線環(huán)境,從而進(jìn)一步提升其性能。
3. 實(shí)驗(yàn)結(jié)果
視覺(jué)推理
我們?cè)?7 個(gè)基準(zhǔn)測(cè)試上開(kāi)展了評(píng)估實(shí)驗(yàn),涵蓋了通用推理和特定任務(wù)推理評(píng)估。當(dāng)應(yīng)用于 LLaVA-NeXT 和我們的基線模型時(shí),Insight-V 展現(xiàn)出了顯著的有效性和通用性,大幅超越了其他最先進(jìn)的大型語(yǔ)言模型(MLLMs)。在 MMStar 數(shù)據(jù)集中,Oryx 取得 61.5% 的平均準(zhǔn)確率。在 MME 數(shù)據(jù)集上取得了 2312 的總分,并且在 MME 的感知和認(rèn)知子任務(wù)上都取得了先進(jìn)的結(jié)果。針對(duì) 7 個(gè)數(shù)據(jù)集的平均結(jié)果,Insight-V 表現(xiàn)出色,超越了一系列先進(jìn)的模型。
基礎(chǔ)視覺(jué)感知
為了更進(jìn)一步測(cè)試 Insight-V 的通用性,我們?cè)谝恍﹤?cè)重評(píng)估模型基礎(chǔ)視覺(jué)感知能力的數(shù)據(jù)集上進(jìn)行了測(cè)試。結(jié)果表明,InsightV 在不影響一般視覺(jué)感知能力的情況下提升了推理能力,甚至在對(duì)感知能力要求更高的基準(zhǔn)測(cè)試上也實(shí)現(xiàn)了性能提升。當(dāng) Insight-V 與 LLaVA-NeXT 模型結(jié)合時(shí),在 TextVQA,DocVQA,OCRBench,AI2D 等測(cè)試集上都有顯著的性能提升,當(dāng)與我們構(gòu)建的更強(qiáng)的基礎(chǔ)模型結(jié)合時(shí),在這些 benchmark 上也表現(xiàn)出了更好的結(jié)果。
分析實(shí)驗(yàn)
多智能體系統(tǒng)的有效性。針對(duì) Insight-V 的設(shè)計(jì),我們與其他可能的設(shè)計(jì)選擇進(jìn)行了對(duì)比,包括直接進(jìn)行微調(diào)、多輪對(duì)話監(jiān)督、只訓(xùn)練總結(jié)模型。結(jié)果顯示,多智能體設(shè)計(jì)的表現(xiàn)優(yōu)于其他配置,突出了推理和總結(jié)分解的關(guān)鍵作用。
數(shù)據(jù) Scaling Law 實(shí)驗(yàn)。我們研究了數(shù)據(jù)擴(kuò)展對(duì)于 Insight-V 的影響,尤其是對(duì)于推理模型的效果。結(jié)果表明,隨著推理模型訓(xùn)練數(shù)據(jù)的擴(kuò)展,推理模型的性能得到了顯著的提升。推理模型得益于數(shù)據(jù)擴(kuò)展,能為總結(jié)模型提供更有價(jià)值的見(jiàn)解。
強(qiáng)化學(xué)習(xí)算法的效果。我們探究了不同的強(qiáng)化學(xué)習(xí)策略對(duì)于推理模型效果的影響。我們對(duì)比了使用 RLAIF 數(shù)據(jù)進(jìn)行訓(xùn)練,直接進(jìn)行 DPO 以及 Insight-V 的多輪迭代式 DPO。結(jié)果顯示,相比其他方法,迭代直接偏好優(yōu)化(Iterative DPO)逐步增強(qiáng)了模型的推理能力,從而帶來(lái)了性能的提升。
4. 案例分析
我們對(duì) Insight-V 與思維鏈(Chain-of-Thought)以及通過(guò)直接監(jiān)督微調(diào)學(xué)習(xí)進(jìn)行了定性比較。對(duì)于 Insight-V 系統(tǒng)而言,其推理智能體能夠提供一個(gè)更加連貫且結(jié)構(gòu)化的推理過(guò)程,從而引導(dǎo)總結(jié)智能體得出正確答案;然而,其他方法在面對(duì)復(fù)雜推理任務(wù)時(shí)會(huì)顯得吃力,無(wú)法解決這類具有挑戰(zhàn)性的問(wèn)題。
5. 總結(jié)
在本文中,我們介紹了 Insight-V,這是一種新穎的系統(tǒng),它將用于長(zhǎng)鏈、高質(zhì)量推理數(shù)據(jù)的可擴(kuò)展數(shù)據(jù)生成系統(tǒng)與有效的多智能體訓(xùn)練系統(tǒng)相結(jié)合,以增強(qiáng)多模態(tài)語(yǔ)言模型(MLLMs)的推理能力。通過(guò)開(kāi)發(fā)該系統(tǒng),我們提供了一種旨在提高推理性能的可擴(kuò)展模型訓(xùn)練方法。我們?cè)诟鞣N基準(zhǔn)測(cè)試中的廣泛評(píng)估證明了我們這種方法的有效性,為賦予多模態(tài)語(yǔ)言模型更強(qiáng)的推理能力鋪平了道路。