7B超越GPT!1/20數(shù)據(jù),無(wú)需知識(shí)蒸餾,馬里蘭等推出全新視覺推理方法
在大模型時(shí)代,視覺語(yǔ)言模型(Vision-Language Models, VLMs)正在從感知走向推理。在諸如圖像問答、圖表理解、科學(xué)推理等任務(wù)中,VLM不再只需要「看見」和「描述」,而是要能「看懂」和「想清楚」。
然而,當(dāng)前主流的推理能力提升方法普遍存在兩個(gè)問題:
1. 訓(xùn)練樣本質(zhì)量參差不齊:常見的數(shù)據(jù)集雖然體量龐大,但真正「有挑戰(zhàn)性」的樣本比例較低。
2. 過度依賴知識(shí)蒸餾:許多模型在訓(xùn)練時(shí)依賴大型模型(如GPT-4o)的推理過程作為教師信號(hào),使得訓(xùn)練流程復(fù)雜且難以推廣。
這使得訓(xùn)練一個(gè)高性能的VLM成本極高,也限制了模型的自主學(xué)習(xí)能力。
能否通過自我提升,訓(xùn)練出高性能的推理模型?
近日,來(lái)自馬里蘭大學(xué),密歇根大學(xué),和微軟的團(tuán)隊(duì)聯(lián)合提出了ThinkLite-VL模型試圖打破這種依賴,探索「數(shù)據(jù)更少、能力更強(qiáng)」的可能性。
論文鏈接:https://arxiv.org/pdf/2504.07934
GitHub項(xiàng)目:https://github.com/si0wang/ThinkLite-VL
Hugging Face:https://huggingface.co/russwang/ThinkLite-VL-7B
論文主要關(guān)注一個(gè)核心問題:如果不給VLM額外的「教師指導(dǎo)」(如知識(shí)蒸餾),能否僅通過自身的反饋機(jī)制和強(qiáng)化學(xué)習(xí)訓(xùn)練,獲得強(qiáng)大的推理能力?
直覺上,答案是肯定的:人類也可以通過不斷嘗試、失敗和總結(jié)來(lái)提升自己的推理能力。但對(duì)模型而言,這需要我們解決一個(gè)關(guān)鍵挑戰(zhàn)——如何準(zhǔn)確判斷哪些訓(xùn)練樣本是「值得學(xué)」的?
用MCTS判斷「樣本難度」,篩選高質(zhì)量訓(xùn)練集
ThinkLite-VL的最大創(chuàng)新在于:用蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)來(lái)重新定義「樣本難度」。
研究人員首先從廣泛使用的開源多模態(tài)訓(xùn)練數(shù)據(jù)集中收集了70k的樣本,涵蓋了三個(gè)關(guān)鍵的視覺任務(wù):數(shù)學(xué)推理,自然圖像理解和圖表理解,具體的數(shù)據(jù)分布和來(lái)源如下表所示。
值得注意的是,為了避免大模型在回答過程中因?yàn)檫x擇題選項(xiàng)中提供了正確答案而「蒙對(duì)」,研究人員將大部分的樣本從選擇題格式改成了開放問答格式,這樣一來(lái)模型就必須依靠自身的推理能力真正理解題目并解決問題,真正的把題做對(duì)。
之后,研究人員提出了一種基于蒙特卡洛樹搜索(MCTS)的樣本選擇方式。
具體來(lái)說,大模型將問題和圖像作為輸入,讓模型通過蒙特卡洛樹搜索進(jìn)行一步步推理,然后記錄模型需要通過多少次推理迭代才能得到正確答案。模型所需要的MCTS迭代次數(shù)越多,說明模型需要通過更多的探索和思考才能解決問題,表明該問題對(duì)于模型來(lái)說更難。
整個(gè)過程中,只使用了VLM本身的LLM部分判斷MCTS final answer的正確與否,模型通過解題成功的探索次數(shù)認(rèn)識(shí)到哪些題是「難題」,并將其作為學(xué)習(xí)重點(diǎn)。
在對(duì)所有的樣本都進(jìn)行MCTS之后,作者最終篩選出迭代次數(shù)大于5或在50次迭代內(nèi)模型都無(wú)法解決的樣本,總共11k,作為最終的訓(xùn)練集。
強(qiáng)化學(xué)習(xí)訓(xùn)練:少樣本+困難樣本,推理效果更強(qiáng)
研究人員基于Qwen2.5-VL-7B-Instruct,在選出的11k樣本上使用GRPO進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練,得到了最終的模型 ThinkLite-VL-7B。相比于其他reasoning model來(lái)說,ThinkLite-VL-7B大大減少了訓(xùn)練數(shù)據(jù)量,并且沒有蒸餾任何外部推理模型的知識(shí)。
在八個(gè)主流視覺推理任務(wù)上進(jìn)行測(cè)試,包括MathVista, MathVerse, MathVision,MMMU,MMStar, MMVet, MMBench和AI2D, 結(jié)果發(fā)現(xiàn)ThinkLite-VL-7B的平均性能相比base model Qwen2.5-VL-7B-Instruct提升了7%,從59.69 提高到 63.89,并且顯著優(yōu)于使用隨機(jī)采樣選擇相同大小數(shù)據(jù)量進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的模型。
此外,相比7B級(jí)別的其他reasoning VLM,ThinkLite-VL-7B同樣具有明顯優(yōu)勢(shì),包括OpenVLThinker-7B,MM-Eureka-Qwen-7B等。
特別地,在MathVista上ThinkLite-VL-7B達(dá)到了75.1的SoTA準(zhǔn)確率,超過了GPT-4o和o1等閉源模型和Qwen2.5-VL-72B等開源更大參數(shù)量的模型。
這意味著,即使在沒有額外監(jiān)督、沒有知識(shí)蒸餾、沒有大規(guī)模數(shù)據(jù)的前提下,只需要正確選擇少量對(duì)于VLM具有挑戰(zhàn)性的高質(zhì)量樣本,VLM也能通過self-improve顯著提升推理能力。
研究人員進(jìn)一步對(duì)不同難度組合的訓(xùn)練集進(jìn)行了消融分析,發(fā)現(xiàn):
- 僅用最難的樣本(無(wú)法解出)可以提升能力,但效果不及中等+困難樣本的組合;
- 簡(jiǎn)單樣本雖然在訓(xùn)練過程中快速提升reward,但對(duì)最終推理能力提升作用有限;
- 使用中等難度加上困難樣本的組合才能最大程度提升模型的推理能力,即使模型在訓(xùn)練中無(wú)法解決全部的樣本。
這一發(fā)現(xiàn)對(duì)未來(lái)的模型訓(xùn)練有重要啟示:合理的樣本難度分布比樣本數(shù)量更關(guān)鍵。
論文一作王璽堯是馬里蘭大學(xué)計(jì)算機(jī)系三年級(jí)phd,導(dǎo)師為Furong Huang教授,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)在大語(yǔ)言模型和視覺語(yǔ)言模型訓(xùn)練中的應(yīng)用,在ICML, NeurIPS, ICLR, ACL, EMNLP, NAACL, CVPR等會(huì)議上發(fā)表過多篇論文。