北航推出全開源TinyLLaVA-Video-R1,小尺寸模型在通用視頻問答數(shù)據(jù)上也能復(fù)現(xiàn)Aha Moment!
當(dāng)前,基于強化學(xué)習(xí)提升多模態(tài)模型的推理能力已經(jīng)取得一定的進展。但大多研究者們選擇 7B+ 的模型作為基座,這對于許多資源有限的科研人員而言仍存在顯著的門檻。
同時,在視頻推理領(lǐng)域,由于高質(zhì)量強推理性數(shù)據(jù)較為稀少,通用問答數(shù)據(jù)較難激發(fā)模型的深層次邏輯推理能力,因此先前一些初步嘗試的效果大多不盡如人意。
近日,北京航空航天大學(xué)的研究團隊推出小尺寸視頻推理模型 TinyLLaVA-Video-R1,其模型權(quán)重、代碼以及訓(xùn)練數(shù)據(jù)全部開源!
該工作驗證了小尺寸模型在通用問答數(shù)據(jù)集上進行強化學(xué)習(xí)也能有不錯的效果,與使用相同數(shù)據(jù)進行監(jiān)督微調(diào)的模型相比,TinyLLaVA-Video-R1 在多個 benchmark 上都有性能提升。同時,模型還能在訓(xùn)練與測試的過程中多次展現(xiàn)自我反思與回溯行為!
- 論文標(biāo)題:TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
- 論文地址:https://arxiv.org/abs/2504.09641
- Github:https://github.com/ZhangXJ199/TinyLLaVA-Video-R1
在推特上,HuggingFace AK 也連續(xù)兩次轉(zhuǎn)發(fā)推薦了這篇文章:
為什么選擇 TinyLLaVA-Video 作為 Base Model?
圖表 1 TinyLLaVA-Video 整體框架
雖然現(xiàn)有的開源視頻理解模型基座具有強大的理解與感知能力,但由于其訓(xùn)練數(shù)據(jù)不透明,使用開源視頻數(shù)據(jù)進行后訓(xùn)練可能會引入不可控的變量,從而影響實驗結(jié)果和結(jié)論的可靠性。
因此,北航團隊選擇訓(xùn)練過程完全可溯源的 TinyLLaVA-Video 作為 Base Model,該模型采用 Qwen2.5-3B 作為語言模型,SigLIP 作為視覺編碼器。雖然 TinyLLaVA-Video 僅有 3.6B 的參數(shù),且在預(yù)訓(xùn)練階段為了控制訓(xùn)練時長并未使用大量數(shù)據(jù),但其仍能在多個 Benchmark 上能夠優(yōu)于現(xiàn)有的多個 7B+ 模型。
TinyLLaVA-Video-R1 主要做了什么?
引入少量人工標(biāo)注的高質(zhì)量冷啟動數(shù)據(jù)
該工作發(fā)現(xiàn),受限于小尺寸模型的能力,當(dāng)直接使用 TinyLLaVA-Video 作為基礎(chǔ)模型,隨著訓(xùn)練的進行,模型有一定的概率學(xué)會「偷懶」,所有的響應(yīng)雖然符合格式要求,但并不給出思考過程,響應(yīng)均為<think> </think> <answer> option </answer>,同時在 Qwen2-VL-2B 上進行實驗也得到相似的實驗現(xiàn)象。
而當(dāng)使用人工標(biāo)注的 16 條 CoT 數(shù)據(jù)為模型進行冷啟動后,在實驗的過程中就不再出現(xiàn)這樣的現(xiàn)象,同時,模型也將更快學(xué)會遵守格式要求。因此該工作認為,冷啟動對于小尺寸模型推理是必要的,即使是極少量的冷啟動數(shù)據(jù),對于穩(wěn)定模型訓(xùn)練也是很有幫助的。
引入長度獎勵與答案錯誤懲罰
現(xiàn)有的許多推理工作僅僅設(shè)置格式獎勵而沒有添加長度獎勵,但受限于小尺寸語言模型的能力,在這種設(shè)置下進行訓(xùn)練并不會使模型的響應(yīng)長度增加,甚至出現(xiàn)一點下降。
在引入連續(xù)長度獎勵后,模型的響應(yīng)長度在訓(xùn)練過程中顯著增加,如圖所示。然而在這種設(shè)置下,模型為了增加響應(yīng)長度而進行了一些無意義的推理,這不僅沒有提高性能,反而導(dǎo)致訓(xùn)練時間顯著增加。
因此,TinyLLaVA-Video-R1 進一步將答案錯誤懲罰納入總獎勵,觀察到模型響應(yīng)的質(zhì)量有所提升,并且在整個訓(xùn)練過程中輸出長度和獎勵也能夠保持增長。
為 GRPO 的優(yōu)勢計算引入微小噪聲
同時,TinyLLaVA-Video-R1 在實驗中也觀察到了優(yōu)勢消失的問題:當(dāng)集合中的所有響應(yīng)都是正確的,并且給予相同的獎勵時,它們計算出的優(yōu)勢會消失到零。這一現(xiàn)象影響了策略更新,降低了樣本效率。為了最大化對每個樣本的利用,TinyLLaVA-Video-R1 在優(yōu)勢計算時引入了額外的高斯噪聲,盡管這種噪聲僅引起輕微的擾動,但它能夠確保組內(nèi)響應(yīng)優(yōu)勢的多樣性。
實驗結(jié)果
首先,TinyLLaVA-Video-R1 驗證了使用強化學(xué)習(xí)能夠明顯提升模型性能,與使用相同數(shù)據(jù)進行監(jiān)督微調(diào)的 TinyLLaVA-Video-SFT 相比,TinyLLaVA-Video-R1 在多個 benchmark 中均有更佳的表現(xiàn)。
同時,TinyLLaVA-Video-R1 能夠理解和分析視頻內(nèi)容,逐步評估每個選項,并最終給出答案。與僅輸出最終答案的模型相比,該模型能夠生成有意義的思考過程,使其回答更加可解釋且有價值。這也是視頻推理模型相對于傳統(tǒng)視頻理解模型的重要提升與優(yōu)勢。
與其他使用強化學(xué)習(xí)提升模型推理能力的工作相似,北航團隊也在 TinyLLaVA-Video-R1 上復(fù)現(xiàn)了「Aha Moment」,即模型在思考的過程中引發(fā)緊急驗證等行為。實驗結(jié)果也驗證了,即使使用弱推理的通用視頻數(shù)據(jù)對小尺寸模型進行訓(xùn)練,也能夠引發(fā)模型的回溯與自我反思。
后續(xù),北航團隊也將進一步研究小尺寸視頻推理模型,未來工作將包括引入高質(zhì)量視頻推理數(shù)據(jù)與強化學(xué)習(xí)算法改進。
同時,TinyLLaVA 系列項目也始終致力于在有限計算資源下研究小尺寸模型的訓(xùn)練與設(shè)計空間,堅持完全開源原則,完整公開模型權(quán)重、源代碼及訓(xùn)練數(shù)據(jù),為資源有限的研究者們理解與探索多模態(tài)模型提供平臺。