AI模仿人類(lèi)看漫畫(huà),視頻大模型時(shí)序定位能力新SOTA
用看漫畫(huà)的方式,大幅提升視頻大模型時(shí)序定位能力!
方法名為NumPro,無(wú)需訓(xùn)練,通過(guò)數(shù)字視覺(jué)提示就能增強(qiáng)。
就像漫畫(huà)中用編號(hào)的畫(huà)格引導(dǎo)讀者按順序理解故事,將視覺(jué)內(nèi)容與清晰的時(shí)間線聯(lián)系起來(lái)一樣。
NumPro通過(guò)在視頻幀上添加獨(dú)特的數(shù)字標(biāo)識(shí)符,將視頻時(shí)序定位轉(zhuǎn)化為直觀的“翻閱漫畫(huà)”式過(guò)程,使Vid-LLMs能夠輕松“讀取”事件時(shí)間線,準(zhǔn)確關(guān)聯(lián)視覺(jué)內(nèi)容與相應(yīng)的時(shí)序信息。
實(shí)驗(yàn)中,NumPro顯著提升了視頻時(shí)序定位能力,在多個(gè)基準(zhǔn)上超越此前SOTA,而且還能保持對(duì)模型通用視頻理解能力影響較小。
這項(xiàng)工作由來(lái)自東南大學(xué)、馬克斯·普朗克信息學(xué)研究所、騰訊微信團(tuán)隊(duì)、加州大學(xué)伯克利分校的研究人員共同完成。
NumPro方法核心創(chuàng)新
視頻大語(yǔ)言模型(Vid-LLMs)在視頻內(nèi)容理解問(wèn)答對(duì)話(huà)方面已取得顯著進(jìn)展,但在精確的時(shí)序定位任務(wù)(Video Temporal Grounding, VTG)上仍面臨挑戰(zhàn)。
例如,在實(shí)際應(yīng)用中,識(shí)別視頻中事件的發(fā)生時(shí)刻,如定位廚師添加調(diào)料的精確時(shí)間,對(duì)于現(xiàn)有模型來(lái)說(shuō)頗具難度,這一挑戰(zhàn)阻礙了視頻理解技術(shù)在眾多領(lǐng)域的深入應(yīng)用。
傳統(tǒng)方法在增強(qiáng)模型的VTG能力時(shí),往往需要大量的重新訓(xùn)練或復(fù)雜的模型適配,靈活性和可遷移性受限。
NumPro是如何實(shí)現(xiàn)的呢?
無(wú)需訓(xùn)練設(shè)置(Training-Free):
在無(wú)訓(xùn)練設(shè)置下,NumPro直接為每個(gè)視頻幀標(biāo)記對(duì)應(yīng)的幀號(hào)。
借助Vid-LLMs內(nèi)置的光學(xué)字符識(shí)別(OCR)能力,模型能夠通過(guò)與視覺(jué)內(nèi)容相關(guān)聯(lián)的幀號(hào)“讀取”時(shí)間線。
為明確添加數(shù)字的目的,在每個(gè)事件查詢(xún)前添加簡(jiǎn)單指令,告知模型幀號(hào)的含義。如此,Vid-LLMs可直接將幀號(hào)與語(yǔ)言查詢(xún)鏈接,準(zhǔn)確識(shí)別幀級(jí)邊界。
微調(diào)優(yōu)化設(shè)置(Fine-tuning Setting):
為進(jìn)一步提升性能,NumPro-FT在經(jīng)過(guò)了NumPro增強(qiáng)數(shù)據(jù)集上對(duì)Vid-LLMs進(jìn)行微調(diào)。
此過(guò)程將幀號(hào)與訓(xùn)練數(shù)據(jù)中的時(shí)間跨度對(duì)齊,將時(shí)序定位能力嵌入模型的學(xué)習(xí)表示中。
微調(diào)時(shí),凍結(jié)視覺(jué)編碼器,僅對(duì)視覺(jué)投影儀和大語(yǔ)言模型(LLM)組件進(jìn)行優(yōu)化,并采用低秩適應(yīng)(LoRA)技術(shù)調(diào)整LLM,有效減少參數(shù)數(shù)量和訓(xùn)練開(kāi)銷(xiāo)。
為確保NumPro的有效性,研究團(tuán)隊(duì)從字體大小、顏色和位置三個(gè)關(guān)鍵因素對(duì)其進(jìn)行精心設(shè)計(jì)優(yōu)化。
通過(guò)基于CLIP的實(shí)驗(yàn),使用Number Accuracy和Caption Accuracy兩個(gè)指標(biāo)平衡數(shù)字的可識(shí)別性和對(duì)視覺(jué)內(nèi)容的干擾。
最終確定了字體大小為40、顏色為紅色、位置在右下角的最優(yōu)設(shè)計(jì),該設(shè)計(jì)能最大程度發(fā)揮Vid-LLMs的OCR和視覺(jué)語(yǔ)言對(duì)齊能力,實(shí)現(xiàn)精準(zhǔn)的視頻時(shí)序定位。
實(shí)驗(yàn)成果顯著
在標(biāo)準(zhǔn)VTG基準(zhǔn)測(cè)試中,NumPro表現(xiàn)卓越。
在Moment Retrieval任務(wù)中,無(wú)需訓(xùn)練的NumPro使Vid-LLMs性能接近或超越以往最優(yōu)水平。
而經(jīng)過(guò)NumPro-FT微調(diào)后,LongVA-7B-DPO在Charades-STA和ActivityNet數(shù)據(jù)集上的多個(gè)指標(biāo)上均大幅超越現(xiàn)有SOTA,展現(xiàn)出NumPro在提升模型時(shí)序定位能力方面的巨大潛力。
NumPro不僅在領(lǐng)先模型上效果顯著,對(duì)多種Vid-LLMs也具有廣泛的適用性。
應(yīng)用于不同模型如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等,均帶來(lái)了顯著的性能提升。此外,在與微調(diào)結(jié)合時(shí),NumPro-FT始終優(yōu)于傳統(tǒng)微調(diào)方法,尤其在較長(zhǎng)視頻數(shù)據(jù)集上表現(xiàn)出色。
將NumPro集成到通用視頻問(wèn)答任務(wù)(如VideoInstruct基準(zhǔn)測(cè)試)中,發(fā)現(xiàn)其對(duì)一般理解指標(biāo)影響極小,在保持強(qiáng)大通用視頻理解能力的同時(shí),顯著提升了視頻時(shí)序定位能力。
論文連接:https://arxiv.org/pdf/2411.10332。
代碼倉(cāng)庫(kù):https://github.com/yongliang-wu/NumPro。