自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI模仿人類(lèi)看漫畫(huà),視頻大模型時(shí)序定位能力新SOTA

人工智能
NumPro通過(guò)在視頻幀上添加獨(dú)特的數(shù)字標(biāo)識(shí)符,將視頻時(shí)序定位轉(zhuǎn)化為直觀的“翻閱漫畫(huà)”式過(guò)程,使Vid-LLMs能夠輕松“讀取”事件時(shí)間線,準(zhǔn)確關(guān)聯(lián)視覺(jué)內(nèi)容與相應(yīng)的時(shí)序信息。

用看漫畫(huà)的方式,大幅提升視頻大模型時(shí)序定位能力!

圖片

方法名為NumPro,無(wú)需訓(xùn)練,通過(guò)數(shù)字視覺(jué)提示就能增強(qiáng)。

就像漫畫(huà)中用編號(hào)的畫(huà)格引導(dǎo)讀者按順序理解故事,將視覺(jué)內(nèi)容與清晰的時(shí)間線聯(lián)系起來(lái)一樣。

NumPro通過(guò)在視頻幀上添加獨(dú)特的數(shù)字標(biāo)識(shí)符,將視頻時(shí)序定位轉(zhuǎn)化為直觀的“翻閱漫畫(huà)”式過(guò)程,使Vid-LLMs能夠輕松“讀取”事件時(shí)間線,準(zhǔn)確關(guān)聯(lián)視覺(jué)內(nèi)容與相應(yīng)的時(shí)序信息。

實(shí)驗(yàn)中,NumPro顯著提升了視頻時(shí)序定位能力,在多個(gè)基準(zhǔn)上超越此前SOTA,而且還能保持對(duì)模型通用視頻理解能力影響較小。

這項(xiàng)工作由來(lái)自東南大學(xué)、馬克斯·普朗克信息學(xué)研究所、騰訊微信團(tuán)隊(duì)、加州大學(xué)伯克利分校的研究人員共同完成。

圖片

NumPro方法核心創(chuàng)新

視頻大語(yǔ)言模型(Vid-LLMs)在視頻內(nèi)容理解問(wèn)答對(duì)話(huà)方面已取得顯著進(jìn)展,但在精確的時(shí)序定位任務(wù)(Video Temporal Grounding, VTG)上仍面臨挑戰(zhàn)。

例如,在實(shí)際應(yīng)用中,識(shí)別視頻中事件的發(fā)生時(shí)刻,如定位廚師添加調(diào)料的精確時(shí)間,對(duì)于現(xiàn)有模型來(lái)說(shuō)頗具難度,這一挑戰(zhàn)阻礙了視頻理解技術(shù)在眾多領(lǐng)域的深入應(yīng)用。

傳統(tǒng)方法在增強(qiáng)模型的VTG能力時(shí),往往需要大量的重新訓(xùn)練或復(fù)雜的模型適配,靈活性和可遷移性受限。

NumPro是如何實(shí)現(xiàn)的呢?

無(wú)需訓(xùn)練設(shè)置(Training-Free)

在無(wú)訓(xùn)練設(shè)置下,NumPro直接為每個(gè)視頻幀標(biāo)記對(duì)應(yīng)的幀號(hào)。

借助Vid-LLMs內(nèi)置的光學(xué)字符識(shí)別(OCR)能力,模型能夠通過(guò)與視覺(jué)內(nèi)容相關(guān)聯(lián)的幀號(hào)“讀取”時(shí)間線。

為明確添加數(shù)字的目的,在每個(gè)事件查詢(xún)前添加簡(jiǎn)單指令,告知模型幀號(hào)的含義。如此,Vid-LLMs可直接將幀號(hào)與語(yǔ)言查詢(xún)鏈接,準(zhǔn)確識(shí)別幀級(jí)邊界。

微調(diào)優(yōu)化設(shè)置(Fine-tuning Setting)

為進(jìn)一步提升性能,NumPro-FT在經(jīng)過(guò)了NumPro增強(qiáng)數(shù)據(jù)集上對(duì)Vid-LLMs進(jìn)行微調(diào)。

此過(guò)程將幀號(hào)與訓(xùn)練數(shù)據(jù)中的時(shí)間跨度對(duì)齊,將時(shí)序定位能力嵌入模型的學(xué)習(xí)表示中。

微調(diào)時(shí),凍結(jié)視覺(jué)編碼器,僅對(duì)視覺(jué)投影儀和大語(yǔ)言模型(LLM)組件進(jìn)行優(yōu)化,并采用低秩適應(yīng)(LoRA)技術(shù)調(diào)整LLM,有效減少參數(shù)數(shù)量和訓(xùn)練開(kāi)銷(xiāo)。

圖片

為確保NumPro的有效性,研究團(tuán)隊(duì)從字體大小、顏色和位置三個(gè)關(guān)鍵因素對(duì)其進(jìn)行精心設(shè)計(jì)優(yōu)化。

通過(guò)基于CLIP的實(shí)驗(yàn),使用Number Accuracy和Caption Accuracy兩個(gè)指標(biāo)平衡數(shù)字的可識(shí)別性和對(duì)視覺(jué)內(nèi)容的干擾。

最終確定了字體大小為40、顏色為紅色、位置在右下角的最優(yōu)設(shè)計(jì),該設(shè)計(jì)能最大程度發(fā)揮Vid-LLMs的OCR和視覺(jué)語(yǔ)言對(duì)齊能力,實(shí)現(xiàn)精準(zhǔn)的視頻時(shí)序定位。

圖片

實(shí)驗(yàn)成果顯著

在標(biāo)準(zhǔn)VTG基準(zhǔn)測(cè)試中,NumPro表現(xiàn)卓越。

在Moment Retrieval任務(wù)中,無(wú)需訓(xùn)練的NumPro使Vid-LLMs性能接近或超越以往最優(yōu)水平。

而經(jīng)過(guò)NumPro-FT微調(diào)后,LongVA-7B-DPO在Charades-STA和ActivityNet數(shù)據(jù)集上的多個(gè)指標(biāo)上均大幅超越現(xiàn)有SOTA,展現(xiàn)出NumPro在提升模型時(shí)序定位能力方面的巨大潛力。

圖片

NumPro不僅在領(lǐng)先模型上效果顯著,對(duì)多種Vid-LLMs也具有廣泛的適用性。

應(yīng)用于不同模型如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等,均帶來(lái)了顯著的性能提升。此外,在與微調(diào)結(jié)合時(shí),NumPro-FT始終優(yōu)于傳統(tǒng)微調(diào)方法,尤其在較長(zhǎng)視頻數(shù)據(jù)集上表現(xiàn)出色。

圖片

將NumPro集成到通用視頻問(wèn)答任務(wù)(如VideoInstruct基準(zhǔn)測(cè)試)中,發(fā)現(xiàn)其對(duì)一般理解指標(biāo)影響極小,在保持強(qiáng)大通用視頻理解能力的同時(shí),顯著提升了視頻時(shí)序定位能力。

圖片

論文連接:https://arxiv.org/pdf/2411.10332。
代碼倉(cāng)庫(kù):https://github.com/yongliang-wu/NumPro。

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2025-03-17 08:45:00

AI模型數(shù)據(jù)

2023-11-20 22:02:54

開(kāi)源模型

2024-04-11 07:10:59

大語(yǔ)言模型AI人工智能

2024-06-04 14:09:00

2025-04-16 09:20:00

虛擬模型數(shù)字

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2024-03-25 12:40:19

訓(xùn)練模型

2024-08-19 08:45:00

開(kāi)源模型

2023-11-07 14:07:51

GPT-4大語(yǔ)言模型

2024-01-23 10:35:09

ChatGPT人工智能

2017-09-07 14:21:08

Facebook

2023-05-15 15:38:59

AI模型

2021-01-27 14:24:17

人工智能AI國(guó)際象棋AI

2023-11-23 13:24:54

AI模型

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2024-12-02 09:20:00

2020-02-28 09:50:10

LoRa物聯(lián)網(wǎng)網(wǎng)絡(luò)技術(shù)

2023-05-22 09:19:19

2023-01-31 13:25:58

SOTA生成式模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)