自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限? 原創(chuàng)

發(fā)布于 2025-4-28 09:23
瀏覽
0收藏

在多模態(tài)學(xué)習(xí)領(lǐng)域,視覺(jué)-語(yǔ)言模型(VLMs)的飛速發(fā)展讓我們看到了不同模態(tài)之間融合的巨大潛力。然而,盡管取得了顯著的進(jìn)步,這些模型大多集中在短文本任務(wù)上,對(duì)于長(zhǎng)文本的理解能力卻始終是它們的“軟肋”。尤其是在處理長(zhǎng)視頻理解和高分辨率圖像/視頻理解時(shí),如何有效處理擴(kuò)展的視覺(jué)上下文,依然是一個(gè)亟待解決的難題。

長(zhǎng)文本理解的困境與挑戰(zhàn)

長(zhǎng)文本理解的不足,很大程度上是因?yàn)楝F(xiàn)有的視覺(jué)-語(yǔ)言模型在數(shù)據(jù)集構(gòu)建、架構(gòu)設(shè)計(jì)、訓(xùn)練策略以及計(jì)算/內(nèi)存瓶頸等方面都面臨著諸多挑戰(zhàn)。雖然之前的研究嘗試過(guò)擴(kuò)展上下文長(zhǎng)度,但效果并不理想:與專(zhuān)有模型相比,性能提升有限;隨著視覺(jué)輸入的增加,改進(jìn)效果也不一致;而且,最優(yōu)的訓(xùn)練策略也尚未明確。

Eagle 2.5:長(zhǎng)文本訓(xùn)練的“破局者”

在這樣的背景下,NVIDIA推出的Eagle 2.5模型,就像一顆璀璨的新星,為長(zhǎng)文本視覺(jué)-語(yǔ)言模型的發(fā)展帶來(lái)了新的希望。與那些僅僅為了處理更長(zhǎng)多模態(tài)序列而犧牲性能的模型不同,Eagle 2.5在增加輸入長(zhǎng)度的同時(shí),能夠?qū)崿F(xiàn)一致的性能提升,而不僅僅是容納更長(zhǎng)的輸入。它在上下文覆蓋方面表現(xiàn)出色,并且隨著幀數(shù)的增加,性能呈一致的上升趨勢(shì)。與GPT-4o和Qwen2.5-VL-72B等參數(shù)量更大的模型相比,Eagle 2.5在性能上毫不遜色,同時(shí)卻保持著更小的參數(shù)規(guī)模。

圖像和視頻理解的卓越表現(xiàn)

Eagle 2.5在圖像和視頻理解的多個(gè)基準(zhǔn)測(cè)試中都展現(xiàn)出了非凡的性能,無(wú)論是與開(kāi)源模型還是專(zhuān)有模型相比,都取得了極具競(jìng)爭(zhēng)力的結(jié)果。在視頻理解方面,Eagle2.5-8B在多個(gè)視頻基準(zhǔn)測(cè)試中都取得了令人矚目的成績(jī):在MVBench上達(dá)到了74.8,在Perception_test上達(dá)到了82.0,在EgoSchema上達(dá)到了72.2,輕松超越了類(lèi)似規(guī)模的InternVL2.5-8B(72.0)和Qwen2.5-VL-8B(69.6、70.5、65.0)。在長(zhǎng)視頻理解方面,Eagle 2.5更是表現(xiàn)出色,在MLVU上達(dá)到了77.6,在LongVideobench上達(dá)到了66.4,甚至超過(guò)了InternVL2.5-78B(75.7、63.6)。在VideoMME(無(wú)字幕)上,Eagle 2.5達(dá)到了72.4,與擁有72B參數(shù)的模型極為接近,但使用的參數(shù)卻少得多。

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限?-AI.x社區(qū)

在圖像理解方面,Eagle2.5-8B同樣表現(xiàn)出色,涵蓋了文檔理解(DocVQA上達(dá)到94.1,ChartQA上達(dá)到87.5)、信息提?。↖nfoVQA上達(dá)到80.4,TextVQA上達(dá)到83.7)以及光學(xué)字符識(shí)別(OCRBench上達(dá)到869)等多個(gè)領(lǐng)域。此外,該模型在通用感知和推理任務(wù)(MMstar上達(dá)到66.2,RWQA上達(dá)到76.7,MMB?.?上達(dá)到81.7)、特定領(lǐng)域的知識(shí)(MMMU上達(dá)到55.8,AI2D上達(dá)到84.5)、視覺(jué)幻覺(jué)評(píng)估(HallB上達(dá)到54.7)以及數(shù)學(xué)推理(MathVista上達(dá)到67.8)等方面也展現(xiàn)出了均衡的能力。

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限?-AI.x社區(qū)

獨(dú)特的訓(xùn)練策略:信息優(yōu)先采樣與漸進(jìn)式訓(xùn)練

Eagle 2.5之所以能夠取得如此優(yōu)異的性能,其訓(xùn)練策略功不可沒(méi)。該策略包含兩個(gè)關(guān)鍵組成部分:信息優(yōu)先采樣和漸進(jìn)式訓(xùn)練。

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限?-AI.x社區(qū)

信息優(yōu)先采樣

在多模態(tài)訓(xùn)練中,視覺(jué)內(nèi)容的采樣至關(guān)重要。多圖像文檔通常包含數(shù)十頁(yè)超高分辨率的圖像,而視頻內(nèi)容的長(zhǎng)度則可以從幾秒到幾小時(shí)不等。為了有效管理這種多樣性,Eagle 2.5提出了信息優(yōu)先采樣策略,從視覺(jué)和語(yǔ)義兩個(gè)維度促進(jìn)信息的保留。

  • 圖像區(qū)域保護(hù)(IAP):傳統(tǒng)的平鋪方法將大小為W×H的圖像劃分為一個(gè)固定的網(wǎng)格。雖然這種方法在處理高分辨率輸入時(shí)效果不錯(cuò),但往往會(huì)因?yàn)椴磺‘?dāng)?shù)膶捀弑忍幚矶で紙D像的幾何形狀。為了解決這個(gè)問(wèn)題,Eagle 2.5提出了一種以面積優(yōu)先的平鋪策略,優(yōu)化了兩個(gè)關(guān)鍵目標(biāo):面積保護(hù)和寬高比保真度。
  • 自動(dòng)降級(jí)采樣(ADS):視覺(jué)-語(yǔ)言模型需要在視覺(jué)和文本輸入之間仔細(xì)分配序列長(zhǎng)度預(yù)算。Eagle 2.5提出了自動(dòng)降級(jí)采樣(ADS),這是一種以全上下文為中心的策略,動(dòng)態(tài)優(yōu)化這種平衡。ADS采用雙階段降級(jí)過(guò)程:時(shí)間降級(jí)首先優(yōu)化幀或頁(yè)面的采樣,然后是平鋪降級(jí),以最大化利用可用上下文。

漸進(jìn)式訓(xùn)練

Eagle 2.5還引入了一個(gè)全面的后訓(xùn)練框架,包含兩種互補(bǔ)的策略:

  • 混合后訓(xùn)練:ADS方法根據(jù)最大序列長(zhǎng)度自適應(yīng)調(diào)整每個(gè)訓(xùn)練樣本,提供了一種與幀無(wú)關(guān)的訓(xùn)練范式。通過(guò)實(shí)施混合訓(xùn)練策略和長(zhǎng)度平衡打包,Eagle 2.5能夠在整個(gè)上下文長(zhǎng)度范圍內(nèi)均勻優(yōu)化性能。
  • 漸進(jìn)式混合后訓(xùn)練:對(duì)于最大序列長(zhǎng)度值較大的場(chǎng)景,Eagle 2.5提出了一種漸進(jìn)式混合訓(xùn)練方法,逐漸讓模型接觸到越來(lái)越長(zhǎng)的序列長(zhǎng)度,系統(tǒng)地增強(qiáng)其處理擴(kuò)展上下文的能力。

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限?-AI.x社區(qū)

Eagle-Video-110K:為長(zhǎng)文本理解量身定制的多樣化視頻數(shù)據(jù)集

現(xiàn)有的視頻數(shù)據(jù)集往往包含的視頻過(guò)短,無(wú)法滿足全面長(zhǎng)文本理解的需求。Eagle-Video-110K通過(guò)從多個(gè)來(lái)源(如Vidchapters、MiraData、InternVid-10M、Panda-70M、Vript、Shot2story、ViTT和WebVid-10M)精心策劃一系列較長(zhǎng)的視頻,解決了這一局限性。通過(guò)采用基于CLIP嵌入和相似性閾值的多樣性驅(qū)動(dòng)策略,Eagle-Video-110K能夠識(shí)別并選擇顯著延長(zhǎng)訓(xùn)練和評(píng)估可用平均時(shí)長(zhǎng)的全新視頻。

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限?-AI.x社區(qū)

Eagle-Video-110K的另一個(gè)亮點(diǎn)是其獨(dú)特的雙注釋管道,結(jié)合了自上而下和自下而上的方法,以實(shí)現(xiàn)全面的視頻理解。在自上而下的方法中,利用人類(lèi)注釋的章節(jié)作為語(yǔ)義上有意義的視頻片段,通過(guò)GPT-4o生成章節(jié)級(jí)密集字幕和長(zhǎng)形式問(wèn)答對(duì)。與此同時(shí),自下而上的方法則專(zhuān)注于局部時(shí)空細(xì)節(jié),通過(guò)GPT-4o生成帶有時(shí)間間隔參考和文本上下文錨點(diǎn)的剪輯級(jí)問(wèn)答對(duì)。這種分層方法使得模型能夠同時(shí)實(shí)現(xiàn)細(xì)粒度的時(shí)空理解和高級(jí)語(yǔ)義理解,為長(zhǎng)文本視頻推理提供了有力支持。

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限?-AI.x社區(qū)

Eagle-Video-110K對(duì)視頻理解性能產(chǎn)生了顯著影響。它不僅在主流的長(zhǎng)視頻和短視頻基準(zhǔn)測(cè)試中提升了模型性能,還通過(guò)提供之前開(kāi)源訓(xùn)練集中缺失的更長(zhǎng)視頻訓(xùn)練數(shù)據(jù),大幅提高了模型處理高幀數(shù)(≥128幀)的能力。這一改進(jìn)在Video-MME基準(zhǔn)測(cè)試中尤為明顯,Eagle 2.5在使用Eagle-Video-110K訓(xùn)練時(shí),隨著幀數(shù)的增加,性能呈一致的上升趨勢(shì),而其他模型則會(huì)趨于平穩(wěn)甚至退化。

性能與基準(zhǔn)測(cè)試

Eagle 2.5-8B在多個(gè)視頻和圖像理解任務(wù)中展現(xiàn)出了強(qiáng)大的性能。在視頻基準(zhǔn)測(cè)試中,它在MVBench上達(dá)到了74.8,在MLVU上達(dá)到了77.6,在LongVideoBench上達(dá)到了66.4。在圖像基準(zhǔn)測(cè)試中,該模型在DocVQA上達(dá)到了94.1,在ChartQA上達(dá)到了87.5,在InfoVQA上達(dá)到了80.4等。

NVIDIA發(fā)布Eagle 2.5:長(zhǎng)文本理解的“新星”,如何打破視覺(jué)-語(yǔ)言模型的局限?-AI.x社區(qū)

消融研究表明了Eagle采樣策略的重要性。移除IAP會(huì)導(dǎo)致在高分辨率基準(zhǔn)測(cè)試中性能下降,而省略ADS則會(huì)降低在需要密集監(jiān)督的任務(wù)中的有效性。模型還從漸進(jìn)式訓(xùn)練中受益:逐步增加上下文長(zhǎng)度相比一次性長(zhǎng)文本訓(xùn)練能夠帶來(lái)更穩(wěn)定的性能提升。此外,加入Eagle-Video-110K顯著提高了在高幀數(shù)(≥128幀)下的性能,進(jìn)一步凸顯了專(zhuān)門(mén)的長(zhǎng)文本數(shù)據(jù)集的價(jià)值。

結(jié)論

Eagle 2.5為長(zhǎng)文本視覺(jué)-語(yǔ)言建模提供了一種技術(shù)上合理的方法。它強(qiáng)調(diào)保持上下文完整性、逐步訓(xùn)練適應(yīng)以及數(shù)據(jù)集多樣性,使其能夠在保持架構(gòu)通用性的同時(shí)實(shí)現(xiàn)強(qiáng)大的性能。Eagle 2.5證明了,通過(guò)精心設(shè)計(jì)的訓(xùn)練策略和數(shù)據(jù)設(shè)計(jì),而非僅僅依賴(lài)模型擴(kuò)展,可以打造出高效、有競(jìng)爭(zhēng)力的復(fù)雜多模態(tài)理解系統(tǒng)。這使得Eagle 2.5成為構(gòu)建更適合現(xiàn)實(shí)世界多媒體應(yīng)用的更具上下文感知能力的AI系統(tǒng)的重要一步。


本文轉(zhuǎn)載自公眾號(hào)Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/pJECaBj-yRxL9xlDx2fY-A??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-28 09:23:26修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦