長(zhǎng)視頻生成新突破!FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效
1. Long-Context Autoregressive Video Modeling with Next-Frame Prediction
在語(yǔ)言生成領(lǐng)域,長(zhǎng)上下文自回歸模型已取得顯著進(jìn)展,但視頻生成卻一直難以有效利用長(zhǎng)時(shí)間序列信息。為解決這一難題,我們提出了一種名為Frame AutoRegressive的全新視頻生成方法。。
FAR借鑒了語(yǔ)言模型逐幀學(xué)習(xí)的思路,通過(guò)捕捉視頻連續(xù)幀之間的時(shí)序因果關(guān)系,顯著提升了模型的收斂效率,表現(xiàn)優(yōu)于現(xiàn)有主流方法(如Token AR和視頻擴(kuò)散模型)。然而,長(zhǎng)視頻生成仍面臨兩大挑戰(zhàn):一是視頻內(nèi)容存在大量冗余信息,二是隨著視頻時(shí)長(zhǎng)增加,數(shù)據(jù)量激增導(dǎo)致訓(xùn)練成本飆升。
為突破這些限制,我們進(jìn)一步提出FlexRoPE技術(shù)。這項(xiàng)創(chuàng)新在推理階段為位置編碼機(jī)制(RoPE)添加了靈活的時(shí)間衰減功能,使模型能將處理時(shí)長(zhǎng)外推至原長(zhǎng)度的16倍,同時(shí)保持計(jì)算效率。這意味著我們只需用適配短視頻的上下文長(zhǎng)度,就能高效訓(xùn)練長(zhǎng)視頻模型。
實(shí)驗(yàn)結(jié)果顯示,F(xiàn)AR在短視頻和長(zhǎng)視頻生成中均達(dá)到當(dāng)前最優(yōu)水平,為視頻自回歸建模提供了簡(jiǎn)單而強(qiáng)大的基線方案。
論文: ??https://arxiv.org/pdf/2503.19325??
2. CoMP: Continual Multimodal Pre-training for Vision Foundation Models
預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型(VFMs)是AI理解圖像的核心工具,但如何讓它們“學(xué)得更好”一直是技術(shù)難點(diǎn)。今天,我們帶來(lái)一項(xiàng)創(chuàng)新:通過(guò)結(jié)合文本和圖像的持續(xù)訓(xùn)練,讓視覺(jué)模型在保持圖像原始分辨率的同時(shí),更精準(zhǔn)地理解多模態(tài)信息。
我們的方法有三大亮點(diǎn):
1?? 創(chuàng)新訓(xùn)練策略:通過(guò)三階段訓(xùn)練,模型不僅能“看懂”圖像,還能通過(guò)語(yǔ)言關(guān)聯(lián)優(yōu)化,讓圖像和文本的表達(dá)更一致;2?? 性能全面提升:在圖像分類(lèi)、目標(biāo)分割等任務(wù)中表現(xiàn)顯著提升,甚至在凍結(jié)模型參數(shù)的情況下,依然達(dá)到頂尖水平;3?? 實(shí)際應(yīng)用突破:例如在圖表理解任務(wù)(ChartQA)中準(zhǔn)確率達(dá)66.7%,文檔問(wèn)答(DocVQA)達(dá)75.9%,圖像分類(lèi)準(zhǔn)確率(ImageNet-1K)更是達(dá)到87.4%,分割任務(wù)(ADE20K)表現(xiàn)也刷新紀(jì)錄(mIoU 49.5)。
這意味著什么?通過(guò)過(guò)持續(xù)優(yōu)化視覺(jué)與語(yǔ)言的協(xié)同能力,AI不僅能“看”得更清晰,還能“理解”更深入。
論文: ??https://arxiv.org/pdf/2503.18931??
3. Scaling Vision Pre-Training to 4K Resolution
在日常任務(wù)中,高分辨率感知至關(guān)重要,但目前的視覺(jué)預(yù)訓(xùn)練大多局限于低分辨率(例如378 x 378像素),因?yàn)樘幚砀髨D像的成本會(huì)急劇增加。為了解決這個(gè)問(wèn)題,我們開(kāi)發(fā)了PS3技術(shù),它能夠?qū)⒁曈X(jué)預(yù)訓(xùn)練擴(kuò)展到4K分辨率,同時(shí)幾乎不增加計(jì)算成本。
PS3的核心創(chuàng)新:
- 局部處理代替全局對(duì)比:不同于傳統(tǒng)的全局圖像表示學(xué)習(xí),PS3專注于選擇性地處理圖像中的關(guān)鍵區(qū)域,并與詳細(xì)的局部描述進(jìn)行對(duì)比,這樣既能捕捉高清細(xì)節(jié),又能大幅減少計(jì)算負(fù)擔(dān)。
- 智能聚焦:PS3模型能夠在較低分辨率下編碼整個(gè)圖像,并根據(jù)文本提示的重要性或相關(guān)性,智能地放大和處理特定的高分辨率區(qū)域。
VILA-HD:更高效、更強(qiáng)大的多模態(tài)模型:
當(dāng)我們把PS3應(yīng)用于多模態(tài)大語(yǔ)言模型(MLLM)時(shí),得到的VILA-HD不僅在高分辨率視覺(jué)感知上遠(yuǎn)超其他未經(jīng)過(guò)高分辨率訓(xùn)練的基線模型(如AnyRes和S^2),而且使用的令牌數(shù)量減少了多達(dá)4.3倍。這意味著更高的效率和更低的成本。
性能突破:
- 性能提升顯著:VILA-HD在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,超越了包括NVILA和Qwen2-VL在內(nèi)的先前多模態(tài)LLM。
- 速度與精度兼顧:特別是在4KPro這個(gè)新提出的4K分辨率圖像問(wèn)答基準(zhǔn)上,VILA-HD相比GPT-4o提高了14.5%的準(zhǔn)確率,比Qwen2-VL提高了3.2%,并且運(yùn)行速度快了2.96倍。
論文: ??https://arxiv.org/pdf/2503.19903??
4. Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
在圖像和視頻生成領(lǐng)域,如何提高樣本質(zhì)量和更好地滿足用戶需求一直是個(gè)挑戰(zhàn)。最近,通過(guò)增加計(jì)算資源來(lái)提升性能的方法(推理時(shí)縮放)在大規(guī)模語(yǔ)言模型(LLM)和擴(kuò)散模型中引起了廣泛關(guān)注。然而,對(duì)于同樣流行的流模型來(lái)說(shuō),由于其確定性的生成過(guò)程,現(xiàn)有的高效縮放技術(shù)并不適用。
為了解決這個(gè)問(wèn)題,我們提出了一種新的流模型縮放方法,包括三個(gè)創(chuàng)新概念:
- 基于隨機(jī)微分方程(SDE)的生成:讓流模型能夠像擴(kuò)散模型一樣利用粒子采樣,從而加快生成速度并提高效率。
- 插值轉(zhuǎn)換:擴(kuò)大搜索范圍,增加了樣本多樣性,使得生成的內(nèi)容更加豐富多樣。
- 滾輪預(yù)算強(qiáng)制(RBF):一種智能分配計(jì)算資源的方法,在不同的時(shí)間步驟間動(dòng)態(tài)調(diào)整資源使用,以最大化預(yù)算利用效率。
我們的實(shí)驗(yàn)顯示,采用基于SDE的生成,特別是保持方差的插值生成(VP-SDE),可以顯著提升流模型在推理時(shí)縮放中的表現(xiàn)。更重要的是,結(jié)合了VP-SDE的RBF方法展現(xiàn)了最佳性能,超越了所有已有的方法。
論文: ???https://arxiv.org/pdf/2503.19385??
本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily
