自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="frkz0"></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

長(zhǎng)視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效

發(fā)布于 2025-4-1 00:57

瀏覽

0收藏

1. Long-Context Autoregressive Video Modeling with Next-Frame Prediction

長(zhǎng)視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效-AI.x社區(qū)

在語(yǔ)言生成領(lǐng)域，長(zhǎng)上下文自回歸模型已取得顯著進(jìn)展，但視頻生成卻一直難以有效利用長(zhǎng)時(shí)間序列信息。為解決這一難題，我們提出了一種名為Frame AutoRegressive的全新視頻生成方法。。

FAR借鑒了語(yǔ)言模型逐幀學(xué)習(xí)的思路，通過(guò)捕捉視頻連續(xù)幀之間的時(shí)序因果關(guān)系，顯著提升了模型的收斂效率，表現(xiàn)優(yōu)于現(xiàn)有主流方法（如Token AR和視頻擴(kuò)散模型）。然而，長(zhǎng)視頻生成仍面臨兩大挑戰(zhàn)：一是視頻內(nèi)容存在大量冗余信息，二是隨著視頻時(shí)長(zhǎng)增加，數(shù)據(jù)量激增導(dǎo)致訓(xùn)練成本飆升。

為突破這些限制，我們進(jìn)一步提出FlexRoPE技術(shù)。這項(xiàng)創(chuàng)新在推理階段為位置編碼機(jī)制（RoPE）添加了靈活的時(shí)間衰減功能，使模型能將處理時(shí)長(zhǎng)外推至原長(zhǎng)度的16倍，同時(shí)保持計(jì)算效率。這意味著我們只需用適配短視頻的上下文長(zhǎng)度，就能高效訓(xùn)練長(zhǎng)視頻模型。

實(shí)驗(yàn)結(jié)果顯示，F(xiàn)AR在短視頻和長(zhǎng)視頻生成中均達(dá)到當(dāng)前最優(yōu)水平，為視頻自回歸建模提供了簡(jiǎn)單而強(qiáng)大的基線方案。

論文: ??https://arxiv.org/pdf/2503.19325??

2. CoMP: Continual Multimodal Pre-training for Vision Foundation Models

長(zhǎng)視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效-AI.x社區(qū)

預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型（VFMs）是AI理解圖像的核心工具，但如何讓它們“學(xué)得更好”一直是技術(shù)難點(diǎn)。今天，我們帶來(lái)一項(xiàng)創(chuàng)新：通過(guò)結(jié)合文本和圖像的持續(xù)訓(xùn)練，讓視覺(jué)模型在保持圖像原始分辨率的同時(shí)，更精準(zhǔn)地理解多模態(tài)信息。

我們的方法有三大亮點(diǎn)：

1?? 創(chuàng)新訓(xùn)練策略：通過(guò)三階段訓(xùn)練，模型不僅能“看懂”圖像，還能通過(guò)語(yǔ)言關(guān)聯(lián)優(yōu)化，讓圖像和文本的表達(dá)更一致；2?? 性能全面提升：在圖像分類(lèi)、目標(biāo)分割等任務(wù)中表現(xiàn)顯著提升，甚至在凍結(jié)模型參數(shù)的情況下，依然達(dá)到頂尖水平；3?? 實(shí)際應(yīng)用突破：例如在圖表理解任務(wù)（ChartQA）中準(zhǔn)確率達(dá)66.7%，文檔問(wèn)答（DocVQA）達(dá)75.9%，圖像分類(lèi)準(zhǔn)確率（ImageNet-1K）更是達(dá)到87.4%，分割任務(wù)（ADE20K）表現(xiàn)也刷新紀(jì)錄（mIoU 49.5）。

這意味著什么？通過(guò)過(guò)持續(xù)優(yōu)化視覺(jué)與語(yǔ)言的協(xié)同能力，AI不僅能“看”得更清晰，還能“理解”更深入。

論文: ??https://arxiv.org/pdf/2503.18931??

3. Scaling Vision Pre-Training to 4K Resolution

長(zhǎng)視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效-AI.x社區(qū)

在日常任務(wù)中，高分辨率感知至關(guān)重要，但目前的視覺(jué)預(yù)訓(xùn)練大多局限于低分辨率（例如378 x 378像素），因?yàn)樘幚砀髨D像的成本會(huì)急劇增加。為了解決這個(gè)問(wèn)題，我們開(kāi)發(fā)了PS3技術(shù)，它能夠?qū)⒁曈X(jué)預(yù)訓(xùn)練擴(kuò)展到4K分辨率，同時(shí)幾乎不增加計(jì)算成本。

PS3的核心創(chuàng)新：

局部處理代替全局對(duì)比：不同于傳統(tǒng)的全局圖像表示學(xué)習(xí)，PS3專注于選擇性地處理圖像中的關(guān)鍵區(qū)域，并與詳細(xì)的局部描述進(jìn)行對(duì)比，這樣既能捕捉高清細(xì)節(jié)，又能大幅減少計(jì)算負(fù)擔(dān)。
智能聚焦：PS3模型能夠在較低分辨率下編碼整個(gè)圖像，并根據(jù)文本提示的重要性或相關(guān)性，智能地放大和處理特定的高分辨率區(qū)域。

VILA-HD：更高效、更強(qiáng)大的多模態(tài)模型：

當(dāng)我們把PS3應(yīng)用于多模態(tài)大語(yǔ)言模型（MLLM）時(shí)，得到的VILA-HD不僅在高分辨率視覺(jué)感知上遠(yuǎn)超其他未經(jīng)過(guò)高分辨率訓(xùn)練的基線模型（如AnyRes和S^2），而且使用的令牌數(shù)量減少了多達(dá)4.3倍。這意味著更高的效率和更低的成本。

性能突破：

性能提升顯著：VILA-HD在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色，超越了包括NVILA和Qwen2-VL在內(nèi)的先前多模態(tài)LLM。
速度與精度兼顧：特別是在4KPro這個(gè)新提出的4K分辨率圖像問(wèn)答基準(zhǔn)上，VILA-HD相比GPT-4o提高了14.5%的準(zhǔn)確率，比Qwen2-VL提高了3.2%，并且運(yùn)行速度快了2.96倍。

論文: ??https://arxiv.org/pdf/2503.19903??

4. Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

長(zhǎng)視頻生成新突破！FAR模型+FlexRoPE讓16倍時(shí)長(zhǎng)創(chuàng)作更高效-AI.x社區(qū)

在圖像和視頻生成領(lǐng)域，如何提高樣本質(zhì)量和更好地滿足用戶需求一直是個(gè)挑戰(zhàn)。最近，通過(guò)增加計(jì)算資源來(lái)提升性能的方法（推理時(shí)縮放）在大規(guī)模語(yǔ)言模型（LLM）和擴(kuò)散模型中引起了廣泛關(guān)注。然而，對(duì)于同樣流行的流模型來(lái)說(shuō)，由于其確定性的生成過(guò)程，現(xiàn)有的高效縮放技術(shù)并不適用。

為了解決這個(gè)問(wèn)題，我們提出了一種新的流模型縮放方法，包括三個(gè)創(chuàng)新概念：

基于隨機(jī)微分方程（SDE）的生成：讓流模型能夠像擴(kuò)散模型一樣利用粒子采樣，從而加快生成速度并提高效率。
插值轉(zhuǎn)換：擴(kuò)大搜索范圍，增加了樣本多樣性，使得生成的內(nèi)容更加豐富多樣。
滾輪預(yù)算強(qiáng)制（RBF）：一種智能分配計(jì)算資源的方法，在不同的時(shí)間步驟間動(dòng)態(tài)調(diào)整資源使用，以最大化預(yù)算利用效率。

我們的實(shí)驗(yàn)顯示，采用基于SDE的生成，特別是保持方差的插值生成（VP-SDE），可以顯著提升流模型在推理時(shí)縮放中的表現(xiàn)。更重要的是，結(jié)合了VP-SDE的RBF方法展現(xiàn)了最佳性能，超越了所有已有的方法。

論文: ???https://arxiv.org/pdf/2503.19385??

本文轉(zhuǎn)載自??AI-PaperDaily??，作者：AI-PaperDaily

標(biāo)簽

長(zhǎng)視頻

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

清華團(tuán)隊(duì)突破16秒長(zhǎng)視頻，懂多鏡頭語(yǔ)言，會(huì)模擬物理規(guī)律

輕薄滴假象 ? 2475瀏覽 ? 0回復(fù)
阿里巴巴AI研究團(tuán)隊(duì)打破視頻生成技術(shù)壁壘，EasyAnimate實(shí)現(xiàn)高質(zhì)量長(zhǎng)視頻生成

Syrupup ? 3710瀏覽 ? 0回復(fù)
10倍速度突破質(zhì)量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3170瀏覽 ? 0回復(fù)
史上首個(gè)實(shí)時(shí)AI視頻生成技術(shù)：DiT通用，速度提升10.6倍

輕薄滴假象 ? 2963瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成速度提升100倍！新加坡國(guó)立提出Video-Infinity：分布式長(zhǎng)視頻生成

angel ? 2765瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長(zhǎng)視頻生成框架

angel ? 8028瀏覽 ? 0回復(fù)
長(zhǎng)視頻生成再突破！高質(zhì)量連貫達(dá)600幀 | ConFiner：專家鏈加持的免訓(xùn)練長(zhǎng)視頻生成器

angel ? 2250瀏覽 ? 0回復(fù)
Open-Sora 1.1 解讀：完全開(kāi)源的高效復(fù)現(xiàn)類(lèi)Sora視頻生成方案！

angel ? 2270瀏覽 ? 0回復(fù)
視頻生成更高質(zhì)量，更連貫！關(guān)鍵幀插值創(chuàng)新技術(shù)——Generative Inbetweening開(kāi)源

angel ? 2817瀏覽 ? 0回復(fù)
Meta Movie Gen：新的 SOTA 視頻生成模型-技術(shù)報(bào)告解讀

amei2000go ? 3330瀏覽 ? 0回復(fù)
如何讓大型語(yǔ)言模型部署更高效？Run:ai Model Streamer的革命性突破

Halo咯咯 ? 2144瀏覽 ? 0回復(fù)
RAGCache：讓RAG系統(tǒng)更高效的多級(jí)動(dòng)態(tài)緩存新方案

Halo咯咯 ? 1908瀏覽 ? 0回復(fù)
16幀1024×1024視頻耗時(shí)僅16秒！64倍壓縮助力高效視頻生成：復(fù)旦&微軟發(fā)布Reducio-DiT

angel ? 2599瀏覽 ? 0回復(fù)
谷歌AI推出LAuReL：讓神經(jīng)網(wǎng)絡(luò)更高效的革命性架構(gòu)

Halo咯咯 ? 2875瀏覽 ? 0回復(fù)
AI長(zhǎng)視頻生成終現(xiàn)"免費(fèi)午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時(shí)長(zhǎng)魔咒

angel ? 1897瀏覽 ? 0回復(fù)
新模型Gemma 3號(hào)稱“單 GPU 模型王”，Gemma 3讓AI更輕便、更高效、更觸手可及！

Halo咯咯 ? 1927瀏覽 ? 0回復(fù)
掌握這5個(gè)技巧，讓你的大模型交互更高效！

Halo咯咯 ? 1034瀏覽 ? 0回復(fù)
全球首個(gè)開(kāi)源「無(wú)限時(shí)長(zhǎng)」電影生成模型炸場(chǎng)：昆侖萬(wàn)維把視頻生成卷到新時(shí)代

angel ? 619瀏覽 ? 0回復(fù)
AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過(guò)跨模態(tài)對(duì)齊生成主題一致的視頻，超多應(yīng)用場(chǎng)景

AIGCStudio ? 206瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

【LLM合集】視頻創(chuàng)作黑科技！Any2Caption讓"任意條件"秒變大片，所想即所得 6天前發(fā)布
【LLM合集】Qwen2.5-Omni：像人類(lèi)一樣「看聽(tīng)想說(shuō)」的全能助手來(lái)了！ 2025-04-14 01:06:10發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Meta 重磅發(fā)布 DyT 函數(shù)：Transformer 無(wú)需歸一化層，性能反超傳統(tǒng)方案！

下一篇：【LLM合集】Qwen2.5-Omni：像人類(lèi)一樣「看聽(tīng)想說(shuō)」的全能助手來(lái)了！

社區(qū)精華內(nèi)容

目錄