自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="b1uca"></style>

<cite id="b1uca"><rp id="b1uca"></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院

發(fā)布于 2025-4-14 10:00

瀏覽

0收藏

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2412.00857

項(xiàng)目鏈接：https://nevsnev.github.io/FloED/

開(kāi)源地址：https://github.com/NevSNev/FloED-main

亮點(diǎn)直擊

新穎的視頻修復(fù)模型。提出了一種專(zhuān)用的雙分支架構(gòu)，通過(guò)流適配器（flow adapters）集成光流引導(dǎo)，從而增強(qiáng)時(shí)空一致性并生成協(xié)調(diào)的結(jié)果。
高效的去噪過(guò)程。引入了一種無(wú)需訓(xùn)練的隱空間插值技術(shù)，利用光流加速多步去噪過(guò)程。結(jié)合流注意力緩存機(jī)制，F(xiàn)loED 有效降低了由光流引入的額外計(jì)算成本。
領(lǐng)先的性能表現(xiàn)。在物體移除（OR）和背景修復(fù)（BR）任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)，包括定量和定性評(píng)估，驗(yàn)證了 FloED 在性能與效率上均優(yōu)于其他最先進(jìn)的文本引導(dǎo)擴(kuò)散方法。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

時(shí)空一致性不足：現(xiàn)有基于擴(kuò)散模型的視頻修復(fù)方法在生成內(nèi)容時(shí)難以保持幀間時(shí)序連貫性，導(dǎo)致紋理、光照等出現(xiàn)不和諧（如CoCoCo）。
計(jì)算效率低：擴(kuò)散模型的多步去噪過(guò)程本身計(jì)算成本高，而引入光學(xué)流（估計(jì)、補(bǔ)全、融合）進(jìn)一步增加了額外開(kāi)銷(xiāo)。
任務(wù)適應(yīng)性差：現(xiàn)有方法在背景修復(fù)（BR）和物體移除（OR）任務(wù)中表現(xiàn)不佳，難以同時(shí)滿(mǎn)足文本語(yǔ)義對(duì)齊和時(shí)空一致性需求。

提出的方案

雙分支架構(gòu)：

主修復(fù)分支：基于擴(kuò)散模型完成視頻修復(fù)。
時(shí)間無(wú)關(guān)的光學(xué)流分支：先修復(fù)損壞的光學(xué)流，再通過(guò)多尺度流適配器（flow adapters）將運(yùn)動(dòng)信息注入主分支的U-Net解碼器。

高效加速技術(shù)：
訓(xùn)練自由的隱空間插值：利用光流引導(dǎo)的變形操作（warping）加速早期去噪階段的多步采樣。
流注意力緩存機(jī)制：在剩余去噪階段緩存注意力計(jì)算結(jié)果，減少流適配器和流分支的重復(fù)計(jì)算。
錨幀策略：結(jié)合高質(zhì)量圖像修復(fù)模型提升關(guān)鍵幀質(zhì)量，以改善整體視頻修復(fù)效果。

應(yīng)用的技術(shù)

擴(kuò)散模型：基于AnimateDiff微調(diào)運(yùn)動(dòng)模塊，適配視頻修復(fù)任務(wù)。
光學(xué)流引導(dǎo)：

通過(guò)流分支補(bǔ)全損壞的光學(xué)流，提供運(yùn)動(dòng)一致性約束。
多尺度流適配器將光流特征融合到U-Net中。

加速技術(shù)：
光流變形（warping）實(shí)現(xiàn)隱空間特征插值。
注意力緩存減少冗余計(jì)算。
基準(zhǔn)構(gòu)建：針對(duì)BR和OR任務(wù)建立首個(gè)全面的擴(kuò)散模型視頻修復(fù)評(píng)測(cè)基準(zhǔn)。

達(dá)到的效果

性能提升：

在BR和OR任務(wù)中，時(shí)空一致性和文本對(duì)齊性?xún)?yōu)于CoCoCo等SOTA方法（如圖1所示）。
修復(fù)區(qū)域與上下文視頻的紋理、光照更協(xié)調(diào)。

效率優(yōu)化：
隱空間插值和注意力緩存顯著降低計(jì)算成本，加速多步去噪過(guò)程。
通用性：
框架適用于不同場(chǎng)景（如動(dòng)態(tài)背景修復(fù)、物體移除），且無(wú)需額外訓(xùn)練即可適配現(xiàn)有擴(kuò)散模型。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

方法

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

網(wǎng)絡(luò)概述

下圖2展示了本文提出的模型 FloED 的總體架構(gòu)。FloED 采用預(yù)訓(xùn)練的Stable Diffusion Inpainting主干網(wǎng)絡(luò)作為主分支，并集成了基于AnimateDiff v3初始化的運(yùn)動(dòng)模塊。FloED 的訓(xùn)練過(guò)程分為兩個(gè)階段：

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

第一階段：微調(diào)運(yùn)動(dòng)模塊，使其時(shí)間建模能力適配視頻修復(fù)任務(wù)。
第二階段：

引入專(zhuān)用的流分支補(bǔ)全從掩碼幀估計(jì)的損壞光流。
通過(guò)多尺度流適配器將分層運(yùn)動(dòng)信息注入主修復(fù)分支。
采用錨幀策略利用圖像修復(fù)擴(kuò)散模型的優(yōu)勢(shì)提升視頻修復(fù)質(zhì)量。
提出一種無(wú)需訓(xùn)練的去噪加速技術(shù)，利用光流進(jìn)行隱空間特征插值，并結(jié)合流注意力緩存機(jī)制顯著降低光流引入的計(jì)算開(kāi)銷(xiāo)。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

視頻修復(fù)中的光流引導(dǎo)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

流補(bǔ)全分支：

該分支結(jié)構(gòu)與主修復(fù)主干對(duì)齊，通過(guò)選擇性聚合主分支各塊的初始ResNet 模塊確保通道兼容性。
移除 ResNet 的時(shí)間步輸入，構(gòu)建時(shí)間無(wú)關(guān)的流補(bǔ)全分支，使流特征不受擴(kuò)散過(guò)程影響。
如圖2所示，補(bǔ)全后的光流通過(guò)多尺度流適配器注入主 UNet 分支的上采樣塊，提供全局運(yùn)動(dòng)指導(dǎo)。

流適配器：

受IP-Adapter啟發(fā)，流適配器由獨(dú)立的交叉注意力層構(gòu)成，將重建的光流特征輸入交叉注意力以實(shí)現(xiàn)運(yùn)動(dòng)引導(dǎo)。
關(guān)鍵設(shè)計(jì)：流適配器置于文本交叉注意力層和運(yùn)動(dòng)模塊之間，通過(guò)光流先驗(yàn)動(dòng)態(tài)調(diào)整文本驅(qū)動(dòng)的隱空間特征，解決生成內(nèi)容與時(shí)空上下文的錯(cuò)位問(wèn)題。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

錨幀策略

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

FloED高效推理

基于擴(kuò)散模型的多步采樣特性，本文提出無(wú)需訓(xùn)練的隱空間特征插值技術(shù)，利用光流加速去噪過(guò)程，并輔以流注意力緩存機(jī)制優(yōu)化推理效率。

流注意力緩存

流分支獨(dú)立于時(shí)間步，推理階段僅在首步執(zhí)行光流補(bǔ)全，后續(xù)步驟復(fù)用補(bǔ)全光流。
針對(duì)多尺度流適配器：通過(guò)首步計(jì)算鍵值對(duì)(K/V)并存入內(nèi)存庫(kù)（圖2右側(cè)），后續(xù)步驟直接調(diào)用緩存，避免重復(fù)計(jì)算。

免訓(xùn)練去噪加速基于相鄰隱空間特征具有相似運(yùn)動(dòng)模式且擴(kuò)散模型在早期去噪階段生成高層內(nèi)容的特性，本研究通過(guò)光流引導(dǎo)的插值實(shí)現(xiàn)加速。該技術(shù)完全無(wú)需額外訓(xùn)練，具體流程如下圖3所示：

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

初始化階段：標(biāo)準(zhǔn)去噪流程補(bǔ)全光流并緩存流注意力。
交替處理：從第t-1步開(kāi)始：

偶數(shù)幀（紅色）執(zhí)行去噪
奇數(shù)幀（綠色）通過(guò)雙向光流變形(warping)生成

將噪聲隱空間特征z按奇偶索引劃分：

迭代優(yōu)化：下一步僅對(duì)插值幀（綠色）去噪，紅色幀通過(guò)變形生成。由于變形操作耗時(shí)極低，每步僅需處理半數(shù)幀隱空間特征，使去噪延遲減半。

約束條件

插值操作限制在初始S步（對(duì)應(yīng)圖像結(jié)構(gòu)建立階段）
僅對(duì)相鄰幀執(zhí)行變形以避免光流誤差累積
采用遮擋處理技術(shù)緩解光流變形可能導(dǎo)致的遮擋問(wèn)題

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

數(shù)據(jù)集與基準(zhǔn)測(cè)試。本文采用Open-Sora-Plan數(shù)據(jù)集，通過(guò)場(chǎng)景切割獲得421,396個(gè)高質(zhì)量視頻片段及其對(duì)應(yīng)字幕。進(jìn)一步構(gòu)建了包含100個(gè)全新視頻的評(píng)估基準(zhǔn)，素材來(lái)自Pexels和Pixabay平臺(tái)，其中50個(gè)用于物體移除（OR）任務(wù)，50個(gè)用于背景修復(fù)（BR）任務(wù)。針對(duì)BR任務(wù)，本研究使用聚焦背景的合成隨機(jī)掩碼；對(duì)于OR任務(wù)，通過(guò)Segment-Anything（SAM）模型逐幀生成物體掩碼。所有視頻均經(jīng)人工篩選以確保運(yùn)動(dòng)幅度和攝像機(jī)移動(dòng)速度的多樣性，同時(shí)保證4K分辨率與100幀的總長(zhǎng)度。字幕方面，采用VideoGPT生成初始視頻提示詞，并對(duì)OR任務(wù)人工修正背景描述文本。

訓(xùn)練與推理細(xì)節(jié)。本文采用512分辨率的16幀視頻序列進(jìn)行兩階段訓(xùn)練，通過(guò)隨機(jī)方向與形狀的掩碼序列模擬BR和OR任務(wù)。第一階段在8張NVIDIA A800 GPU上訓(xùn)練5個(gè)epoch（批次大小8），第二階段在相同硬件上通過(guò)梯度累計(jì)實(shí)現(xiàn)批次大小128的30個(gè)epoch訓(xùn)練（λ值設(shè)為0.1）。推理階段使用DDIM采樣器，經(jīng)實(shí)驗(yàn)將加速步長(zhǎng)S設(shè)為5（總步數(shù)25步）。

對(duì)比實(shí)驗(yàn)

與開(kāi)源文本引導(dǎo)擴(kuò)散方法全面對(duì)比，包括VideoComposer、CoCoCo、DiffuEraser。

定性比較。如下圖4所示，VideoComposer、CoCoCo和DiffuEraser在物體移除（OR）任務(wù)中表現(xiàn)出持續(xù)局限性，頻繁出現(xiàn)視覺(jué)偽影和內(nèi)容幻覺(jué)，破壞與場(chǎng)景上下文的語(yǔ)義一致性。相比之下，F(xiàn)loED能夠用兼容內(nèi)容填充掩碼區(qū)域，展現(xiàn)出精確的文本條件生成能力，在背景修復(fù)（BR）和物體移除任務(wù)中均實(shí)現(xiàn)更優(yōu)的時(shí)間連貫性與整體協(xié)調(diào)性。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

定量比較。通過(guò)指標(biāo)評(píng)估和用戶(hù)研究進(jìn)行量化對(duì)比：（1）指標(biāo)評(píng)估：針對(duì)BR任務(wù)，采用PSNR、VFID和SSIM量化基礎(chǔ)質(zhì)量，并結(jié)合光流扭曲誤差與時(shí)間一致性（TC）評(píng)估時(shí)序連貫性（TC通過(guò)CLIP-Image特征空間中連續(xù)幀的余弦相似度計(jì)算）。對(duì)于OR任務(wù)，由于缺乏真實(shí)數(shù)據(jù)支撐傳統(tǒng)指標(biāo)，采用同樣基于CLIP分?jǐn)?shù)的文本對(duì)齊度（TA）作為評(píng)估標(biāo)準(zhǔn)。所有指標(biāo)均在512×512分辨率下測(cè)試。如下表1所示，F(xiàn)loED在所有指標(biāo)上超越其他方法，展現(xiàn)最先進(jìn)性能。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

（2）用戶(hù)研究：鑒于CLIP分?jǐn)?shù)與人類(lèi)感知存在偏差，組織15名標(biāo)注者對(duì)BR和OR任務(wù)（共100個(gè)視頻）的修復(fù)結(jié)果進(jìn)行綜合評(píng)估，從時(shí)序連貫性、文本對(duì)齊度和上下文兼容性三個(gè)維度對(duì)四種方法進(jìn)行優(yōu)選。如下圖6所示，本研究的模型以BR任務(wù)62.27%和OR任務(wù)56.40%的優(yōu)選率獲得最高評(píng)價(jià)。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

消融實(shí)驗(yàn)

光流相關(guān)消融研究。通過(guò)下圖5所示的實(shí)驗(yàn)驗(yàn)證運(yùn)動(dòng)引導(dǎo)機(jī)制的有效性：

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

(1) 光流補(bǔ)全。以物體移除場(chǎng)景為例，補(bǔ)全后的光流結(jié)果顯示受損區(qū)域?qū)崿F(xiàn)了與周邊環(huán)境保持時(shí)空一致性的上下文感知修復(fù)(B與C對(duì)比)。重建結(jié)果進(jìn)一步驗(yàn)證了時(shí)序無(wú)關(guān)光流分支的補(bǔ)全能力。 (2) 光流適配器。這些重建光流通過(guò)多尺度適配器為修復(fù)主分支提供關(guān)鍵運(yùn)動(dòng)引導(dǎo)，有效提升場(chǎng)景兼容性并增強(qiáng)視頻連貫性(D與E對(duì)比)。實(shí)驗(yàn)表明，多尺度光流適配器注入的運(yùn)動(dòng)指引能顯著改善生成內(nèi)容的環(huán)境一致性，從而提升時(shí)序連貫性與整體質(zhì)量。下表2的架構(gòu)消融實(shí)驗(yàn)顯示，相較于關(guān)鍵幀策略，多尺度光流適配器對(duì)框架性能提升更具優(yōu)勢(shì)，證實(shí)了其在FloED中的核心作用。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

效率實(shí)驗(yàn)。本節(jié)在NVIDIA H800 GPU的FP16精度環(huán)境下進(jìn)行效率測(cè)試，F(xiàn)loED的去噪過(guò)程采用25步采樣步數(shù)，分類(lèi)器無(wú)關(guān)引導(dǎo)尺度(CFG)＞1。

（1）隱空間插值步數(shù)。本文僅在去噪初期階段應(yīng)用隱空間插值。下圖7的加速步數(shù)研究表明：當(dāng)加速步數(shù)S超過(guò)去噪過(guò)程早期階段時(shí)，性能會(huì)出現(xiàn)斷崖式下跌。實(shí)驗(yàn)證明，在前5步采用光流引導(dǎo)的隱空間插值，可在僅輕微影響性能的前提下最大化降低去噪耗時(shí)。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

（2）效率消融研究。下表3顯示，相較于不含光流模塊的基礎(chǔ)版本，本研究對(duì)比了不同效率優(yōu)化策略。由于訓(xùn)練時(shí)光流分支具有時(shí)序無(wú)關(guān)性，測(cè)試階段僅需在首步去噪時(shí)運(yùn)行光流分支完成破損光流修復(fù)并緩存記憶庫(kù)，后續(xù)步驟可直接使用已修復(fù)光流進(jìn)行隱空間插值，并調(diào)用緩存的K/V鍵值對(duì)實(shí)現(xiàn)流引導(dǎo)。最終確定最優(yōu)方案：前5步（第2-6步）執(zhí)行隱空間插值，剩余步驟采用流緩存補(bǔ)充，在432×240分辨率下實(shí)現(xiàn)13.4%加速。相比完全不使用光流補(bǔ)全與注意力機(jī)制的基準(zhǔn)版本，這些優(yōu)化幾乎抵消了額外計(jì)算開(kāi)銷(xiāo)。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

（3）效率對(duì)比。下表4數(shù)據(jù)表明，在相同去噪步數(shù)下，F(xiàn)loED在所有分辨率下均優(yōu)于CoCoCo、DiffuEraser等基于擴(kuò)散模型的方法，展現(xiàn)出最先進(jìn)的運(yùn)算效率。

修得快，還修得準(zhǔn)！新一代視頻修復(fù)技術(shù)FloED性能超越所有擴(kuò)散模型! | 港科大&達(dá)摩院-AI.x社區(qū)

討論本文聚焦于文本引導(dǎo)的視頻修復(fù)，主要與基于擴(kuò)散模型的方法對(duì)比。本文的隱空間插值技術(shù)可直接擴(kuò)展至CoCoCo等其他擴(kuò)散模型實(shí)現(xiàn)加速處理。但需指出，預(yù)修復(fù)破損光流的策略可能限制其跨場(chǎng)景遷移能力。

結(jié)論

本文提出FloED，一種通過(guò)光流引導(dǎo)增強(qiáng)時(shí)序一致性與計(jì)算效率的視頻修復(fù)框架。該雙分支架構(gòu)首先生成修復(fù)光流，繼而通過(guò)多尺度適配器指導(dǎo)修復(fù)過(guò)程。無(wú)需訓(xùn)練的隱空間插值技術(shù)與流注意力緩存機(jī)制，顯著降低了光流整合的典型計(jì)算開(kāi)銷(xiāo)。實(shí)驗(yàn)證明FloED在背景修復(fù)與物體移除任務(wù)中均達(dá)到最先進(jìn)水平，展現(xiàn)出卓越的時(shí)序一致性與內(nèi)容連貫性保持能力。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/xaJp-MSw_FFLDQa-d_uU2w??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

極長(zhǎng)序列、極快速度：面向新一代高效大語(yǔ)言模型的LASP序列并行

輕薄滴假象 ? 2298瀏覽 ? 0回復(fù)
字節(jié)提出新一代數(shù)據(jù)集COCONut，比COCO粒度分割更密集

輕薄滴假象 ? 3617瀏覽 ? 0回復(fù)
10倍速度突破質(zhì)量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3165瀏覽 ? 0回復(fù)
這家世界模型公司發(fā)布中國(guó)版Sora級(jí)視頻生成大模型，走向世界模型打造新一代數(shù)據(jù)引擎

輕薄滴假象 ? 2956瀏覽 ? 0回復(fù)
YOLOv9：深度解析新一代實(shí)時(shí)目標(biāo)檢測(cè)王者

sword_hero ? 5578瀏覽 ? 0回復(fù)
微軟重磅開(kāi)源 GraphRAG：新一代 RAG 技術(shù)來(lái)了！

玄姐聊AGI ? 5452瀏覽 ? 0回復(fù)
新一代的交互形式LUI（language user interface）到來(lái)，微軟為它架了一座橋

Syrupup ? 3107瀏覽 ? 0回復(fù)
ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·準(zhǔn)·好的圖像編輯方法！港大&牛津

angel ? 2309瀏覽 ? 0回復(fù)
視頻生成控制提升幾十倍，新一代輕量級(jí)ControlNeXt火了，賈佳亞團(tuán)隊(duì)正挑戰(zhàn)Scaling Law

輕薄滴假象 ? 2132瀏覽 ? 0回復(fù)
視頻擴(kuò)散模型加持，稀疏視圖重建任意場(chǎng)景！清華&港科大發(fā)布ReconX

angel ? 2969瀏覽 ? 0回復(fù)
下一代RAG：MemoRAG

PaperAgent ? 2683瀏覽 ? 0回復(fù)
探索阿里通義千問(wèn) Qwen2.5：新一代開(kāi)源大模型的卓越力量

穿越時(shí)空111 ? 4792瀏覽 ? 0回復(fù)
Zyphra發(fā)布Zamba2-7B：新一代高性能小型語(yǔ)言模型

Halo咯咯 ? 2222瀏覽 ? 0回復(fù)
LLM合集：微軟開(kāi)源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

AIPaperDaily ? 1999瀏覽 ? 0回復(fù)
文生圖擊敗所有擴(kuò)散SOTA方案！智源研究院等提出NOVA：邁向統(tǒng)一的多任務(wù)大模型

angel ? 1895瀏覽 ? 0回復(fù)
為什么多模態(tài)AI是下一個(gè)風(fēng)口？深度解讀新一代LLM

芝士AI吃魚(yú) ? 4248瀏覽 ? 0回復(fù)
達(dá)摩院開(kāi)源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 1837瀏覽 ? 0回復(fù)
直擊痛點(diǎn)，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

angel ? 1602瀏覽 ? 0回復(fù)
別搞 GraphRAG 了，擁抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI ? 2101瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

Seedream 3.0技術(shù)細(xì)節(jié)重磅發(fā)布！中文圖文生成再進(jìn)化,2K高清+爆改文字渲染,遠(yuǎn)超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：突破傳統(tǒng)“非此即彼”，真靈魂P(guān)圖！騰訊最新FlexIP黑科技：身份保持和個(gè)性化我都要！

下一篇： ICLR 2025 | 被AI“洗圖”也能識(shí)別版權(quán)！水印技術(shù)重大突破：VINE模型全面碾壓舊方法!

社區(qū)精華內(nèi)容

目錄

<cite id="f8a85"><track id="f8a85"></track></cite>

<legend id="f8a85"><track id="f8a85"><dfn id="f8a85"></dfn></track></legend>