自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

視頻生成模型變身智能體：斯坦福Percy Liang等提出VideoAgent，竟能自我優(yōu)化

作者：機(jī)器之心 2024-10-21 12:40:00

人工智能新聞

文本生視頻模型的這些近期應(yīng)用既有望實(shí)現(xiàn)互聯(lián)網(wǎng)規(guī)模級(jí)別的知識(shí)遷移（比如從生成人類視頻到生成機(jī)器人視頻），也有望打通實(shí)現(xiàn)通用智能體的道路（比如用單個(gè)策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù)）。

現(xiàn)在正是「文本生視頻」賽道百花齊放的時(shí)代，而且其應(yīng)用場(chǎng)景非常多，比如生成創(chuàng)意視頻內(nèi)容、創(chuàng)建游戲場(chǎng)景、制作動(dòng)畫和電影。甚至有研究表明還能將視頻生成用作真實(shí)世界的模擬器，比如 OpenAI 今年初就發(fā)布過一份將視頻生成模型作為世界模擬器的技術(shù)報(bào)告，參閱機(jī)器之心報(bào)道《我在模擬世界！OpenAI 剛剛公布 Sora 技術(shù)細(xì)節(jié)：是數(shù)據(jù)驅(qū)動(dòng)物理引擎》。

文本生視頻模型的這些近期應(yīng)用既有望實(shí)現(xiàn)互聯(lián)網(wǎng)規(guī)模級(jí)別的知識(shí)遷移（比如從生成人類視頻到生成機(jī)器人視頻），也有望打通實(shí)現(xiàn)通用智能體的道路（比如用單個(gè)策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù)）。

然而，現(xiàn)實(shí)情況是，文本生視頻模型的下游應(yīng)用還很有限，原因包括幻覺問題以及生成的視頻內(nèi)容不符合現(xiàn)實(shí)物理機(jī)制等。

雖然理論上可以通過擴(kuò)大數(shù)據(jù)集和模型大小來有效減輕這些問題，但對(duì)視頻生成模型來說，這會(huì)很困難。

部分原因是標(biāo)注和整理視頻的人力成本很高。另外，視頻生成方面還沒有一個(gè)非常適合大規(guī)模擴(kuò)展的架構(gòu)。

除了擴(kuò)大規(guī)模，LLM 領(lǐng)域的另一個(gè)重要突破是能整合外部反饋來提升生成質(zhì)量。那文本生視頻模型也能受益于這一思路嗎？

為了解答這一問題，一個(gè)多所機(jī)構(gòu)的研究團(tuán)隊(duì)探索了視頻生成模型能自然獲得的兩種反饋類型，即來自視覺 - 語(yǔ)言模型（VLM）的 AI 反饋和將生成的視頻轉(zhuǎn)換成運(yùn)動(dòng)控制時(shí)得到的真實(shí)世界執(zhí)行反饋。

為了利用這些反饋來實(shí)現(xiàn)視頻生成模型的自我提升，該團(tuán)隊(duì)提出了 VideoAgent，即視頻智能體。該研究有三位共一作者：Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他參與者包括滑鐵盧大學(xué) Sebastian Fischmeister 教授、斯坦福大學(xué)基礎(chǔ)模型研究中心（CRFM）主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang（楊夢(mèng)嬌）。

論文標(biāo)題：VideoAgent: Self-Improving Video Generation
論文地址：https://arxiv.org/pdf/2410.10076
代碼地址：https://github.com/Video-as-Agent/VideoAgent

不同于將生成的視頻直接轉(zhuǎn)換成運(yùn)動(dòng)控制的策略，VideoAgent 的訓(xùn)練目標(biāo)是使用來自預(yù)訓(xùn)練 VLM 的反饋來迭代式地優(yōu)化生成的視頻規(guī)劃。

在推理階段，VideoAgent 會(huì)查詢 VLM 以選擇最佳的改進(jìn)版視頻規(guī)劃，然后在環(huán)境中執(zhí)行該規(guī)劃。

在在線執(zhí)行過程中，VideoAgent 會(huì)觀察任務(wù)是否已成功完成，并根據(jù)來自環(huán)境的執(zhí)行反饋和從環(huán)境收集的其它數(shù)據(jù)進(jìn)一步改進(jìn)視頻生成模型。

生成的視頻規(guī)劃獲得了兩方面的改進(jìn)：

該團(tuán)隊(duì)受一致性模型的啟發(fā)，提出了用于視頻擴(kuò)散模型的自我調(diào)節(jié)一致性（self-conditioning consistency），其可將來自視頻擴(kuò)散模型的低質(zhì)量樣本進(jìn)一步優(yōu)化成高質(zhì)量樣本。
當(dāng)可在線訪問環(huán)境時(shí)，VideoAgent 會(huì)執(zhí)行當(dāng)前視頻策略并收集其它成功軌跡，以進(jìn)一步在成功軌跡上微調(diào)視頻生成模型。

圖 1 是 VideoAgent 的直觀圖示。

通過自我調(diào)節(jié)一致性實(shí)現(xiàn)視頻優(yōu)化

他們首先考慮的是基于第一幀和語(yǔ)言的視頻生成，即根據(jù)語(yǔ)言描述找到從初始圖像開始的一個(gè)圖像幀序列。通常來說，當(dāng)某個(gè)樣本來自一個(gè)視頻生成模型時(shí)，其中一部分更真實(shí)（開始部分），另一部分則充滿幻覺（結(jié)尾部分）。

也就是說，雖然生成的視頻規(guī)劃可能無(wú)法完全完成指定的任務(wù)，但它能提供有意義的信息，以幫助進(jìn)一步改進(jìn)以實(shí)現(xiàn)正確的規(guī)劃。

為了利用這樣的部分進(jìn)展，該團(tuán)隊(duì)使用了一個(gè)視頻一致性模型，即基于之前的自我生成的樣本為 ground truth 視頻執(zhí)行擴(kuò)散，這樣模型就可以學(xué)會(huì)保留視頻的真實(shí)部分，同時(shí)優(yōu)化其中的幻覺部分。

此外，除了基于之前生成的樣本來優(yōu)化視頻，該團(tuán)隊(duì)還納入了反饋，包括來自人類的反饋和來自 VLM 的反饋。這被稱為反饋引導(dǎo)的自我調(diào)節(jié)一致性。

這里我們僅描述了其大概方法，詳細(xì)過程和形式化描述請(qǐng)參閱原論文。

通過 VLM 引導(dǎo)的視頻生成實(shí)現(xiàn)推理

在訓(xùn)練了視頻生成模型和視頻優(yōu)化模型之后，可采樣視頻生成模型然后迭代式地使用優(yōu)化模型來實(shí)現(xiàn)視頻優(yōu)化。

具體來說，VideoAgent 首先會(huì)基于第一幀和語(yǔ)言的視頻生成來「猜測(cè)」視頻規(guī)劃。

接下來，迭代地使用優(yōu)化模型來執(zhí)行優(yōu)化，這里會(huì)使用 VLM 來提供反饋。

算法 1 展示了使用 VLM 反饋的視頻生成和優(yōu)化模型。

算法 2 則給出了在推理時(shí)間生成、優(yōu)化和選擇視頻規(guī)劃（重新規(guī)劃）的方式。

通過在線微調(diào)實(shí)現(xiàn)自我改進(jìn)

除了上面描述的基于自我調(diào)節(jié)一致性的視頻優(yōu)化，該團(tuán)隊(duì)還進(jìn)一步將視頻生成和視頻細(xì)化的組合描述為一種策略，該策略可以通過在線交互期間從環(huán)境中收集的額外真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練，從而實(shí)現(xiàn)改進(jìn)。

有多種強(qiáng)化學(xué)習(xí)技術(shù)可以滿足這一需求，算法 3 描述了其細(xì)節(jié)。

實(shí)驗(yàn)

為了評(píng)估 VideoAgent，該團(tuán)隊(duì)進(jìn)行了多個(gè)實(shí)驗(yàn)，包括該模型的端到端成功率、不同組件的效果以及能否提升真實(shí)機(jī)器人視頻的質(zhì)量。

數(shù)據(jù)集

實(shí)驗(yàn)中，該團(tuán)隊(duì)考慮了三個(gè)數(shù)據(jù)集：

Meta-World：11 個(gè)機(jī)器人操作任務(wù)，由模擬的 Sawyer 機(jī)器臂執(zhí)行，視頻演示是從三個(gè)不同的攝像機(jī)角度拍攝的。
iTHOR：一個(gè)模擬的 2D 目標(biāo)導(dǎo)航基準(zhǔn)，其中智能體在四種房間類型中搜索指定的目標(biāo)物體。
BridgeData V2：一個(gè)真實(shí)的機(jī)器人操作數(shù)據(jù)集。

端到端任務(wù)成功率

實(shí)驗(yàn)過程就不過多贅述了，直接來看結(jié)果。

首先，表 1 給出了在 Meta-World 上的端到端任務(wù)成功率。

可以看到，自我調(diào)節(jié)一致性已經(jīng)能讓 VideoAgent 的總體成功率超越基線（19.6% 到 22.3%），其中一些任務(wù)更是大幅提升，比如在關(guān)閉水龍頭（faucet-close）任務(wù)上的成功率從 12% 猛增至 46.7%。

而如果再進(jìn)一步引入在線微調(diào)，成功率還能進(jìn)一步提升，并且多迭代一次都會(huì)多一點(diǎn)提升。

引入重新規(guī)劃后，VideoAgent 的優(yōu)勢(shì)仍然存在，并且總體任務(wù)成功率達(dá)到了 50%，達(dá)成了該設(shè)置下的當(dāng)前最佳水平。

表 2 展示了在 iTHOR 上的成功率，可以看到 VideoAgent 同樣全面優(yōu)于基線 AVDC。

理解 VideoAgent 不同組件的效果

該團(tuán)隊(duì)也通過對(duì)比研究分析了 VideoAgent 不同組件的效果，具體包括 (1) 向優(yōu)化模型提供不同類型的反饋，(2) 改變優(yōu)化和在線迭代的次數(shù)，(3) 調(diào)整 VLM 反饋的質(zhì)量。

表 3 展示了不同 VLM 反饋的效果（基于 Meta-World）。可以看到，不管是二元反饋還是描述性反饋，都比沒有反饋好，更比基線 AVDC 好得多。

圖 3 和 4 分別展示了優(yōu)化和在線迭代的次數(shù)的影響。整體來看，增多迭代次數(shù)有助于提升模型，并且效果很顯著。

由于這項(xiàng)研究是首批利用 VLM 為視頻生成提供反饋的研究之一，因此一個(gè)重要的研究課題是：了解 VLM 是否真的可以為視頻生成提供足夠準(zhǔn)確的反饋。

表 4 給出了 VLM 反饋的各項(xiàng)性能指標(biāo)，這里使用了人工標(biāo)注作為 ground truth 來進(jìn)行評(píng)估。

可以看到，原始提示詞（Unweighted）的準(zhǔn)確度是 69%，這說明 VLM 足以評(píng)價(jià)生成的視頻。而通過重新加權(quán)來懲罰假正例（Weighted）還能大幅提升其準(zhǔn)確度。另外值得注意的是，從提示詞中移除第三個(gè)攝像頭甚至還能獲得更高的準(zhǔn)確度，這說明 VLM 的準(zhǔn)確性會(huì)受到部分可觀測(cè)性的影響。

在真實(shí)世界視頻上評(píng)估自我優(yōu)化

最后，該團(tuán)隊(duì)也評(píng)估了 VideoAgent 改進(jìn)真實(shí)視頻的能力。結(jié)果見表 5。

可以看到，在視頻分?jǐn)?shù)的 5 個(gè)子指標(biāo)上，VideoAgent 在其中 4 個(gè)上表現(xiàn)更優(yōu)，在唯一的例外「動(dòng)態(tài)分?jǐn)?shù)」上也與基線差距細(xì)微。此外，VideoAgent 在 CLIP 分?jǐn)?shù)、流一致性和人類評(píng)估上也都更好。這表明 VideoAgent 可以生成更流暢、更符合現(xiàn)實(shí)世界的物理邏輯的視頻。

最后，圖 5 給出了一個(gè)定性評(píng)估結(jié)果。

其中，中間行是基線，可以看到其出現(xiàn)了幻覺（碗消失了），而 VideoAgent 很好地完成了視頻生成任務(wù)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

視頻生成模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="beep5"><track id="beep5"></track></cite>

<sub id="beep5"><p id="beep5"></p></sub>