自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視頻生成模型變身智能體:斯坦福Percy Liang等提出VideoAgent,竟能自我優(yōu)化

人工智能 新聞
文本生視頻模型的這些近期應(yīng)用既有望實(shí)現(xiàn)互聯(lián)網(wǎng)規(guī)模級(jí)別的知識(shí)遷移(比如從生成人類視頻到生成機(jī)器人視頻),也有望打通實(shí)現(xiàn)通用智能體的道路(比如用單個(gè)策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù))。

現(xiàn)在正是「文本生視頻」賽道百花齊放的時(shí)代,而且其應(yīng)用場(chǎng)景非常多,比如生成創(chuàng)意視頻內(nèi)容、創(chuàng)建游戲場(chǎng)景、制作動(dòng)畫和電影。甚至有研究表明還能將視頻生成用作真實(shí)世界的模擬器,比如 OpenAI 今年初就發(fā)布過一份將視頻生成模型作為世界模擬器的技術(shù)報(bào)告,參閱機(jī)器之心報(bào)道《我在模擬世界!OpenAI 剛剛公布 Sora 技術(shù)細(xì)節(jié):是數(shù)據(jù)驅(qū)動(dòng)物理引擎》。

文本生視頻模型的這些近期應(yīng)用既有望實(shí)現(xiàn)互聯(lián)網(wǎng)規(guī)模級(jí)別的知識(shí)遷移(比如從生成人類視頻到生成機(jī)器人視頻),也有望打通實(shí)現(xiàn)通用智能體的道路(比如用單個(gè)策略控制不同環(huán)境中不同形態(tài)的機(jī)器人來執(zhí)行多種多樣的任務(wù))。

然而,現(xiàn)實(shí)情況是,文本生視頻模型的下游應(yīng)用還很有限,原因包括幻覺問題以及生成的視頻內(nèi)容不符合現(xiàn)實(shí)物理機(jī)制等。

雖然理論上可以通過擴(kuò)大數(shù)據(jù)集和模型大小來有效減輕這些問題,但對(duì)視頻生成模型來說,這會(huì)很困難。

部分原因是標(biāo)注和整理視頻的人力成本很高。另外,視頻生成方面還沒有一個(gè)非常適合大規(guī)模擴(kuò)展的架構(gòu)。

除了擴(kuò)大規(guī)模,LLM 領(lǐng)域的另一個(gè)重要突破是能整合外部反饋來提升生成質(zhì)量。那文本生視頻模型也能受益于這一思路嗎?

為了解答這一問題,一個(gè)多所機(jī)構(gòu)的研究團(tuán)隊(duì)探索了視頻生成模型能自然獲得的兩種反饋類型,即來自視覺 - 語(yǔ)言模型(VLM)的 AI 反饋和將生成的視頻轉(zhuǎn)換成運(yùn)動(dòng)控制時(shí)得到的真實(shí)世界執(zhí)行反饋

為了利用這些反饋來實(shí)現(xiàn)視頻生成模型的自我提升,該團(tuán)隊(duì)提出了 VideoAgent,即視頻智能體。該研究有三位共一作者:Achint Soni、Sreyas Venkataraman 和 Abhranil Chandra。其他參與者包括滑鐵盧大學(xué) Sebastian Fischmeister 教授、斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)主任 Percy Liang 以及 DeepMind 的 Bo Dai 和 Sherry Yang(楊夢(mèng)嬌)。

圖片

  • 論文標(biāo)題:VideoAgent: Self-Improving Video Generation
  • 論文地址:https://arxiv.org/pdf/2410.10076
  • 代碼地址:https://github.com/Video-as-Agent/VideoAgent

不同于將生成的視頻直接轉(zhuǎn)換成運(yùn)動(dòng)控制的策略,VideoAgent 的訓(xùn)練目標(biāo)是使用來自預(yù)訓(xùn)練 VLM 的反饋來迭代式地優(yōu)化生成的視頻規(guī)劃。

在推理階段,VideoAgent 會(huì)查詢 VLM 以選擇最佳的改進(jìn)版視頻規(guī)劃,然后在環(huán)境中執(zhí)行該規(guī)劃。

在在線執(zhí)行過程中,VideoAgent 會(huì)觀察任務(wù)是否已成功完成,并根據(jù)來自環(huán)境的執(zhí)行反饋和從環(huán)境收集的其它數(shù)據(jù)進(jìn)一步改進(jìn)視頻生成模型。

生成的視頻規(guī)劃獲得了兩方面的改進(jìn):

  • 該團(tuán)隊(duì)受一致性模型的啟發(fā),提出了用于視頻擴(kuò)散模型的自我調(diào)節(jié)一致性(self-conditioning consistency),其可將來自視頻擴(kuò)散模型的低質(zhì)量樣本進(jìn)一步優(yōu)化成高質(zhì)量樣本。
  • 當(dāng)可在線訪問環(huán)境時(shí),VideoAgent 會(huì)執(zhí)行當(dāng)前視頻策略并收集其它成功軌跡,以進(jìn)一步在成功軌跡上微調(diào)視頻生成模型。

圖 1 是 VideoAgent 的直觀圖示。

圖片

通過自我調(diào)節(jié)一致性實(shí)現(xiàn)視頻優(yōu)化

他們首先考慮的是基于第一幀和語(yǔ)言的視頻生成,即根據(jù)語(yǔ)言描述找到從初始圖像開始的一個(gè)圖像幀序列。通常來說,當(dāng)某個(gè)樣本來自一個(gè)視頻生成模型時(shí),其中一部分更真實(shí)(開始部分),另一部分則充滿幻覺(結(jié)尾部分)。

也就是說,雖然生成的視頻規(guī)劃可能無(wú)法完全完成指定的任務(wù),但它能提供有意義的信息,以幫助進(jìn)一步改進(jìn)以實(shí)現(xiàn)正確的規(guī)劃。

為了利用這樣的部分進(jìn)展,該團(tuán)隊(duì)使用了一個(gè)視頻一致性模型,即基于之前的自我生成的樣本為 ground truth 視頻執(zhí)行擴(kuò)散,這樣模型就可以學(xué)會(huì)保留視頻的真實(shí)部分,同時(shí)優(yōu)化其中的幻覺部分。

圖片

此外,除了基于之前生成的樣本來優(yōu)化視頻,該團(tuán)隊(duì)還納入了反饋,包括來自人類的反饋和來自 VLM 的反饋。這被稱為反饋引導(dǎo)的自我調(diào)節(jié)一致性

這里我們僅描述了其大概方法,詳細(xì)過程和形式化描述請(qǐng)參閱原論文。

通過 VLM 引導(dǎo)的視頻生成實(shí)現(xiàn)推理

在訓(xùn)練了視頻生成模型和視頻優(yōu)化模型之后,可采樣視頻生成模型然后迭代式地使用優(yōu)化模型來實(shí)現(xiàn)視頻優(yōu)化。

具體來說,VideoAgent 首先會(huì)基于第一幀和語(yǔ)言的視頻生成來「猜測(cè)」視頻規(guī)劃。

接下來,迭代地使用優(yōu)化模型來執(zhí)行優(yōu)化,這里會(huì)使用 VLM 來提供反饋。

算法 1 展示了使用 VLM 反饋的視頻生成和優(yōu)化模型。

圖片

算法 2 則給出了在推理時(shí)間生成、優(yōu)化和選擇視頻規(guī)劃(重新規(guī)劃)的方式。

圖片

通過在線微調(diào)實(shí)現(xiàn)自我改進(jìn)

除了上面描述的基于自我調(diào)節(jié)一致性的視頻優(yōu)化,該團(tuán)隊(duì)還進(jìn)一步將視頻生成和視頻細(xì)化的組合描述為一種策略,該策略可以通過在線交互期間從環(huán)境中收集的額外真實(shí)數(shù)據(jù)進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)改進(jìn)。

有多種強(qiáng)化學(xué)習(xí)技術(shù)可以滿足這一需求,算法 3 描述了其細(xì)節(jié)。

圖片

實(shí)驗(yàn)

為了評(píng)估 VideoAgent,該團(tuán)隊(duì)進(jìn)行了多個(gè)實(shí)驗(yàn),包括該模型的端到端成功率、不同組件的效果以及能否提升真實(shí)機(jī)器人視頻的質(zhì)量。

數(shù)據(jù)集

實(shí)驗(yàn)中,該團(tuán)隊(duì)考慮了三個(gè)數(shù)據(jù)集:

  • Meta-World:11 個(gè)機(jī)器人操作任務(wù),由模擬的 Sawyer 機(jī)器臂執(zhí)行,視頻演示是從三個(gè)不同的攝像機(jī)角度拍攝的。
  • iTHOR:一個(gè)模擬的 2D 目標(biāo)導(dǎo)航基準(zhǔn),其中智能體在四種房間類型中搜索指定的目標(biāo)物體。
  • BridgeData V2:一個(gè)真實(shí)的機(jī)器人操作數(shù)據(jù)集。

端到端任務(wù)成功率

實(shí)驗(yàn)過程就不過多贅述了,直接來看結(jié)果。

首先,表 1 給出了在 Meta-World 上的端到端任務(wù)成功率。

圖片

可以看到,自我調(diào)節(jié)一致性已經(jīng)能讓 VideoAgent 的總體成功率超越基線(19.6% 到 22.3%),其中一些任務(wù)更是大幅提升,比如在關(guān)閉水龍頭(faucet-close)任務(wù)上的成功率從 12% 猛增至 46.7%。

而如果再進(jìn)一步引入在線微調(diào),成功率還能進(jìn)一步提升,并且多迭代一次都會(huì)多一點(diǎn)提升。

引入重新規(guī)劃后,VideoAgent 的優(yōu)勢(shì)仍然存在,并且總體任務(wù)成功率達(dá)到了 50%,達(dá)成了該設(shè)置下的當(dāng)前最佳水平。

表 2 展示了在 iTHOR 上的成功率,可以看到 VideoAgent 同樣全面優(yōu)于基線 AVDC。

圖片

理解 VideoAgent 不同組件的效果

該團(tuán)隊(duì)也通過對(duì)比研究分析了 VideoAgent 不同組件的效果,具體包括 (1) 向優(yōu)化模型提供不同類型的反饋,(2) 改變優(yōu)化和在線迭代的次數(shù),(3) 調(diào)整 VLM 反饋的質(zhì)量。

表 3 展示了不同 VLM 反饋的效果(基于 Meta-World)。可以看到,不管是二元反饋還是描述性反饋,都比沒有反饋好,更比基線 AVDC 好得多。

圖片

圖 3 和 4 分別展示了優(yōu)化和在線迭代的次數(shù)的影響。整體來看,增多迭代次數(shù)有助于提升模型,并且效果很顯著。

圖片

由于這項(xiàng)研究是首批利用 VLM 為視頻生成提供反饋的研究之一,因此一個(gè)重要的研究課題是:了解 VLM 是否真的可以為視頻生成提供足夠準(zhǔn)確的反饋。

表 4 給出了 VLM 反饋的各項(xiàng)性能指標(biāo),這里使用了人工標(biāo)注作為 ground truth 來進(jìn)行評(píng)估。

圖片

可以看到,原始提示詞(Unweighted)的準(zhǔn)確度是 69%,這說明 VLM 足以評(píng)價(jià)生成的視頻。而通過重新加權(quán)來懲罰假正例(Weighted)還能大幅提升其準(zhǔn)確度。另外值得注意的是,從提示詞中移除第三個(gè)攝像頭甚至還能獲得更高的準(zhǔn)確度,這說明 VLM 的準(zhǔn)確性會(huì)受到部分可觀測(cè)性的影響。

在真實(shí)世界視頻上評(píng)估自我優(yōu)化

最后,該團(tuán)隊(duì)也評(píng)估了 VideoAgent 改進(jìn)真實(shí)視頻的能力。結(jié)果見表 5。

圖片

可以看到,在視頻分?jǐn)?shù)的 5 個(gè)子指標(biāo)上,VideoAgent 在其中 4 個(gè)上表現(xiàn)更優(yōu),在唯一的例外「動(dòng)態(tài)分?jǐn)?shù)」上也與基線差距細(xì)微。此外,VideoAgent 在 CLIP 分?jǐn)?shù)、流一致性和人類評(píng)估上也都更好。這表明 VideoAgent 可以生成更流暢、更符合現(xiàn)實(shí)世界的物理邏輯的視頻。

最后,圖 5 給出了一個(gè)定性評(píng)估結(jié)果。

圖片

其中,中間行是基線,可以看到其出現(xiàn)了幻覺(碗消失了),而 VideoAgent 很好地完成了視頻生成任務(wù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)