自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="mw8im"><s id="mw8im"><li id="mw8im"></li></s></sub>

<style id="mw8im"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Seed Research | 視頻生成模型最新成果，可僅靠視覺認知世界！現(xiàn)已開源

作者：豆包大模型團隊 2025-02-14 09:30:00

人工智能開源

作為一種通用視頻生成實驗模型，VideoWorld 去掉語言模型，實現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。同時，它基于一種潛在動態(tài)模型，可高效壓縮視頻幀間的變化信息，顯著提升知識學習效率和效果。

視頻生成實驗模型“VideoWorld”由豆包大模型團隊與北京交通大學、中國科學技術(shù)大學聯(lián)合提出。不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型，VideoWorld 在業(yè)界首次實現(xiàn)無需依賴語言模型，即可認知世界。

正如李飛飛教授 9 年前 TED 演講中提到 “幼兒可以不依靠語言理解真實世界”，VideoWorld 僅通過 “視覺信息”，即瀏覽視頻數(shù)據(jù)，就能讓機器掌握推理、規(guī)劃和決策等復雜能力。團隊實驗發(fā)現(xiàn)，僅 300M 參數(shù)量下，VideoWorld 已取得可觀的模型表現(xiàn)。

現(xiàn)有模型大多依賴語言或標簽數(shù)據(jù)學習知識，很少涉及純視覺信號的學習。然而，語言并不能捕捉真實世界中的所有知識。例如，折紙、打領(lǐng)結(jié)等復雜任務(wù)，難以通過語言清晰表達。

作為一種通用視頻生成實驗模型，VideoWorld 去掉語言模型，實現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。同時，它基于一種潛在動態(tài)模型，可高效壓縮視頻幀間的變化信息，顯著提升知識學習效率和效果。

在不依賴任何強化學習搜索或獎勵函數(shù)機制前提下，VideoWorld 達到了專業(yè) 5 段 9x9 圍棋水平，并能夠在多種環(huán)境中，執(zhí)行機器人任務(wù)。

團隊認為，盡管面向真實世界的視頻生成和泛化仍存在很大挑戰(zhàn)，視頻生成依然可以成為一種通用的知識學習方法，并在現(xiàn)實世界充當思考和行動的“人工大腦”。

目前，該項目代碼與模型已開源，歡迎體驗交流。

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
論文鏈接：https://arxiv.org/abs/2501.09781
代碼鏈接：https://github.com/bytedance/VideoWorld
項目主頁：https://maverickren.github.io/VideoWorld.github.io

1. 模型僅靠“視覺”即可學習知識

面向本次研究，研究團隊構(gòu)建了兩個實驗環(huán)境：視頻圍棋對戰(zhàn)和視頻機器人模擬操控。

其中，圍棋可以很好地評估模型的規(guī)則學習、推理和規(guī)劃能力，且圍棋關(guān)鍵信息僅有黑白兩色及棋盤，可將外觀、紋理等復雜細節(jié)與高級知識的評估分離，非常適合對上述問題的探索。同時，團隊還選取了機器人任務(wù)，以考察模型在理解控制規(guī)則和規(guī)劃任務(wù)方面的能力。

在模型訓練環(huán)節(jié)，團隊構(gòu)建了一個包含大量視頻演示數(shù)據(jù)的離線數(shù)據(jù)集，讓模型“觀看”學習，以此得到一個可以根據(jù)過往觀測，預測未來畫面的視頻生成器。

模型架構(gòu)上，團隊使用樸素的自回歸模型實例化視頻生成器，它包含一個 VQ-VAE 編碼器 - 解碼器和一個自回歸 Transformer 。編碼器負責將視頻幀（畫面）轉(zhuǎn)換為離散標記，Transformer 在訓練期間使用這些標記預測下一標記。

在推理過程中，Transformer 生成下一幀（畫面）的離散標記，這些標記隨后由解碼器轉(zhuǎn)換回像素空間。通過任務(wù)相關(guān)的映射函數(shù)，模型可將生成畫面轉(zhuǎn)換為任務(wù)執(zhí)行動作。這讓視頻生成實驗模型可在不依賴任何動作標簽情況下，學習和執(zhí)行具體任務(wù)。

基于上述樸素的框架對圍棋和機器人視頻數(shù)據(jù)進行建模，團隊觀測到，模型可以掌握基本的圍棋規(guī)則、走棋策略以及機器人操縱能力。

但團隊同時也發(fā)現(xiàn)，視頻序列的知識挖掘效率顯著落后于文本形式，具體如下圖所示。

團隊將這歸因于——視頻中存在大量冗余信息，影響了模型的學習效率。

例如，學習棋子移動過程中，模型只需通過狀態(tài)序列中少量位置標記編碼，但面向視頻數(shù)據(jù)，編碼器則會產(chǎn)生過多冗余標記，不利于模型對復雜知識的快速學習。

2. 壓縮視覺變化，讓視頻學習更加高效

根據(jù)上述觀測結(jié)果，團隊提出 VideoWorld 。它在保留豐富視覺信息的同時，壓縮了關(guān)鍵決策和動作相關(guān)的視覺變化，實現(xiàn)了更有效的視頻學習。

通常，視頻編碼需要數(shù)百或數(shù)千個離散標記來捕捉每幀內(nèi)的視覺信息，這導致知識被稀疏地嵌入標記中。為此，VideoWorld 引入了一個潛在動態(tài)模型（Latent Dynamics Model, LDM），可將幀間視覺變化壓縮為緊湊的潛在編碼，提高模型的知識挖掘效率。

舉例而言，圍棋中的多步棋盤變化或機器人連續(xù)動作均表現(xiàn)出強時間相關(guān)性，通過將這些多步變化壓縮成緊湊嵌入，不僅讓策略信息更緊湊，還將前向規(guī)劃指導信息進行編碼。

LDM 采用了 MAGVITv2 風格的編碼器 - 解碼器結(jié)構(gòu)，同時取消時間維度下采樣，以保留每幀細節(jié)。

對于一個視頻片段，LDM 采樣每一幀及其后續(xù)固定數(shù)量幀，編碼器先以因果方式提取每幀特征圖，且進行量化，以保留詳細視覺信息。

接下來，LDM 定義了一組注意力模塊和對應(yīng)可學習向量。每個向量通過注意力機制捕捉第一幀至后續(xù)固定幀的動態(tài)變化信息，然后通過 FSQ 量化。其中，量化器作為信息篩選器，防止 LDM 簡單記憶后續(xù)幀原始內(nèi)容，而非壓縮關(guān)鍵動態(tài)信息。

最后，解碼器使用第一幀的特征圖和幀之間的視覺變化編碼重建后續(xù)幀，最終實現(xiàn)對未來動作的預測和規(guī)劃，實現(xiàn)對知識的認知學習。

下圖為模型架構(gòu)概覽，左側(cè)為整體架構(gòu)，右側(cè)為潛在動態(tài)模型。

通過使用多個向量順序編碼第一幀到后續(xù)多幀的動態(tài)變化，VideoWorld 實現(xiàn)了緊湊且信息豐富的視覺表示，可以捕捉視覺序列中的短期和長期依賴關(guān)系。這對于長期推理和規(guī)劃任務(wù)至關(guān)重要。

通過引入 LDM ，VideoWorld 在僅有 300M 參數(shù)量下，達到專業(yè) 5 段的 9x9 圍棋水平，且不依賴任何強化學習中的搜索或獎勵函數(shù)機制。在機器人任務(wù)上，VideoWorld 也展現(xiàn)出了對多任務(wù)、多環(huán)境的泛化能力。 3. 純視覺模型可“預測”未來，并能“理解”因果關(guān)系覺模型可“預測”未來，并能“理解”因果關(guān)系

3.純視覺模型可“預測”未來，并能“理解”因果關(guān)系

針對 LDM 提高視頻學習效率的原因，團隊進行了更為細致地分析，得出如下 3 點結(jié)論：

LDM 建模了訓練集的數(shù)據(jù)模式。

下圖為 LDM 潛在編碼 UMAP 可視化呈現(xiàn)，面向圍棋和機器人訓練集，每個點代表一個潛在編碼。

其中，UMAP 是一種流行的降維算法，用于將高維數(shù)據(jù)映射到低維空間，展現(xiàn)模型特征提取情況。

在下圖左側(cè)中，奇數(shù)步表示白方走棋，偶數(shù)步表示黑方，圖例展示了新增黑棋的一些常見模式。UMAP 可視化表明：LDM 建模了訓練集中常見的走棋模式，并能將短期和長期數(shù)據(jù)模式壓縮至潛在空間中，提取并總結(jié)走棋規(guī)律。

同理，下圖右側(cè)為機械臂沿 X/Y/Z 軸運動方向可視化潛在編碼，隨著步數(shù)（Step）增多，也能看到 LDM 可以建模多步動態(tài)依賴關(guān)系。

LDM 幫助模型在測試時進行前向規(guī)劃。

團隊還研究了 LDM 在模型推理中的價值。

如下圖 UMAP 可視化所示，在測試階段，模型生成的潛在編碼按照時間步（Time-step）進行分組，使得模型能夠從更長遠視角進行圍棋決策。

在機器人場景實驗中，團隊也觀察到了類似現(xiàn)象。

下圖展示了 VideoWorld 在不同機器人操控任務(wù)中預測的潛在編碼。不同時間步的潛在編碼根據(jù)任務(wù)類型進行分組，突顯了模型逐步捕捉特定任務(wù)長程變化的能力。

LDM 可以生成因果相關(guān)的編碼。

為進一步研究潛在編碼的影響，團隊進行了一項干預實驗：用隨機標記替換不同時間步的潛在編碼，并觀察其對模型性能的影響。

實驗結(jié)果顯示，干預第一個編碼的影響最大，這可能由于編碼之間存在因果依賴，團隊認為：改變第一個編碼，即下一時間步的最佳決策，會影響所有未來的決策，側(cè)面說明模型可生成因果相關(guān)編碼，理解因果關(guān)系。

4. 寫在最后

盡管 VideoWorld 在圍棋和模擬機器人操控環(huán)境中展現(xiàn)了卓越性能，團隊同時也意識到，其在真實世界環(huán)境中的應(yīng)用，仍面臨著高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。

在未來，團隊將著力解決這些難題，推動視頻生成模型成為真實世界中的通用知識學習器。

責任編輯：龐桂玉來源：字節(jié)跳動技術(shù)團隊

視頻生成模型開源機器人

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="n2n4h"></style>

<legend id="n2n4h"><abbr id="n2n4h"><dfn id="n2n4h"></dfn></abbr></legend>

<blockquote id="n2n4h"></blockquote>

<style id="n2n4h"></style>