自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

機(jī)器人界「Sora」來了！清華、星動(dòng)紀(jì)元開源首個(gè)AIGC機(jī)器人大模型，入選ICML2025 Spotlight

作者：機(jī)器之心 2025-05-07 13:48:48

人工智能新聞

無獨(dú)有偶，AIGC 生成式技術(shù)同樣在具身智能機(jī)器人大模型上帶來了驚人的表現(xiàn)。

從 2023 年的 Sora 到如今的可靈、Vidu、通義萬相，AIGC 生成式技術(shù)的魔法席卷全球，打開了 AI 應(yīng)用落地的大門。

無獨(dú)有偶，AIGC 生成式技術(shù)同樣在具身智能機(jī)器人大模型上帶來了驚人的表現(xiàn)。

“給我盛一碗熱騰騰的雞湯”，以前這句話能帶給你一個(gè)溫暖感人、栩栩如生的視頻?，F(xiàn)在，如果你旁邊有一個(gè)機(jī)器人，這句話就能讓他真的給你盛一碗湯！

這背后的技術(shù)來自于清華大學(xué)叉院的 ISRLab 和星動(dòng)紀(jì)元 ——ICML Spotlight 高分作品 AIGC 生成式機(jī)器人大模型 VPP（Video Prediction Policy）！利用預(yù)訓(xùn)練視頻生成大模型，讓 AIGC 的魔力從數(shù)字世界走進(jìn)具身智能的物理世界，就好比“機(jī)器人界的 Sora”！

VPP 利用了大量互聯(lián)網(wǎng)視頻數(shù)據(jù)進(jìn)行訓(xùn)練，直接學(xué)習(xí)人類動(dòng)作，極大減輕了對于高質(zhì)量機(jī)器人真機(jī)數(shù)據(jù)的依賴，且可在不同人形機(jī)器人本體之間自如切換，這有望大大加速人形機(jī)器人的商業(yè)化落地。

以下視頻來源于

北京星動(dòng)紀(jì)元科技有限公司

據(jù)悉，今年的 ICML2025，Spotlight 論文中稿難度極高，在超過 12000 篇投稿中，僅有不到 2.6% 的論文能獲此殊榮，VPP 就是其中之一。

VPP 將視頻擴(kuò)散模型的泛化能力轉(zhuǎn)移到了通用機(jī)器人操作策略中，巧妙解決了 diffusion 推理速度的問題，開創(chuàng)性地讓機(jī)器人實(shí)時(shí)進(jìn)行未來預(yù)測和動(dòng)作執(zhí)行，大大提升機(jī)器人策略泛化性，并且現(xiàn)已全部開源！

論文標(biāo)題：Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations, ICML 2025 Spotlight
論文地址：https://arxiv.org/pdf/2412.14803
項(xiàng)目地址：https://video-prediction-policy.github.io
開源代碼：https://github.com/roboterax/video-prediction-policy

VPP 是機(jī)器人界的 “Sora”

目前 AI 大模型領(lǐng)域有兩種主流方法，基于自回歸的理解模型和基于擴(kuò)散的生成模型，各自代表作分別為自回歸的 GPT 和生成式的 Sora：

GPT 的思路演化到具身智能領(lǐng)域，就是以 PI（ Physical Intelligence ）為代表的 VLA 技術(shù)，他是從視覺語言理解模型（VLM）微調(diào)而來，擅長抽象推理和語義理解。
生成式的技術(shù)與機(jī)器人的碰撞，就誕生了 VPP 這樣的生成式機(jī)器人大模型。

然而，人工智能領(lǐng)域存在著著名的莫拉維克悖論（Moravec's paradox）：高級推理功能反而容易（例如圍棋、數(shù)學(xué)題），下層的感知和執(zhí)行反而困難（例如各種家務(wù)）。VLM 更擅長高層級的推理，而 AIGC 生成式模型更擅長細(xì)節(jié)處理。VPP 基于 AIGC 視頻擴(kuò)散模型而來，在底層的感知和控制有獨(dú)特的優(yōu)勢。

如圖所示，VPP 分成兩階段的學(xué)習(xí)框架，最終實(shí)現(xiàn)基于文本指令的視頻動(dòng)作生成。第一階段利用視頻擴(kuò)散模型學(xué)習(xí)預(yù)測性視覺表征；第二階段通過 Video Former 和 DiT 擴(kuò)散策略進(jìn)行動(dòng)作學(xué)習(xí)。

1. 提前預(yù)知未來：讓機(jī)器人行動(dòng)前做到 “心里有數(shù)”

以往機(jī)器人策略（例如：VLA 模型）往往只能根據(jù)當(dāng)前觀測進(jìn)行動(dòng)作學(xué)習(xí)，機(jī)器人策略需要先理解指令和場景，再執(zhí)行。VPP 能夠提前預(yù)知未來的場景，讓機(jī)器人 “看著答案” 行動(dòng)，大大增強(qiáng)泛化能力。

VPP 視頻預(yù)測結(jié)果與機(jī)器人實(shí)際物理執(zhí)行結(jié)果幾乎一致。能被視頻生成的，就能被機(jī)器人執(zhí)行！

2. 高頻預(yù)測和執(zhí)行：讓機(jī)器人執(zhí)行速度 “更快一步”

AIGC 視頻擴(kuò)散模型雖能生成逼真的視頻，但往往花費(fèi)大量推理時(shí)間。星動(dòng)紀(jì)元研究團(tuán)隊(duì)發(fā)現(xiàn)，不需要精確地預(yù)測未來的每個(gè)像素，通過有效提取視頻模型中間層的表征，單步去噪的預(yù)測就可以蘊(yùn)含大量未來信息。這讓模型預(yù)測時(shí)間小于 150ms，模型的預(yù)測頻率約 6-10hz，通過 action chunk size = 10，模型的控制頻率能超過 50Hz。

如圖所示，單步視頻擴(kuò)散模型預(yù)測已經(jīng)蘊(yùn)含大量未來信息，足夠?qū)崿F(xiàn)高頻預(yù)測（規(guī)劃）和執(zhí)行。

3. 跨本體學(xué)習(xí)：讓機(jī)器人先驗(yàn)知識(shí)流通 “暢通無阻”

如何利用不同本體的機(jī)器人數(shù)據(jù)是一個(gè)巨大的難題。VLA 模型只能學(xué)習(xí)不同維度的低維度 action 信息，而 VPP 可以直接學(xué)習(xí)各種形態(tài)機(jī)器人的視頻數(shù)據(jù)，不存在維度不同的問題。如果將人類本體也當(dāng)作一種機(jī)器本體，VPP 也可以直接學(xué)習(xí)人類操作數(shù)據(jù)，顯著降低數(shù)據(jù)獲取成本。同時(shí)視頻數(shù)據(jù)也包含比低維度動(dòng)作更加豐富的信息，大大提高模型泛化能力。

VPP 能學(xué)習(xí)跨本體的豐富視頻數(shù)據(jù)，相比之下，VLA 只能學(xué)習(xí)維度不一致的低維動(dòng)作信號(hào)。

4. 基準(zhǔn)測試領(lǐng)先：讓機(jī)器人性能 “一騎絕塵”

在 Calvin ABC-D 基準(zhǔn)測試中，實(shí)現(xiàn)了 4.33 的任務(wù)完成平均長度，已經(jīng)接近任務(wù)的滿分 5.0。相較于先前技術(shù)，VPP 實(shí)現(xiàn)了 41.5% 的顯著提升。

左圖為 Calvin ABC-D 任務(wù)的平均長度對比，右圖為 Real-World Dexterous Hand 任務(wù)的成功率對比。可以看出，VPP 方法在這兩項(xiàng)指標(biāo)中均取得了最佳表現(xiàn)，在仿真環(huán)境任務(wù)完成平均長度達(dá)到 4.33，真機(jī)測試成功率為 67%，顯著優(yōu)于其他方法。

5. 真實(shí)世界靈巧操作：讓機(jī)器人靈巧操作 “舉一反三”

在真實(shí)世界的測試中，VPP 模型展現(xiàn)出了驚人的多任務(wù)學(xué)習(xí)能力和泛化能力。在星動(dòng)紀(jì)元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺(tái)，VPP 能使用一個(gè)網(wǎng)絡(luò)完成 100+ 種復(fù)雜靈巧操作任務(wù)，例如抓取、放置、堆疊、倒水、工具使用等，在雙臂人形機(jī)器人平臺(tái)能完成 50+ 種復(fù)雜靈巧操作任務(wù)。

6. 可解釋性與調(diào)試優(yōu)化：讓機(jī)器人 “透明可控”

VPP 的預(yù)測視覺表示在一定程度上是可解釋的，開發(fā)者在不通過 real-world 測試情況下，通過預(yù)測的視頻來提前發(fā)現(xiàn)失敗的場景和任務(wù)，進(jìn)行針對性的調(diào)試和優(yōu)化。

而 VLA 模型是完全端到端的模型，開發(fā)者在調(diào)試優(yōu)化中需要大量真實(shí)世界的測試來找到模型漏洞，需要花費(fèi)大量的時(shí)間。

寫在最后

然而，就像在大模型領(lǐng)域 LLM 和生成式模型并存且互相借鑒融合的現(xiàn)狀一樣，VPP 作為首個(gè) AIGC 生成式機(jī)器人大模型與 PI 等 VLA 大模型也會(huì)相互促進(jìn)和借鑒。

相信在行業(yè)不斷開源優(yōu)質(zhì)模型與技術(shù)的有力推動(dòng)下，機(jī)器人技術(shù)將會(huì)邁向一個(gè)嶄新的階段，而具身 AGI 也將沿著這條創(chuàng)新之路大步走來，與我們的距離越來越近，一個(gè)充滿無限可能的智能未來正在朝我們招手。

以下是 VPP 項(xiàng)目開源部署 Tips，供各位開發(fā)者參考：

所有實(shí)驗(yàn)均使用一個(gè)節(jié)點(diǎn)（8 卡 A800/H100）完成；
詳細(xì)操作說明可在開源 GitHub 中找到；
實(shí)驗(yàn)仿真平臺(tái)是標(biāo)準(zhǔn) Calvin abc-d Benchmark；
實(shí)驗(yàn)真機(jī)平臺(tái)為星動(dòng)紀(jì)元仿人五指靈巧手星動(dòng) XHAND1 以及全尺寸人形機(jī)器人星動(dòng) STAR1。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AIGC 生成機(jī)器人

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="5fq9c"></style>