自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tfoot id="gb6ot"></tfoot>

<style id="gb6ot"></style>

<blockquote id="gb6ot"><p id="gb6ot"></p></blockquote>

^{<blockquote id="gb6ot"></blockquote>}

<cite id="gb6ot"><track id="gb6ot"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降

發(fā)布于 2024-12-2 13:27

瀏覽

0收藏

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2411.02359
項目鏈接：https://github.com/yueyang130/DeeR-VLA

亮點直擊

提出動態(tài)早退出機制 DeeR：框架基于動態(tài)神經(jīng)網(wǎng)絡(luò)的思想，能自動調(diào)整 MLLM 模型的大小，根據(jù)機器人面臨的實際情況動態(tài)激活模型所需的層數(shù)，減少不必要的計算消耗。
實現(xiàn)高效的資源利用：DeeR 在推理過程中對不同復(fù)雜度的情境適應(yīng)性地分配計算資源，簡單場景下使用較小的模型以節(jié)省資源，復(fù)雜場景下則調(diào)用更大的模型。
靈活的計算成本控制：DeeR 提供了可調(diào)的早退出準則，用戶可以根據(jù)計算資源的需求（如功耗、延遲或 GPU 內(nèi)存使用）在線調(diào)整終止標準，實現(xiàn)靈活的資源管理。
性能優(yōu)化與資源節(jié)約顯著：在 CALVIN 基準測試中，DeeR 實現(xiàn)了計算成本 5.2-6.5 倍的降低。

與其他 SOTA 方法相比，在僅使用 2GB GPU 內(nèi)存的條件下保持競爭力。這表明 DeeR 能在資源有限的平臺上高效運行，有望推動多模態(tài)大模型在機器人領(lǐng)域的廣泛應(yīng)用。

總結(jié)速覽

解決的問題

當前多模態(tài)大模型 (MLLMs) 在理解復(fù)雜人類指令并執(zhí)行各種任務(wù)方面展現(xiàn)出強大能力，但在實際機器人中的應(yīng)用受限于其對計算能力和內(nèi)存的高需求，難以在資源有限的機器人平臺上有效運行。

提出的方案

提出了一個動態(tài)早退出框架，稱為DeeR-VLA (Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model) ，能夠根據(jù)不同情境自動調(diào)整激活模型的大小，從而減少不必要的計算負擔。此方案采用多出口結(jié)構(gòu)，允許模型在適當?shù)臅r機結(jié)束處理，避免冗余計算。

應(yīng)用的技術(shù)

多出口架構(gòu)：使得模型可在特定情境下提前結(jié)束處理，減少計算消耗。
早退出算法：根據(jù)預(yù)設(shè)的計算資源需求（如平均計算成本、峰值計算消耗及 GPU 內(nèi)存使用）制定早終止標準，確保 DeeR 在不同資源限制下高效運行。
時間信息集成的訓(xùn)練方法：在多出口架構(gòu)上集成時間信息以合理預(yù)測動作。

達到的效果

在 CALVIN 機器人操作基準測試中，DeeR 實現(xiàn)了 5.2-6.5 倍的計算成本降低和 2-6 倍的 GPU 內(nèi)存消耗減少，同時保持了性能不變。這些提升使得 DeeR 能在資源有限的條件下高效運行。

動態(tài)早退出的機器人 MLLM

MLLM 強大的任務(wù)指令理解和視覺定位能力展示了其在語言指導(dǎo)的多任務(wù)機器人操作方面的巨大潛力。然而，現(xiàn)有工作通常計算量巨大，因為機器人動作是通過推理 MLLM 的所有層來獲得的。在每個時間步，這一過程可能會激活數(shù)十億的參數(shù)，導(dǎo)致大量的計算和內(nèi)存需求，從而帶來顯著的延遲和功耗。這些低效通常是實際機器人應(yīng)用的重要瓶頸。

概述通過利用一個有趣的觀察來解決這個問題：在控制機器人完成各種任務(wù)的過程中，相對“簡單”的情境占據(jù)了大部分，這些情境通常只需要較小的模型即可獲得正確的機器人動作（如下表 1 所示）。受這一現(xiàn)象的啟發(fā)，本文提出了機器人 MLLM 的動態(tài)早退出方法 (DeeR)，旨在通過為每種情況動態(tài)采用適當?shù)?MLLM 大小來提高機器人 MLLM 系統(tǒng)的計算效率。具體而言，首先開發(fā)了一種具有多個中間出口的新型 MLLM 架構(gòu)。因此，給定一個輸入，一旦激活了足夠數(shù)量的模型參數(shù)，就可以立即獲取適當?shù)臋C器人動作，從而避免進一步的冗余計算。然后，在任意指定的平均計算成本和峰值計算成本或 GPU 內(nèi)存開銷的需求下，為 DeeR 建立了早終止準則。最后，提出了本文模型的定制訓(xùn)練算法，展示了如何在這一動態(tài)網(wǎng)絡(luò)的基礎(chǔ)上集成時間信息并合理預(yù)測機器人動作。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

機器人多出口架構(gòu)

首先引入了一個具有多個中間出口的 MLLM 架構(gòu)，能夠根據(jù)機器人面臨的不同情況動態(tài)調(diào)整 MLLM 的大小。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

自適應(yīng)推理

本節(jié)展示了 DeeR 如何在預(yù)定義的計算和 GPU 內(nèi)存限制下，通過自適應(yīng)地激活適當大小的 MLLM 來高效地執(zhí)行機器人任務(wù)。首先討論 DeeR 所使用的終止準則，該準則旨在在較簡單的場景中激活較小的模型，而在更具挑戰(zhàn)性的條件下激活較大的模型。接下來，探討一種有效的資源分配策略，以應(yīng)對計算和 GPU 內(nèi)存的限制。DeeR 的推理過程如下圖 1 所示。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

滿足以下約束條件:

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

使用在線交互求解。如果可以與真實環(huán)境交互，可以利用在線學習算法，通過關(guān)于成功率的反饋逐步調(diào)整閾值。為了在預(yù)算約束下求解方程 (4)，實現(xiàn)了貝葉斯優(yōu)化。構(gòu)造的貝葉斯優(yōu)化目標函數(shù)如下，以最大化：

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

訓(xùn)練算法

訓(xùn)練動態(tài)機器人 MLLM 并非易事。特別是，網(wǎng)絡(luò)架構(gòu)的動態(tài)調(diào)整導(dǎo)致了訓(xùn)練和推理之間的差異。在推理過程中，使用確定性的標準在每個時間步選擇適當?shù)闹虚g特征。然而，在訓(xùn)練過程中，沒有明確定義的終止標準，而且不知道特征在各個出口之間的分布。為了有效地集成時間信息，提出了一個量身定制的訓(xùn)練算法。

使用任意大小的模型進行學習為了減少上述差異，在訓(xùn)練期間引入了一種簡單而有效的隨機采樣策略。如上面圖 1 右側(cè)的“螺旋”曲線所示，本文的方法涉及在每個時間步從 1 到 N的出口索引中進行采樣。實現(xiàn)了兩種采樣策略：

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

通過以下?lián)p失函數(shù)聯(lián)合訓(xùn)練輔助頭和 MLLM：

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

實驗

設(shè)置 本節(jié)進行實驗驗證 DeeR 作為一種高效機器人策略的有效性?；?RoboFlamingo++ 代碼庫構(gòu)建 DeeR。為了公平比較，保留了 RoboFlamingo++ 中的超參數(shù)，唯一的區(qū)別是 LLM 層數(shù)和提出的動態(tài)早期退出范式。將 DeeR 在預(yù)算與性能之間進行比較，涉及類似規(guī)模的 RoboFlamingo++ 模型和其他最先進的基準。

效率衡量 在現(xiàn)代基礎(chǔ)模型中，LLM 通常在 MLLM 中扮演著關(guān)鍵角色，負責推理和問題解決任務(wù)，且通常包含了模型的大部分參數(shù)。本文主要聚焦于提高 LLM 在機器人領(lǐng)域的效率。為了方便進行針對性的比較，實驗中報告了 LLM 推理過程中的浮點運算數(shù)（FLOPs）和 GPU 內(nèi)存使用量。

基準測試 使用 CALVIN 長時域多任務(wù)語言控制基準（LH-MTLC）作為測試平臺，測試學習到的多任務(wù)、語言條件策略。在 CALVIN 中，目標是讓智能體成功完成任務(wù)序列，每個任務(wù)序列包含五個子任務(wù)，并用自然語言描述。根據(jù)以往的工作[10, 12, 13, 9]，模型的性能是通過在 1000 個任務(wù)序列中，成功完成的任務(wù)數(shù)的平均值來評估的（范圍從 0 到 5）。

數(shù)據(jù)集 CALVIN 數(shù)據(jù)集分為四個環(huán)境分割，分別標記為 A 到 D，每個分割都有獨特的背景和物體配置。每個分割包含超過 200 萬個機器人操作軌跡（稱為 "ALL"）。其中，大約 1%（約 2.4 萬個軌跡）帶有語言指令（稱為 "LANG"）。在訓(xùn)練 DeeR 時，僅使用 "LANG" 數(shù)據(jù)。在本文的研究中，為了全面評估其模仿和泛化能力，在以下三種設(shè)置下評估模型：

D→D：在單一環(huán)境中訓(xùn)練和評估。
ABC→D：零樣本多環(huán)境。
ABCD→D：多環(huán)境。

基準模型 為了進行全面比較，考慮了多個基準模型。包括了 HULC 和 SPIL 作為依賴于層次化規(guī)劃和技能先驗的代表方法。此外，還評估了使用預(yù)訓(xùn)練或基礎(chǔ)模型的模型，例如 RT-1、SuSIE 、GR-1 和 RoboFlamingo。RoboFlamingo++ 是重新實現(xiàn)的 RoboFlamingo。

主要結(jié)果

Flamingo 3B的結(jié)果 Flamingo 3B的實驗結(jié)果如下圖3所示。在每個CALVIN設(shè)置中，僅訓(xùn)練了一個模型。在給定預(yù)定義的總計算預(yù)算B、最大浮點運算數(shù)G和GPU內(nèi)存M后，通過調(diào)整終止閾值來遵守這些預(yù)算，終止閾值通過解方程(4)并使用CALVIN數(shù)據(jù)集來確定。然后，評估DeeR在不同閾值下的平均成功長度，并繪制曲線?？梢杂^察到，DeeR始終能在所有設(shè)置中減少LLM的計算成本。例如，在設(shè)置D→D中，DeeR在平均成功長度為2.71的情況下，平均FLOPs減少了5.9倍，最大FLOPs和GPU內(nèi)存分別減少了2倍。令人驚訝的是，DeeR-S在僅使用2GB內(nèi)存的情況下，仍能實現(xiàn)相對較高的性能，這對于大多數(shù)用戶來說是可承受的。因此，DeeR展示了使更廣泛的用戶能夠高效地使用LLM操作機器人系統(tǒng)的潛力。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

與最先進基準的比較 下表2中，將DeeR模型與最近的最先進方法進行了基準測試，特別是在CALVIN基準測試中。通過分析表明，DeeR與使用額外本體感知信息的最新SOTA模型GR-1相比，達到了具有競爭力的性能。與沒有使用基礎(chǔ)模型的傳統(tǒng)模仿學習方法相比，DeeR表現(xiàn)出更優(yōu)越的性能，特別是在泛化場景（ABC→D）中。此外，DeeR在減少計算的同時，稍微優(yōu)于RoboFlamingo。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

通過在線交互求解閾值

當可以與環(huán)境進行交互時，使用貝葉斯優(yōu)化來求解方程(4)。如上表2所示，發(fā)現(xiàn)通過在線交互求解閾值，在低數(shù)據(jù)環(huán)境（D→D）和對未見情況的泛化（ABC→D）等挑戰(zhàn)性場景中特別有效。

DeeR的可擴展性

在OpenFlamingo 9B 之上開發(fā)了DeeR，以評估其在擴展基礎(chǔ)模型時的效率。下圖4中的結(jié)果表明，DeeR在保持相同性能的情況下，減少了1.8至5.7倍的計算量，并且峰值FLOPs和內(nèi)存減少了2.7到4.0倍。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

可視化

下圖5展示了DeeR的滾動效果以及終止點。具有較高退出索引的情況被DeeR視為“更難”的任務(wù)，因此會分配更多的計算資源?？梢杂^察到，“困難”情況通常涉及相對復(fù)雜和精細的操作，而“簡單”情況通常涉及朝目標物體的直接移動。例如，在堆疊積木的任務(wù)中（第1行），從桌面提起藍色積木（第1張圖）并將其放置到粉色積木上（第4和第5張圖）需要更多的計算，而簡單地朝粉色積木移動（第2和第3張圖）只需要最小的LLM來處理。在第2行和第3行中也觀察到類似的情況，朝目標物體移動的階段需要的計算量最小，而推動燈泡開關(guān)或移動滑動門則是復(fù)雜的操作，需要更多的LLM處理。

多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降-AI.x社區(qū)

結(jié)論與局限性

本文提出了用于機器人MLLM的動態(tài)提前退出（DeeR）框架，旨在根據(jù)機器人代理所遇到的每個情況的具體需求動態(tài)配置MLLM的大小。具體來說，提出了一種新型的具有多個中間退出的MLLM架構(gòu)。此外，為DeeR建立了基于動作一致性的提前終止標準，并通過數(shù)據(jù)集或在線交互解決閾值問題。本文設(shè)計了一種定制的訓(xùn)練方法，將時間信息集成到這個多退出框架中，以增強機器人控制能力。大量的機器人實驗表明，DeeR顯著減少了LLM的計算成本和GPU內(nèi)存使用，突顯了其在資源受限的平臺上幫助更廣泛的用戶管理機器人操作的潛力。

盡管本文的研究顯示了有希望的結(jié)果，但也存在一些局限性。本文專注于提高機器人執(zhí)行中的LLM效率，因為LLM占據(jù)了大部分參數(shù)和GFLOPs。然而，視覺編碼器的計算成本也是顯著的。隨著更高效、輕量級的視覺編碼器的開發(fā)，這一局限性將得到緩解。此外，本文的實驗僅限于一個模擬基準。未來的工作將致力于改善整個基于MLLM的機器人系統(tǒng)在真實環(huán)境中的推理效率。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/EgpO2TTtmqJu6pIrDDbftA??

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

造完“大模型”，“具身智能”將引領(lǐng)AI下一個浪潮？

kekenai ? 2999瀏覽 ? 0回復(fù)
圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer?。ū贝?amp;字節(jié)）

angel ? 1.1w瀏覽 ? 0回復(fù)
Meta推出開放世界具身問答數(shù)據(jù)集OpenEQA：視覺大模型在具身智能上還有很長的路要走！

AIGC最前線 ? 3308瀏覽 ? 0回復(fù)
4倍內(nèi)存效率，生成和超分雙SOTA！清華&智譜AI發(fā)布最新Inf-DiT模型

angel ? 6620瀏覽 ? 0回復(fù)
具身智能體三維感知新鏈條，TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」

輕薄滴假象 ? 3180瀏覽 ? 0回復(fù)
上海交大&阿里巴巴推出虛擬試衣新里程碑式工作——AnyFit：任意場景、任意組合！

angel ? 2745瀏覽 ? 0回復(fù)
大語言模型的前世今生：萬字長文完整梳理所有里程碑式大語言模型（LLMs）

angel ? 6911瀏覽 ? 0回復(fù)
具身智能成敗之關(guān)鍵！干貨長文首次全面回顧具身智能領(lǐng)域中的視覺-語言-動作模型！

angel ? 5554瀏覽 ? 0回復(fù)
讓具身智能更快更強！華東師大&上大提出TinyVLA：高效視覺-語言-動作模型，遙遙領(lǐng)先

angel ? 2619瀏覽 ? 0回復(fù)
什么是具身智能模型，它和普通大模型有什么區(qū)別？

AI探索時代 ? 2829瀏覽 ? 0回復(fù)
自回歸視覺生成里程碑！比ControlNet和T2I-Adapter 快五倍！北大&騰訊等重磅發(fā)布CAR

angel ? 2175瀏覽 ? 0回復(fù)
NeurIPS`24 | 超25萬對助力具身智能！3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI

angel ? 2904瀏覽 ? 0回復(fù)
超越SDEdit等七大SOTA，免訓(xùn)練多模態(tài)圖像編輯里程碑：HeadRouter帶來精準語義調(diào)整

angel ? 2073瀏覽 ? 0回復(fù)
亞馬遜Nova大模型家族：AI技術(shù)的新里程碑 | 1000個人的數(shù)字分身：AI如何精準模擬人類行為？

sbf_2000 ? 2229瀏覽 ? 0回復(fù)
突破算力限制！Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

Aceryt ? 1994瀏覽 ? 0回復(fù)
醫(yī)學領(lǐng)域大模型與多模態(tài)大模型的綜合調(diào)查

知識圖譜科技 ? 2085瀏覽 ? 0回復(fù)
谷歌開源Gemma-3：媲美DeepSeek，算力暴降10倍

Aceryt ? 2158瀏覽 ? 0回復(fù)
Muon優(yōu)化器：AI模型訓(xùn)練算法的下一個里程碑？| 目前還不是業(yè)界焦點，但有潛力是重大基礎(chǔ)創(chuàng)新

后向傳播 ? 621瀏覽 ? 0回復(fù)
大模型驅(qū)動空間智能綜述：具身智能體、智慧城市與地球科學的進展

歐米伽未來研究所 ? 426瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

Seedream 3.0技術(shù)細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：革新3D材質(zhì)生成！Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

下一篇：突破空間限制！從2D到3D：北大等開源Lift3D，助力精準具身智能操作！

社區(qū)精華內(nèi)容

目錄

^{<thead id="1tyvo"></thead>}<sup id="1tyvo"></sup>