多模態(tài)大模型在具身智能領(lǐng)域里程碑工作!清華&字節(jié)開源DeeR-VLA:讓算力內(nèi)存雙降
文章鏈接:https://arxiv.org/pdf/2411.02359
項目鏈接:https://github.com/yueyang130/DeeR-VLA
亮點直擊
- 提出動態(tài)早退出機制 DeeR:框架基于動態(tài)神經(jīng)網(wǎng)絡(luò)的思想,能自動調(diào)整 MLLM 模型的大小,根據(jù)機器人面臨的實際情況動態(tài)激活模型所需的層數(shù),減少不必要的計算消耗。
- 實現(xiàn)高效的資源利用:DeeR 在推理過程中對不同復(fù)雜度的情境適應(yīng)性地分配計算資源,簡單場景下使用較小的模型以節(jié)省資源,復(fù)雜場景下則調(diào)用更大的模型。
- 靈活的計算成本控制:DeeR 提供了可調(diào)的早退出準則,用戶可以根據(jù)計算資源的需求(如功耗、延遲或 GPU 內(nèi)存使用)在線調(diào)整終止標準,實現(xiàn)靈活的資源管理。
- 性能優(yōu)化與資源節(jié)約顯著:在 CALVIN 基準測試中,DeeR 實現(xiàn)了計算成本 5.2-6.5 倍的降低。
與其他 SOTA 方法相比,在僅使用 2GB GPU 內(nèi)存的條件下保持競爭力。這表明 DeeR 能在資源有限的平臺上高效運行,有望推動多模態(tài)大模型在機器人領(lǐng)域的廣泛應(yīng)用。
總結(jié)速覽
解決的問題
當前多模態(tài)大模型 (MLLMs) 在理解復(fù)雜人類指令并執(zhí)行各種任務(wù)方面展現(xiàn)出強大能力,但在實際機器人中的應(yīng)用受限于其對計算能力和內(nèi)存的高需求,難以在資源有限的機器人平臺上有效運行。
提出的方案
提出了一個動態(tài)早退出框架,稱為DeeR-VLA (Dynamic Early-Exit Framework for Robotic Vision-Language-Action Model) ,能夠根據(jù)不同情境自動調(diào)整激活模型的大小,從而減少不必要的計算負擔。此方案采用多出口結(jié)構(gòu),允許模型在適當?shù)臅r機結(jié)束處理,避免冗余計算。
應(yīng)用的技術(shù)
- 多出口架構(gòu):使得模型可在特定情境下提前結(jié)束處理,減少計算消耗。
- 早退出算法:根據(jù)預(yù)設(shè)的計算資源需求(如平均計算成本、峰值計算消耗及 GPU 內(nèi)存使用)制定早終止標準,確保 DeeR 在不同資源限制下高效運行。
- 時間信息集成的訓(xùn)練方法:在多出口架構(gòu)上集成時間信息以合理預(yù)測動作。
達到的效果
在 CALVIN 機器人操作基準測試中,DeeR 實現(xiàn)了 5.2-6.5 倍的計算成本降低和 2-6 倍的 GPU 內(nèi)存消耗減少,同時保持了性能不變。這些提升使得 DeeR 能在資源有限的條件下高效運行。
動態(tài)早退出的機器人 MLLM
MLLM 強大的任務(wù)指令理解和視覺定位能力展示了其在語言指導(dǎo)的多任務(wù)機器人操作方面的巨大潛力。然而,現(xiàn)有工作通常計算量巨大,因為機器人動作是通過推理 MLLM 的所有層來獲得的。在每個時間步,這一過程可能會激活數(shù)十億的參數(shù),導(dǎo)致大量的計算和內(nèi)存需求,從而帶來顯著的延遲和功耗。這些低效通常是實際機器人應(yīng)用的重要瓶頸。
概述 通過利用一個有趣的觀察來解決這個問題:在控制機器人完成各種任務(wù)的過程中,相對“簡單”的情境占據(jù)了大部分,這些情境通常只需要較小的模型即可獲得正確的機器人動作(如下表 1 所示)。受這一現(xiàn)象的啟發(fā),本文提出了機器人 MLLM 的動態(tài)早退出方法 (DeeR),旨在通過為每種情況動態(tài)采用適當?shù)?MLLM 大小來提高機器人 MLLM 系統(tǒng)的計算效率。具體而言,首先開發(fā)了一種具有多個中間出口的新型 MLLM 架構(gòu)。因此,給定一個輸入,一旦激活了足夠數(shù)量的模型參數(shù),就可以立即獲取適當?shù)臋C器人動作,從而避免進一步的冗余計算。然后,在任意指定的平均計算成本和峰值計算成本或 GPU 內(nèi)存開銷的需求下,為 DeeR 建立了早終止準則。最后,提出了本文模型的定制訓(xùn)練算法,展示了如何在這一動態(tài)網(wǎng)絡(luò)的基礎(chǔ)上集成時間信息并合理預(yù)測機器人動作。
機器人多出口架構(gòu)
首先引入了一個具有多個中間出口的 MLLM 架構(gòu),能夠根據(jù)機器人面臨的不同情況動態(tài)調(diào)整 MLLM 的大小。
自適應(yīng)推理
本節(jié)展示了 DeeR 如何在預(yù)定義的計算和 GPU 內(nèi)存限制下,通過自適應(yīng)地激活適當大小的 MLLM 來高效地執(zhí)行機器人任務(wù)。首先討論 DeeR 所使用的終止準則,該準則旨在在較簡單的場景中激活較小的模型,而在更具挑戰(zhàn)性的條件下激活較大的模型。接下來,探討一種有效的資源分配策略,以應(yīng)對計算和 GPU 內(nèi)存的限制。DeeR 的推理過程如下圖 1 所示。
滿足以下約束條件:
使用在線交互求解。如果可以與真實環(huán)境交互,可以利用在線學習算法,通過關(guān)于成功率的反饋逐步調(diào)整閾值。為了在預(yù)算約束下求解方程 (4),實現(xiàn)了貝葉斯優(yōu)化。構(gòu)造的貝葉斯優(yōu)化目標函數(shù)如下,以最大化:
訓(xùn)練算法
訓(xùn)練動態(tài)機器人 MLLM 并非易事。特別是,網(wǎng)絡(luò)架構(gòu)的動態(tài)調(diào)整導(dǎo)致了訓(xùn)練和推理之間的差異。在推理過程中,使用確定性的標準在每個時間步選擇適當?shù)闹虚g特征。然而,在訓(xùn)練過程中,沒有明確定義的終止標準,而且不知道特征在各個出口之間的分布。為了有效地集成時間信息,提出了一個量身定制的訓(xùn)練算法。
使用任意大小的模型進行學習為了減少上述差異,在訓(xùn)練期間引入了一種簡單而有效的隨機采樣策略。如上面圖 1 右側(cè)的“螺旋”曲線所示,本文的方法涉及在每個時間步從 1 到 N的出口索引中進行采樣。實現(xiàn)了兩種采樣策略:
通過以下?lián)p失函數(shù)聯(lián)合訓(xùn)練輔助頭和 MLLM:
實驗
設(shè)置 本節(jié)進行實驗驗證 DeeR 作為一種高效機器人策略的有效性?;?RoboFlamingo++ 代碼庫構(gòu)建 DeeR。為了公平比較,保留了 RoboFlamingo++ 中的超參數(shù),唯一的區(qū)別是 LLM 層數(shù)和提出的動態(tài)早期退出范式。將 DeeR 在預(yù)算與性能之間進行比較,涉及類似規(guī)模的 RoboFlamingo++ 模型和其他最先進的基準。
效率衡量 在現(xiàn)代基礎(chǔ)模型中,LLM 通常在 MLLM 中扮演著關(guān)鍵角色,負責推理和問題解決任務(wù),且通常包含了模型的大部分參數(shù)。本文主要聚焦于提高 LLM 在機器人領(lǐng)域的效率。為了方便進行針對性的比較,實驗中報告了 LLM 推理過程中的浮點運算數(shù)(FLOPs)和 GPU 內(nèi)存使用量。
基準測試 使用 CALVIN 長時域多任務(wù)語言控制基準(LH-MTLC)作為測試平臺,測試學習到的多任務(wù)、語言條件策略。在 CALVIN 中,目標是讓智能體成功完成任務(wù)序列,每個任務(wù)序列包含五個子任務(wù),并用自然語言描述。根據(jù)以往的工作[10, 12, 13, 9],模型的性能是通過在 1000 個任務(wù)序列中,成功完成的任務(wù)數(shù)的平均值來評估的(范圍從 0 到 5)。
數(shù)據(jù)集 CALVIN 數(shù)據(jù)集分為四個環(huán)境分割,分別標記為 A 到 D,每個分割都有獨特的背景和物體配置。每個分割包含超過 200 萬個機器人操作軌跡(稱為 "ALL")。其中,大約 1%(約 2.4 萬個軌跡)帶有語言指令(稱為 "LANG")。在訓(xùn)練 DeeR 時,僅使用 "LANG" 數(shù)據(jù)。在本文的研究中,為了全面評估其模仿和泛化能力,在以下三種設(shè)置下評估模型:
- D→D:在單一環(huán)境中訓(xùn)練和評估。
- ABC→D:零樣本多環(huán)境。
- ABCD→D:多環(huán)境。
基準模型 為了進行全面比較,考慮了多個基準模型。包括了 HULC 和 SPIL 作為依賴于層次化規(guī)劃和技能先驗的代表方法。此外,還評估了使用預(yù)訓(xùn)練或基礎(chǔ)模型的模型,例如 RT-1、SuSIE 、GR-1 和 RoboFlamingo。RoboFlamingo++ 是重新實現(xiàn)的 RoboFlamingo。
主要結(jié)果
Flamingo 3B的結(jié)果 Flamingo 3B的實驗結(jié)果如下圖3所示。在每個CALVIN設(shè)置中,僅訓(xùn)練了一個模型。在給定預(yù)定義的總計算預(yù)算B、最大浮點運算數(shù)G和GPU內(nèi)存M后,通過調(diào)整終止閾值來遵守這些預(yù)算,終止閾值通過解方程(4)并使用CALVIN數(shù)據(jù)集來確定。然后,評估DeeR在不同閾值下的平均成功長度,并繪制曲線??梢杂^察到,DeeR始終能在所有設(shè)置中減少LLM的計算成本。例如,在設(shè)置D→D中,DeeR在平均成功長度為2.71的情況下,平均FLOPs減少了5.9倍,最大FLOPs和GPU內(nèi)存分別減少了2倍。令人驚訝的是,DeeR-S在僅使用2GB內(nèi)存的情況下,仍能實現(xiàn)相對較高的性能,這對于大多數(shù)用戶來說是可承受的。因此,DeeR展示了使更廣泛的用戶能夠高效地使用LLM操作機器人系統(tǒng)的潛力。
與最先進基準的比較 下表2中,將DeeR模型與最近的最先進方法進行了基準測試,特別是在CALVIN基準測試中。通過分析表明,DeeR與使用額外本體感知信息的最新SOTA模型GR-1相比,達到了具有競爭力的性能。與沒有使用基礎(chǔ)模型的傳統(tǒng)模仿學習方法相比,DeeR表現(xiàn)出更優(yōu)越的性能,特別是在泛化場景(ABC→D)中。此外,DeeR在減少計算的同時,稍微優(yōu)于RoboFlamingo。
通過在線交互求解閾值
當可以與環(huán)境進行交互時,使用貝葉斯優(yōu)化來求解方程(4)。如上表2所示,發(fā)現(xiàn)通過在線交互求解閾值,在低數(shù)據(jù)環(huán)境(D→D)和對未見情況的泛化(ABC→D)等挑戰(zhàn)性場景中特別有效。
DeeR的可擴展性
在OpenFlamingo 9B 之上開發(fā)了DeeR,以評估其在擴展基礎(chǔ)模型時的效率。下圖4中的結(jié)果表明,DeeR在保持相同性能的情況下,減少了1.8至5.7倍的計算量,并且峰值FLOPs和內(nèi)存減少了2.7到4.0倍。
可視化
下圖5展示了DeeR的滾動效果以及終止點。具有較高退出索引的情況被DeeR視為“更難”的任務(wù),因此會分配更多的計算資源??梢杂^察到,“困難”情況通常涉及相對復(fù)雜和精細的操作,而“簡單”情況通常涉及朝目標物體的直接移動。例如,在堆疊積木的任務(wù)中(第1行),從桌面提起藍色積木(第1張圖)并將其放置到粉色積木上(第4和第5張圖)需要更多的計算,而簡單地朝粉色積木移動(第2和第3張圖)只需要最小的LLM來處理。在第2行和第3行中也觀察到類似的情況,朝目標物體移動的階段需要的計算量最小,而推動燈泡開關(guān)或移動滑動門則是復(fù)雜的操作,需要更多的LLM處理。
結(jié)論與局限性
本文提出了用于機器人MLLM的動態(tài)提前退出(DeeR)框架,旨在根據(jù)機器人代理所遇到的每個情況的具體需求動態(tài)配置MLLM的大小。具體來說,提出了一種新型的具有多個中間退出的MLLM架構(gòu)。此外,為DeeR建立了基于動作一致性的提前終止標準,并通過數(shù)據(jù)集或在線交互解決閾值問題。本文設(shè)計了一種定制的訓(xùn)練方法,將時間信息集成到這個多退出框架中,以增強機器人控制能力。大量的機器人實驗表明,DeeR顯著減少了LLM的計算成本和GPU內(nèi)存使用,突顯了其在資源受限的平臺上幫助更廣泛的用戶管理機器人操作的潛力。
盡管本文的研究顯示了有希望的結(jié)果,但也存在一些局限性。本文專注于提高機器人執(zhí)行中的LLM效率,因為LLM占據(jù)了大部分參數(shù)和GFLOPs。然而,視覺編碼器的計算成本也是顯著的。隨著更高效、輕量級的視覺編碼器的開發(fā),這一局限性將得到緩解。此外,本文的實驗僅限于一個模擬基準。未來的工作將致力于改善整個基于MLLM的機器人系統(tǒng)在真實環(huán)境中的推理效率。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
