數(shù)據(jù)不夠致Scaling Law撞墻?CMU和DeepMind新方法可讓VLM自己生成記憶
最近 AI 社區(qū)很多人都在討論 Scaling Law 是否撞墻的問題。其中,一個支持 Scaling Law 撞墻論的理由是 AI 幾乎已經(jīng)快要耗盡已有的高質(zhì)量數(shù)據(jù),比如有一項(xiàng)研究就預(yù)計(jì),如果 LLM 保持現(xiàn)在的發(fā)展勢頭,到 2028 年左右,已有的數(shù)據(jù)儲量將被全部利用完。
圖源:Will we run out of data? Limits of LLM scaling based on human-generated data
卡內(nèi)基?梅隆大學(xué)(CMU)和 Google DeepMind 的一篇標(biāo)題為「VLM 智能體生成自己的記憶:將經(jīng)驗(yàn)蒸餾成具身思維程序」的研究發(fā)現(xiàn),通過使用低質(zhì)量數(shù)據(jù)和反饋,或許能夠解決這個高質(zhì)量數(shù)據(jù)不足的問題。其中提出的 ICAL 可讓 LLM 和 VLM 根據(jù)次優(yōu)演示和人工反饋創(chuàng)建有效的提示詞,從而改善決策并減少對專家演示的依賴。該論文是 NeurIPS 2024 的 Spotlight 論文,項(xiàng)目代碼也已發(fā)布。
- 論文標(biāo)題:VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
- 論文地址:https://openreview.net/pdf?id=5G7MRfPngt
- 項(xiàng)目地址:https://ical-learning.github.io/
- 代碼地址:https://github.com/Gabesarch/ICAL
我們知道,人類具有非常出色的少樣本學(xué)習(xí)能力,通過將觀察到的行為與內(nèi)部世界模型相結(jié)合,可以從單一任務(wù)演示快速泛化到相關(guān)的情況。人類能分辨出與成功相關(guān)或不相關(guān)的因素,并預(yù)測可能的失敗。通過反復(fù)練習(xí)和反饋,人類能很快找到正確的抽象,從而幫助模仿和調(diào)整任務(wù)以適應(yīng)各種情況。這個過程可促進(jìn)在各種任務(wù)和環(huán)境中不斷改進(jìn)和遷移知識。
最近有研究探索了使用大型語言模型(LLM)和視覺 - 語言模型(VLM)來從軌跡和經(jīng)驗(yàn)中提取高層級見解。這些見解是模型通過內(nèi)省(introspection)產(chǎn)生的,而通過將它們附加到提示詞之后,可以提升其性能 —— 這就用到了它們強(qiáng)大的上下文學(xué)習(xí)能力。
現(xiàn)有的方法通常更關(guān)注語言上的任務(wù)獎勵信號、存儲失敗之后的人類更正、使用領(lǐng)域?qū)<襾砣斯ぞ帉懟蛉斯ぬ暨x示例(無需內(nèi)?。?、或使用語言來塑造策略和獎勵。關(guān)鍵在于,這些方法通常都是基于文本的,并不包含任何視覺提示或演示,或者僅在失敗的情況下使用自省,但這只是人類和機(jī)器整合經(jīng)驗(yàn)和提取見解的幾種方式之一。
而 CMU 和 DeepMind 這個研究團(tuán)隊(duì)的做法是:給定次優(yōu)的演示和人類自然語言反饋,通過學(xué)習(xí)上下文經(jīng)驗(yàn)抽象來讓 VLM 學(xué)習(xí)解決新任務(wù)。這種方法被命名為 In-Context Abstraction Learning(ICAL),即上下文抽象學(xué)習(xí)。
上下文抽象學(xué)習(xí)究竟如何學(xué)習(xí)?
ICAL 這種方法可通過提示,讓 VLM 創(chuàng)建用于不熟悉領(lǐng)域的多模態(tài)抽象。
我們知道,之前的研究工作通常僅存儲和檢索成功的動作規(guī)劃或軌跡。但 ICAL 不一樣,強(qiáng)調(diào)的是學(xué)習(xí)抽象(abstraction),而這種所謂的抽象實(shí)際上包含了有關(guān)任務(wù)的動態(tài)和關(guān)鍵知識,如圖 1 所示。
具體來說,ICAL 可處理四種類型的認(rèn)知抽象:
- 任務(wù)和因果關(guān)系,確定實(shí)現(xiàn)目標(biāo)所需的基本原則或行動,以及要素如何通過因果關(guān)系相互關(guān)聯(lián);
- 對象狀態(tài)的變化,描述對象將采取的各種形式或條件;
- 時間抽象,將任務(wù)分解為子目標(biāo);
- 任務(wù)建構(gòu)(task construals),突出任務(wù)中的關(guān)鍵視覺細(xì)節(jié)。
當(dāng)具有最優(yōu)或次優(yōu)演示時,ICAL 可通過提示 VLM 將這些演示轉(zhuǎn)換為優(yōu)化后的軌跡,同時創(chuàng)建相關(guān)的語言和視覺抽象。然后在人類的自然語言反饋的引導(dǎo)下,通過在環(huán)境中執(zhí)行這些軌跡來優(yōu)化這些抽象。
這個抽象生成過程的每一步都會使用之前推導(dǎo)出的抽象,讓模型不僅可以提升自己的執(zhí)行效果,還能提升自己的抽象能力。
圖 2 給出了 ICAL 的概覽。
其中,每一輪迭代都始于一個有噪聲的軌跡。ICAL 會分兩個階段對其進(jìn)行抽象:
- 抽象階段(F_abstract):VLM 會借助語言評論來糾正錯誤,并讓序列更加豐富。這一階段處理的抽象前文已有介紹,而相關(guān)的具體提示詞等請參看原論文附錄部分。
- 有人類參與的階段(human-in-the-loop,記為 F_hitl):在此階段,序列會在環(huán)境中執(zhí)行,其抽象過程由以自然語言傳達(dá)的人類反饋指導(dǎo)。這一階段的具體流程可分為 6 步:優(yōu)化軌跡的執(zhí)行、監(jiān)控與干預(yù)、反饋整合與軌跡修正、環(huán)境重置與重試、成功標(biāo)準(zhǔn)與反饋限度、保存示例。具體詳情請?jiān)L問原論文。
在成功執(zhí)行軌跡之后,它將被存檔在一個持續(xù)增長的范例庫中。這些范例會被用作智能體的上下文參考,用于在學(xué)習(xí)階段和推理階段為未曾見過的指令和環(huán)境提供參考。
總體而言,這種學(xué)習(xí)到的抽象可以總結(jié)有關(guān)動作序列、狀態(tài)遷移、規(guī)則和關(guān)注區(qū)域的關(guān)鍵信息,并可通過自由形式的自然語言和視覺表征明確地表達(dá)出來。
學(xué)習(xí)得到 ICAL 樣本之后,就可以使用檢索增強(qiáng)式生成部署起來,用于新任務(wù)和新環(huán)境。
實(shí)驗(yàn)表明 ICAL 確實(shí)可行
研究者在 TEACh 和 VisualWebArena 中測試了 ICAL 的任務(wù)規(guī)劃能力,并在 Ego4D 基準(zhǔn)測試中測試其動作預(yù)測能力。其中,TEACh 針對的是家庭環(huán)境中的對話式教學(xué),VisualWebArena 則是多模態(tài)自動化網(wǎng)絡(luò)任務(wù),Ego4D 則是用于視頻動作預(yù)測。
首先,該團(tuán)隊(duì)發(fā)現(xiàn),在家庭環(huán)境的指令遵循任務(wù)中,ICAL 優(yōu)于固定的演示。
表 1 列出了在未曾見過的 TEACh 驗(yàn)證集上的研究結(jié)果,其中評估了在新指令、房屋和物體上的性能。
如圖 4 所示,與模仿原始軌跡相比,ICAL 對有噪聲的軌跡進(jìn)行了修正,使訓(xùn)練任務(wù)的成功率更高,動覺演示和視覺演示的成功率分別提高了 42% 和 86%。這表明 ICAL 不僅增加了有用的抽象概念,還糾正了被動視頻演示中的錯誤,提高了在原始演示環(huán)境中的成功率。
如表 1 所示,在未見過的任務(wù)上,ICAL 的表現(xiàn)優(yōu)于作為上下文示例的未被處理的演示,其成功率比帶有預(yù)測動作的原始演示提高了 17.9%,比帶有真實(shí)動作注釋的演示提高了 8.6%。這凸顯了新提出的抽象方法在提高樣本質(zhì)量以改進(jìn)上下文學(xué)習(xí)方面的有效性,這不同于之前的主要方法,即保存和檢索成功的行動規(guī)劃或軌跡但不進(jìn)行抽象。
另外,在視覺網(wǎng)絡(luò)任務(wù)上,ICAL 也獲得了 SOTA 性能。在 VisualWebArena 上,新智能體超過了 GPT4 + Set of Marks 的組合,使用 GPT4V 時從 14.3% 提高到 22.7%,使用 GPT4o 時從 18.9% 提高到 23.4%。
在 Ego4D 設(shè)置中,ICAL 的表現(xiàn)優(yōu)于使用思維鏈的少樣本 GPT4V,分別將名詞和動作編輯距離縮短了 6.4 和 1.7,并且與完全監(jiān)督式方法相差無幾 —— 但使用的領(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù)減少了 639 倍。
總體來說,新方法可顯著減少對專家示例的依賴,并且相比于使用「缺乏此類抽象的動作規(guī)劃和軌跡」的上下文學(xué)習(xí),新方法始終更優(yōu)。
此外,隨著示例數(shù)量增長,ICAL 也能獲得明顯的提升。這表明這種新方法也能很好地 Scaling。