自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)不夠致Scaling Law撞墻?CMU和DeepMind新方法可讓VLM自己生成記憶

人工智能
卡內(nèi)基?梅隆大學(xué)(CMU)和 Google DeepMind 的一篇標(biāo)題為「VLM 智能體生成自己的記憶:將經(jīng)驗(yàn)蒸餾成具身思維程序」的研究發(fā)現(xiàn),通過使用低質(zhì)量數(shù)據(jù)和反饋,或許能夠解決這個高質(zhì)量數(shù)據(jù)不足的問題。

最近 AI 社區(qū)很多人都在討論 Scaling Law 是否撞墻的問題。其中,一個支持 Scaling Law 撞墻論的理由是 AI 幾乎已經(jīng)快要耗盡已有的高質(zhì)量數(shù)據(jù),比如有一項(xiàng)研究就預(yù)計(jì),如果 LLM 保持現(xiàn)在的發(fā)展勢頭,到 2028 年左右,已有的數(shù)據(jù)儲量將被全部利用完。

圖片

圖源:Will we run out of data? Limits of LLM scaling based on human-generated data

卡內(nèi)基?梅隆大學(xué)(CMU)和 Google DeepMind 的一篇標(biāo)題為「VLM 智能體生成自己的記憶:將經(jīng)驗(yàn)蒸餾成具身思維程序」的研究發(fā)現(xiàn),通過使用低質(zhì)量數(shù)據(jù)和反饋,或許能夠解決這個高質(zhì)量數(shù)據(jù)不足的問題。其中提出的 ICAL 可讓 LLM 和 VLM 根據(jù)次優(yōu)演示和人工反饋創(chuàng)建有效的提示詞,從而改善決策并減少對專家演示的依賴。該論文是 NeurIPS 2024 的 Spotlight 論文,項(xiàng)目代碼也已發(fā)布。

圖片

  • 論文標(biāo)題:VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
  • 論文地址:https://openreview.net/pdf?id=5G7MRfPngt
  • 項(xiàng)目地址:https://ical-learning.github.io/
  • 代碼地址:https://github.com/Gabesarch/ICAL

我們知道,人類具有非常出色的少樣本學(xué)習(xí)能力,通過將觀察到的行為與內(nèi)部世界模型相結(jié)合,可以從單一任務(wù)演示快速泛化到相關(guān)的情況。人類能分辨出與成功相關(guān)或不相關(guān)的因素,并預(yù)測可能的失敗。通過反復(fù)練習(xí)和反饋,人類能很快找到正確的抽象,從而幫助模仿和調(diào)整任務(wù)以適應(yīng)各種情況。這個過程可促進(jìn)在各種任務(wù)和環(huán)境中不斷改進(jìn)和遷移知識。

最近有研究探索了使用大型語言模型(LLM)和視覺 - 語言模型(VLM)來從軌跡和經(jīng)驗(yàn)中提取高層級見解。這些見解是模型通過內(nèi)省(introspection)產(chǎn)生的,而通過將它們附加到提示詞之后,可以提升其性能 —— 這就用到了它們強(qiáng)大的上下文學(xué)習(xí)能力。

現(xiàn)有的方法通常更關(guān)注語言上的任務(wù)獎勵信號、存儲失敗之后的人類更正、使用領(lǐng)域?qū)<襾砣斯ぞ帉懟蛉斯ぬ暨x示例(無需內(nèi)?。?、或使用語言來塑造策略和獎勵。關(guān)鍵在于,這些方法通常都是基于文本的,并不包含任何視覺提示或演示,或者僅在失敗的情況下使用自省,但這只是人類和機(jī)器整合經(jīng)驗(yàn)和提取見解的幾種方式之一。

而 CMU 和 DeepMind 這個研究團(tuán)隊(duì)的做法是:給定次優(yōu)的演示和人類自然語言反饋,通過學(xué)習(xí)上下文經(jīng)驗(yàn)抽象來讓 VLM 學(xué)習(xí)解決新任務(wù)。這種方法被命名為 In-Context Abstraction Learning(ICAL),即上下文抽象學(xué)習(xí)。

上下文抽象學(xué)習(xí)究竟如何學(xué)習(xí)?


ICAL 這種方法可通過提示,讓 VLM 創(chuàng)建用于不熟悉領(lǐng)域的多模態(tài)抽象。

我們知道,之前的研究工作通常僅存儲和檢索成功的動作規(guī)劃或軌跡。但 ICAL 不一樣,強(qiáng)調(diào)的是學(xué)習(xí)抽象(abstraction),而這種所謂的抽象實(shí)際上包含了有關(guān)任務(wù)的動態(tài)和關(guān)鍵知識,如圖 1 所示。

圖片

具體來說,ICAL 可處理四種類型的認(rèn)知抽象:

  • 任務(wù)和因果關(guān)系,確定實(shí)現(xiàn)目標(biāo)所需的基本原則或行動,以及要素如何通過因果關(guān)系相互關(guān)聯(lián);
  • 對象狀態(tài)的變化,描述對象將采取的各種形式或條件;
  • 時間抽象,將任務(wù)分解為子目標(biāo);
  • 任務(wù)建構(gòu)(task construals),突出任務(wù)中的關(guān)鍵視覺細(xì)節(jié)。

當(dāng)具有最優(yōu)或次優(yōu)演示時,ICAL 可通過提示 VLM 將這些演示轉(zhuǎn)換為優(yōu)化后的軌跡,同時創(chuàng)建相關(guān)的語言和視覺抽象。然后在人類的自然語言反饋的引導(dǎo)下,通過在環(huán)境中執(zhí)行這些軌跡來優(yōu)化這些抽象。

這個抽象生成過程的每一步都會使用之前推導(dǎo)出的抽象,讓模型不僅可以提升自己的執(zhí)行效果,還能提升自己的抽象能力。

圖 2 給出了 ICAL 的概覽。

圖片

其中,每一輪迭代都始于一個有噪聲的軌跡。ICAL 會分兩個階段對其進(jìn)行抽象:

  • 抽象階段(F_abstract):VLM 會借助語言評論來糾正錯誤,并讓序列更加豐富。這一階段處理的抽象前文已有介紹,而相關(guān)的具體提示詞等請參看原論文附錄部分。
  • 有人類參與的階段(human-in-the-loop,記為 F_hitl):在此階段,序列會在環(huán)境中執(zhí)行,其抽象過程由以自然語言傳達(dá)的人類反饋指導(dǎo)。這一階段的具體流程可分為 6 步:優(yōu)化軌跡的執(zhí)行、監(jiān)控與干預(yù)、反饋整合與軌跡修正、環(huán)境重置與重試、成功標(biāo)準(zhǔn)與反饋限度、保存示例。具體詳情請?jiān)L問原論文。

在成功執(zhí)行軌跡之后,它將被存檔在一個持續(xù)增長的范例庫中。這些范例會被用作智能體的上下文參考,用于在學(xué)習(xí)階段和推理階段為未曾見過的指令和環(huán)境提供參考。

總體而言,這種學(xué)習(xí)到的抽象可以總結(jié)有關(guān)動作序列、狀態(tài)遷移、規(guī)則和關(guān)注區(qū)域的關(guān)鍵信息,并可通過自由形式的自然語言和視覺表征明確地表達(dá)出來。

學(xué)習(xí)得到 ICAL 樣本之后,就可以使用檢索增強(qiáng)式生成部署起來,用于新任務(wù)和新環(huán)境。

圖片

實(shí)驗(yàn)表明 ICAL 確實(shí)可行

研究者在 TEACh 和 VisualWebArena 中測試了 ICAL 的任務(wù)規(guī)劃能力,并在 Ego4D 基準(zhǔn)測試中測試其動作預(yù)測能力。其中,TEACh 針對的是家庭環(huán)境中的對話式教學(xué),VisualWebArena 則是多模態(tài)自動化網(wǎng)絡(luò)任務(wù),Ego4D 則是用于視頻動作預(yù)測。

首先,該團(tuán)隊(duì)發(fā)現(xiàn),在家庭環(huán)境的指令遵循任務(wù)中,ICAL 優(yōu)于固定的演示。

表 1 列出了在未曾見過的 TEACh 驗(yàn)證集上的研究結(jié)果,其中評估了在新指令、房屋和物體上的性能。

圖片

如圖 4 所示,與模仿原始軌跡相比,ICAL 對有噪聲的軌跡進(jìn)行了修正,使訓(xùn)練任務(wù)的成功率更高,動覺演示和視覺演示的成功率分別提高了 42% 和 86%。這表明 ICAL 不僅增加了有用的抽象概念,還糾正了被動視頻演示中的錯誤,提高了在原始演示環(huán)境中的成功率。

圖片

如表 1 所示,在未見過的任務(wù)上,ICAL 的表現(xiàn)優(yōu)于作為上下文示例的未被處理的演示,其成功率比帶有預(yù)測動作的原始演示提高了 17.9%,比帶有真實(shí)動作注釋的演示提高了 8.6%。這凸顯了新提出的抽象方法在提高樣本質(zhì)量以改進(jìn)上下文學(xué)習(xí)方面的有效性,這不同于之前的主要方法,即保存和檢索成功的行動規(guī)劃或軌跡但不進(jìn)行抽象。

另外,在視覺網(wǎng)絡(luò)任務(wù)上,ICAL 也獲得了 SOTA 性能。在 VisualWebArena 上,新智能體超過了 GPT4 + Set of Marks 的組合,使用 GPT4V 時從 14.3% 提高到 22.7%,使用 GPT4o 時從 18.9% 提高到 23.4%。

圖片

在 Ego4D 設(shè)置中,ICAL 的表現(xiàn)優(yōu)于使用思維鏈的少樣本 GPT4V,分別將名詞和動作編輯距離縮短了 6.4 和 1.7,并且與完全監(jiān)督式方法相差無幾 —— 但使用的領(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù)減少了 639 倍。

圖片

總體來說,新方法可顯著減少對專家示例的依賴,并且相比于使用「缺乏此類抽象的動作規(guī)劃和軌跡」的上下文學(xué)習(xí),新方法始終更優(yōu)。

此外,隨著示例數(shù)量增長,ICAL 也能獲得明顯的提升。這表明這種新方法也能很好地 Scaling。

圖片

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2024-11-11 17:35:11

2015-08-21 09:14:40

大數(shù)據(jù)

2024-07-10 12:42:53

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2023-07-06 15:29:52

數(shù)據(jù)中心能源回收

2010-04-01 09:30:57

2022-11-28 07:32:46

迭代器remove數(shù)據(jù)庫

2023-04-25 17:13:03

模型AI

2011-07-15 10:48:20

英特爾谷歌數(shù)據(jù)中心

2024-07-15 13:22:56

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes

2021-09-08 10:55:05

云計(jì)算云存儲數(shù)據(jù)存儲

2023-11-30 13:04:56

LCM圖像

2018-10-07 07:00:59

2023-09-11 15:20:19

2024-04-17 13:22:55

人工智能

2009-07-21 13:44:11

云計(jì)算IT數(shù)據(jù)中心

2024-01-23 17:33:36

2024-10-23 19:47:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號