自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="jwzkj"><strike id="jwzkj"><input id="jwzkj"></input></strike></pre>

<cite id="jwzkj"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)不夠致Scaling Law撞墻？CMU和DeepMind新方法可讓VLM自己生成記憶

2025-01-03 11:35:42

卡內(nèi)基?梅隆大學(xué)（CMU）和 Google DeepMind 的一篇標(biāo)題為「VLM 智能體生成自己的記憶：將經(jīng)驗(yàn)蒸餾成具身思維程序」的研究發(fā)現(xiàn)，通過使用低質(zhì)量數(shù)據(jù)和反饋，或許能夠解決這個高質(zhì)量數(shù)據(jù)不足的問題。

最近 AI 社區(qū)很多人都在討論 Scaling Law 是否撞墻的問題。其中，一個支持 Scaling Law 撞墻論的理由是 AI 幾乎已經(jīng)快要耗盡已有的高質(zhì)量數(shù)據(jù)，比如有一項(xiàng)研究就預(yù)計(jì)，如果 LLM 保持現(xiàn)在的發(fā)展勢頭，到 2028 年左右，已有的數(shù)據(jù)儲量將被全部利用完。

圖源：Will we run out of data? Limits of LLM scaling based on human-generated data

卡內(nèi)基?梅隆大學(xué)（CMU）和 Google DeepMind 的一篇標(biāo)題為「VLM 智能體生成自己的記憶：將經(jīng)驗(yàn)蒸餾成具身思維程序」的研究發(fā)現(xiàn)，通過使用低質(zhì)量數(shù)據(jù)和反饋，或許能夠解決這個高質(zhì)量數(shù)據(jù)不足的問題。其中提出的 ICAL 可讓 LLM 和 VLM 根據(jù)次優(yōu)演示和人工反饋創(chuàng)建有效的提示詞，從而改善決策并減少對專家演示的依賴。該論文是 NeurIPS 2024 的 Spotlight 論文，項(xiàng)目代碼也已發(fā)布。

論文標(biāo)題：VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
論文地址：https://openreview.net/pdf?id=5G7MRfPngt
項(xiàng)目地址：https://ical-learning.github.io/
代碼地址：https://github.com/Gabesarch/ICAL

我們知道，人類具有非常出色的少樣本學(xué)習(xí)能力，通過將觀察到的行為與內(nèi)部世界模型相結(jié)合，可以從單一任務(wù)演示快速泛化到相關(guān)的情況。人類能分辨出與成功相關(guān)或不相關(guān)的因素，并預(yù)測可能的失敗。通過反復(fù)練習(xí)和反饋，人類能很快找到正確的抽象，從而幫助模仿和調(diào)整任務(wù)以適應(yīng)各種情況。這個過程可促進(jìn)在各種任務(wù)和環(huán)境中不斷改進(jìn)和遷移知識。

最近有研究探索了使用大型語言模型（LLM）和視覺 - 語言模型（VLM）來從軌跡和經(jīng)驗(yàn)中提取高層級見解。這些見解是模型通過內(nèi)省（introspection）產(chǎn)生的，而通過將它們附加到提示詞之后，可以提升其性能 —— 這就用到了它們強(qiáng)大的上下文學(xué)習(xí)能力。

現(xiàn)有的方法通常更關(guān)注語言上的任務(wù)獎勵信號、存儲失敗之后的人類更正、使用領(lǐng)域?qū)＜襾砣斯ぞ帉懟蛉斯ぬ暨x示例（無需內(nèi)?。?、或使用語言來塑造策略和獎勵。關(guān)鍵在于，這些方法通常都是基于文本的，并不包含任何視覺提示或演示，或者僅在失敗的情況下使用自省，但這只是人類和機(jī)器整合經(jīng)驗(yàn)和提取見解的幾種方式之一。

而 CMU 和 DeepMind 這個研究團(tuán)隊(duì)的做法是：給定次優(yōu)的演示和人類自然語言反饋，通過學(xué)習(xí)上下文經(jīng)驗(yàn)抽象來讓 VLM 學(xué)習(xí)解決新任務(wù)。這種方法被命名為 In-Context Abstraction Learning（ICAL），即上下文抽象學(xué)習(xí)。

上下文抽象學(xué)習(xí)究竟如何學(xué)習(xí)？

ICAL 這種方法可通過提示，讓 VLM 創(chuàng)建用于不熟悉領(lǐng)域的多模態(tài)抽象。

我們知道，之前的研究工作通常僅存儲和檢索成功的動作規(guī)劃或軌跡。但 ICAL 不一樣，強(qiáng)調(diào)的是學(xué)習(xí)抽象（abstraction），而這種所謂的抽象實(shí)際上包含了有關(guān)任務(wù)的動態(tài)和關(guān)鍵知識，如圖 1 所示。

具體來說，ICAL 可處理四種類型的認(rèn)知抽象：

任務(wù)和因果關(guān)系，確定實(shí)現(xiàn)目標(biāo)所需的基本原則或行動，以及要素如何通過因果關(guān)系相互關(guān)聯(lián)；
對象狀態(tài)的變化，描述對象將采取的各種形式或條件；
時間抽象，將任務(wù)分解為子目標(biāo)；
任務(wù)建構(gòu)（task construals），突出任務(wù)中的關(guān)鍵視覺細(xì)節(jié)。

當(dāng)具有最優(yōu)或次優(yōu)演示時，ICAL 可通過提示 VLM 將這些演示轉(zhuǎn)換為優(yōu)化后的軌跡，同時創(chuàng)建相關(guān)的語言和視覺抽象。然后在人類的自然語言反饋的引導(dǎo)下，通過在環(huán)境中執(zhí)行這些軌跡來優(yōu)化這些抽象。

這個抽象生成過程的每一步都會使用之前推導(dǎo)出的抽象，讓模型不僅可以提升自己的執(zhí)行效果，還能提升自己的抽象能力。

圖 2 給出了 ICAL 的概覽。

其中，每一輪迭代都始于一個有噪聲的軌跡。ICAL 會分兩個階段對其進(jìn)行抽象：

抽象階段（F_abstract）：VLM 會借助語言評論來糾正錯誤，并讓序列更加豐富。這一階段處理的抽象前文已有介紹，而相關(guān)的具體提示詞等請參看原論文附錄部分。
有人類參與的階段（human-in-the-loop，記為 F_hitl）：在此階段，序列會在環(huán)境中執(zhí)行，其抽象過程由以自然語言傳達(dá)的人類反饋指導(dǎo)。這一階段的具體流程可分為 6 步：優(yōu)化軌跡的執(zhí)行、監(jiān)控與干預(yù)、反饋整合與軌跡修正、環(huán)境重置與重試、成功標(biāo)準(zhǔn)與反饋限度、保存示例。具體詳情請?jiān)L問原論文。

在成功執(zhí)行軌跡之后，它將被存檔在一個持續(xù)增長的范例庫中。這些范例會被用作智能體的上下文參考，用于在學(xué)習(xí)階段和推理階段為未曾見過的指令和環(huán)境提供參考。

總體而言，這種學(xué)習(xí)到的抽象可以總結(jié)有關(guān)動作序列、狀態(tài)遷移、規(guī)則和關(guān)注區(qū)域的關(guān)鍵信息，并可通過自由形式的自然語言和視覺表征明確地表達(dá)出來。

學(xué)習(xí)得到 ICAL 樣本之后，就可以使用檢索增強(qiáng)式生成部署起來，用于新任務(wù)和新環(huán)境。

實(shí)驗(yàn)表明 ICAL 確實(shí)可行

研究者在 TEACh 和 VisualWebArena 中測試了 ICAL 的任務(wù)規(guī)劃能力，并在 Ego4D 基準(zhǔn)測試中測試其動作預(yù)測能力。其中，TEACh 針對的是家庭環(huán)境中的對話式教學(xué)，VisualWebArena 則是多模態(tài)自動化網(wǎng)絡(luò)任務(wù)，Ego4D 則是用于視頻動作預(yù)測。

首先，該團(tuán)隊(duì)發(fā)現(xiàn)，在家庭環(huán)境的指令遵循任務(wù)中，ICAL 優(yōu)于固定的演示。

表 1 列出了在未曾見過的 TEACh 驗(yàn)證集上的研究結(jié)果，其中評估了在新指令、房屋和物體上的性能。

如圖 4 所示，與模仿原始軌跡相比，ICAL 對有噪聲的軌跡進(jìn)行了修正，使訓(xùn)練任務(wù)的成功率更高，動覺演示和視覺演示的成功率分別提高了 42% 和 86%。這表明 ICAL 不僅增加了有用的抽象概念，還糾正了被動視頻演示中的錯誤，提高了在原始演示環(huán)境中的成功率。

如表 1 所示，在未見過的任務(wù)上，ICAL 的表現(xiàn)優(yōu)于作為上下文示例的未被處理的演示，其成功率比帶有預(yù)測動作的原始演示提高了 17.9%，比帶有真實(shí)動作注釋的演示提高了 8.6%。這凸顯了新提出的抽象方法在提高樣本質(zhì)量以改進(jìn)上下文學(xué)習(xí)方面的有效性，這不同于之前的主要方法，即保存和檢索成功的行動規(guī)劃或軌跡但不進(jìn)行抽象。

另外，在視覺網(wǎng)絡(luò)任務(wù)上，ICAL 也獲得了 SOTA 性能。在 VisualWebArena 上，新智能體超過了 GPT4 + Set of Marks 的組合，使用 GPT4V 時從 14.3% 提高到 22.7%，使用 GPT4o 時從 18.9% 提高到 23.4%。

在 Ego4D 設(shè)置中，ICAL 的表現(xiàn)優(yōu)于使用思維鏈的少樣本 GPT4V，分別將名詞和動作編輯距離縮短了 6.4 和 1.7，并且與完全監(jiān)督式方法相差無幾 —— 但使用的領(lǐng)域內(nèi)訓(xùn)練數(shù)據(jù)減少了 639 倍。

總體來說，新方法可顯著減少對專家示例的依賴，并且相比于使用「缺乏此類抽象的動作規(guī)劃和軌跡」的上下文學(xué)習(xí)，新方法始終更優(yōu)。

此外，隨著示例數(shù)量增長，ICAL 也能獲得明顯的提升。這表明這種新方法也能很好地 Scaling。

責(zé)任編輯：姜華來源：機(jī)器之心

LLM 智能體人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="qh6zy"><track id="qh6zy"><sub id="qh6zy"></sub></track></cite>