自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OS-Genesis來了,自動收集和標(biāo)注Agent數(shù)據(jù),高效且多樣

人工智能 新聞
本項(xiàng)工作提出了 OS-Genesis,為有效構(gòu)建 GUI Agents 提供了全新的視角。

共同一作孫秋實(shí)是香港大學(xué)的博士生,此前在新加坡國立大學(xué)獲得碩士學(xué)位,研究方向包括 LLM Agents 和神經(jīng)代碼智能等領(lǐng)域。共同一作金川楊是約翰霍普金斯大學(xué)的博士生,此前以專業(yè)第一名畢業(yè)于紐約大學(xué),其開發(fā)的心智能力測試 MMToM-QA 榮獲 ACL 2024 杰出論文獎。本文的 Shanghai AI Lab 吳志勇團(tuán)隊(duì)此前已發(fā)布了 OS-Copilot、OS-Atlas、SeeClick等同系列成果。

圖片


  • 論文題目:OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
  • 項(xiàng)目地址:https://qiushisun.github.io/OS-Genesis-Home/
  • 研究機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室,香港大學(xué),上海交通大學(xué),約翰霍普金斯大學(xué),牛津大學(xué),香港科技大學(xué)

1 背景與動機(jī)

有效的 Digital Agents 必須擁有兩個(gè)能力:(1)Planning 能力,即任務(wù)規(guī)劃能力,能將用戶給定的(高階)指令分步劃分為子目標(biāo)(2)Action 能力,即根據(jù)當(dāng)前目標(biāo),執(zhí)行相應(yīng)的動作。

在構(gòu)建高質(zhì)量的 GUI agent 時(shí),GUI 軌跡數(shù)據(jù)能最有效地讓 agent 學(xué)習(xí)如何完成任務(wù),其數(shù)據(jù)稀缺性是當(dāng)前 digital agent 領(lǐng)域最關(guān)鍵挑戰(zhàn)之一。以下是一個(gè)典型的 GUI 軌跡數(shù)據(jù)示例,它包括以下部分:

  • 高階指令:明確規(guī)定任務(wù)目標(biāo),例如 “將 Broccoli 應(yīng)用中的‘Avocado Toast with Egg’標(biāo)記為收藏”。
  • 低階指令:分解為具體的操作步驟,例如 “點(diǎn)擊‘Avocado Toast with Egg’以查看更多選項(xiàng)”。
  • 動作:與低階指令相關(guān)的具體操作,如 “CLICK [Avocado Toast with Egg]”。
  • 狀態(tài):包括執(zhí)行動作前后的可視化和文本化表示,例如屏幕截圖和 GUI 的 a11ytree 結(jié)構(gòu)。

圖片

現(xiàn)有的軌跡數(shù)據(jù)采集方法通常依賴于人工監(jiān)督或基于預(yù)定義任務(wù)(Task-Driven)的合成數(shù)據(jù)生成。這些方法在實(shí)際應(yīng)用中存在以下局限性:

人工采集的過高成本:人工標(biāo)注軌跡數(shù)據(jù)需要大量的人力資源,不僅需要手動設(shè)計(jì)高階指令,還需逐步記錄每一步操作。這使得數(shù)據(jù)收集過程成本高昂且效率低下。

合成數(shù)據(jù)的局限性:基于模型生成的軌跡數(shù)據(jù)雖然可以緩解人工標(biāo)注的成本問題,但通常依賴于預(yù)定義的高階任務(wù)。這種方法不僅限制了生成數(shù)據(jù)的多樣性,還容易導(dǎo)致與真實(shí)環(huán)境的差距。特別是在中間步驟出錯(cuò)或任務(wù)目標(biāo) / 環(huán)境不匹配時(shí),生成的軌跡可能是不完整或不連貫的。

因此,如何在成本可控的情況下,有效地構(gòu)建 GUI Agents 軌跡是一個(gè)非常重要的課題。在此動機(jī)下,本文提出了 OS-Genesis:一套無需人工監(jiān)督的高質(zhì)量 GUI 數(shù)據(jù)合成框架。

2 OS-Genesis

OS-Genesis 的核心思想是:通過先探索性地交互 GUI 環(huán)境,捕捉每一步動作及其前后狀態(tài)變化。

圖片


然后基于這些變化逆向生成高質(zhì)量的低階指令(Low-level instruction,比如’點(diǎn)擊 Calendar APP’),再根據(jù)環(huán)境導(dǎo)出一個(gè)高階指令(High-level instruction,比如’添加日程:看機(jī)器之心推文’)。隨后,讓模型執(zhí)行這一合成的指令,此過程完全擺脫了人工干預(yù)和任務(wù)預(yù)定義的限制,實(shí)現(xiàn)了 GUI 軌跡數(shù)據(jù)生成的高效性和多樣性。本文可以為構(gòu)建通用的 GUI agent 提供新的思路,其具體方法如下所示。

2-1 反向任務(wù)合成

反向任務(wù)合成(Reverse Task Synthesis)是 OS-Genesis 的核心,它幫助我們在構(gòu)建 GUI 軌跡數(shù)據(jù)時(shí)擺脫需要人工 / 機(jī)器預(yù)定義任務(wù)的局限。其流程如下所示:

圖片

動作記錄與狀態(tài)捕捉

在沒有預(yù)定義任務(wù)的情況下,OS-Genesis 通過在 GUI 環(huán)境中系統(tǒng)性地執(zhí)行基本動作(例如 CLICK、TYPE、SCROLL 等),生成大量的三元組數(shù)據(jù) ?狀態(tài)前,動作,狀態(tài)后?,即 ?spre, action, spost?。這些三元組記錄了每個(gè)動作對環(huán)境狀態(tài)的影響,為后續(xù)的任務(wù)合成提供了原始數(shù)據(jù)。

低階指令生成

利用 GPT-4o 模型,將每個(gè)三元組 ?spre, action, spost? 轉(zhuǎn)化為描述具體操作的低階指令(Low-level Instruction)。例如,若動作 CLICK 使某菜單展開,低階指令可能為 “點(diǎn)擊下拉菜單以顯示選項(xiàng)”。

高階任務(wù)生成

在低階指令的基礎(chǔ)上,OS-Genesis 進(jìn)一步生成高階指令(High-level Instruction)。高階指令通過結(jié)合低階步驟和當(dāng)前 GUI 環(huán)境,描述了一個(gè)更為抽象且目標(biāo)明確的任務(wù),例如 “配置應(yīng)用程序設(shè)置”。這種從低階到高階的逐步生成方法不僅確保了指令的邏輯一致性,還能最大化利用 GUI 環(huán)境中的動態(tài)特性。

通過上述反向任務(wù)合成,OS-Genesis 可以在沒有人工干預(yù)的情況下構(gòu)建多樣化、語義豐富的任務(wù)集合,顯著提升了數(shù)據(jù)生成的效率和質(zhì)量。

2-2 軌跡構(gòu)建與獎勵模型

反向任務(wù)合成生成的高階指令隨后被用作探索 GUI 環(huán)境的起點(diǎn),進(jìn)一步構(gòu)建完整的軌跡數(shù)據(jù)(Trajectory)。為了確保生成軌跡的質(zhì)量,OS-Genesis 引入了一個(gè)獎勵模型(Trajectory Reward Model, TRM),對生成的軌跡進(jìn)行質(zhì)量評估和篩選。以下是軌跡構(gòu)建與獎勵模型的詳細(xì)流程:

軌跡執(zhí)行

利用反向任務(wù)合成生成的高階指令,GUI agent 會執(zhí)行一系列動作以完成任務(wù)。每條軌跡由以下內(nèi)容組成:高階指令、低階指令、動作序列以及狀態(tài)(包含截圖和 a11ytree)。

軌跡獎勵模型(Trajectory Reward Model)

為避免低質(zhì)量或不完整軌跡對模型訓(xùn)練的負(fù)面影響,OS-Genesis 使用 TRM 對每條軌跡分配一個(gè)獎勵分?jǐn)?shù)。獎勵分?jǐn)?shù)基于以下兩個(gè)指標(biāo):

  • 完成度(Completion):衡量軌跡是否成功完成高階任務(wù),包括每個(gè)步驟的正確性和邏輯連貫性。
  • 一致性(Coherence):評估軌跡的邏輯性,確保動作序列能夠高效地實(shí)現(xiàn)任務(wù)目標(biāo)。

獎勵驅(qū)動的數(shù)據(jù)篩選

根據(jù)獎勵分?jǐn)?shù),軌跡數(shù)據(jù)會被優(yōu)先用于模型訓(xùn)練。與傳統(tǒng)的二元過濾方法(即拋棄執(zhí)行失敗的任務(wù))不同,TRM 允許部分不完整但具有探索價(jià)值的軌跡保留在數(shù)據(jù)集中,從而最大化地利用生成的數(shù)據(jù)。

圖片

通過結(jié)合反向任務(wù)合成和獎勵模型,OS-Genesis 實(shí)現(xiàn)了從任務(wù)生成到軌跡構(gòu)建的端到端流程。實(shí)驗(yàn)結(jié)果表明,OS-Genesis 生成的數(shù)據(jù)在質(zhì)量和多樣性上均顯著優(yōu)于現(xiàn)有方法,為構(gòu)建通用 GUI agent 提供了可靠的數(shù)據(jù)支持。

3 實(shí)驗(yàn)

為了驗(yàn)證 OS-Genesis 在動態(tài)環(huán)境中生成高質(zhì)量軌跡數(shù)據(jù)的能力,本文在動態(tài)環(huán)境上進(jìn)行了實(shí)驗(yàn)。對于 Mobile 場景選擇了 AndroidWorld 和 AndroidControl,對于 Web 場景則使用了 WebArena 作為測評基準(zhǔn)。在這些復(fù)雜的環(huán)境中,作者測試用 OS-Genesis 合成數(shù)據(jù)訓(xùn)練的 agent 表現(xiàn)相對傳統(tǒng)方法效果如何。

3-1 模型與基線

VLMs. 作者在實(shí)驗(yàn)中選擇了代表性的 VLSs 作為 GUI agent 的基礎(chǔ)模型,以便全面評估 OS-Genesis 生成的數(shù)據(jù)在不同模型上的的影響:

  • InternVL2-4B/8B:一種支持高分辨率動態(tài)輸入的開源 VLM,主要用于視覺任務(wù)。其擴(kuò)展版本 InternVL2-8B 具有更大的模型容量。
  • Qwen2-VL-7B-Instruct:一種多模態(tài)模型,具備一定的 GUI 交互能力,專為指令執(zhí)行任務(wù)優(yōu)化。

此外,作者還額外添加了 GPT-4o 作為一個(gè)強(qiáng) baseline,來比較我們所訓(xùn)練的開源模型和商業(yè)模型之間的差距。

Baselinse. 所有的 baseline 接受的狀態(tài)信息均為 Screenshots + a11ytree

  • Zero-Shot:直接使用未經(jīng)過額外訓(xùn)練的模型完成任務(wù)。這種方法用于評估模型的原始能力。
  • Task-Driven:利用預(yù)定義任務(wù)和固定策略生成數(shù)據(jù),廣泛應(yīng)用于傳統(tǒng)數(shù)據(jù)生成流程。
  • Self-Instruct:在 Task-Driven 的基礎(chǔ)上,引入自我指令生成機(jī)制來擴(kuò)展任務(wù)的和覆蓋范圍。

3-2 Mobile

在 AndroidWorld(In-domain 實(shí)驗(yàn))中,OS-Genesis 生成的數(shù)據(jù)顯著提升了 GUI agents 的任務(wù)成功率,從基線的 9.82% 提升至 17.41%,幾乎翻倍。尤其是在任務(wù)規(guī)劃和復(fù)雜操作中,OS-Genesis 的數(shù)據(jù)展現(xiàn)了更強(qiáng)的適應(yīng)性和泛化能力。

圖片

在 AndroidControl 中(OOD 實(shí)驗(yàn)),OS-Genesis 生成的軌跡在高階和低階任務(wù)中均表現(xiàn)出色,特別是在高階任務(wù)中,其規(guī)劃能力提升尤為明顯。此外,OS-Genesis 在未見過的應(yīng)用場景下表現(xiàn)出了較強(qiáng)的泛化能力,驗(yàn)證了其生成數(shù)據(jù)的高質(zhì)量和多樣性。

3-3 Web

OS-Genesis 在 WebArena 中的表現(xiàn)也顯著優(yōu)于基線方法。對于復(fù)雜的交互式網(wǎng)頁任務(wù)(如 GitLab 和 Reddit),本工作的 agent 相比 Task-Driven 方法提升了約 50%。在多個(gè)動態(tài)網(wǎng)頁場景中,通過 OS-Genesis 生成的數(shù)據(jù),agent 表現(xiàn)出了更高的多樣性和泛化能力,特別是在需要多步操作的任務(wù)中,其生成軌跡更符合邏輯和用戶意圖。

圖片

4 分析

本項(xiàng)工作對合成軌跡的質(zhì)量進(jìn)行了詳盡的分析,特別是將 OS-Genesis 生成的數(shù)據(jù)與人工標(biāo)注(Human-annotated)數(shù)據(jù)進(jìn)行了對比,以全面評估其在實(shí)際應(yīng)用中的可行性和有效性。

4-1 高階指令對比

作者首先比較了 OS-Genesis 生成的高階指令與人工編寫的高階指令在任務(wù)執(zhí)行中的效果。實(shí)驗(yàn)基于 AndroidWorld 的 500 個(gè)人工標(biāo)注軌高階任務(wù),采用 GPT-4o 探索其對應(yīng)軌跡,并用這些軌跡訓(xùn)練基于 InternVL2-8B 和 Qwen2-VL-7B。為保證公平性,OS-Genesis 和各 baseline 的軌跡數(shù)量保持一致。

結(jié)果分析

在任務(wù)成功率上,OS-Genesis 生成的高階指令顯著優(yōu)于人工編寫的指令。這主要?dú)w因于以下兩點(diǎn):

  • 動態(tài)環(huán)境適配性:人工編寫的任務(wù)往往難以與復(fù)雜環(huán)境完全匹配,而 OS-Genesis 通過反向任務(wù)合成生成的指令能夠自適應(yīng) GUI 動態(tài)特性,更符合環(huán)境需求。
  • 逐步生成策略:OS-Genesis 從低階指令逐步構(gòu)建高階指令,確保了指令的邏輯連貫性和可執(zhí)行性,而人工編寫的高階指令有時(shí)會因缺乏細(xì)節(jié)而導(dǎo)致軌跡不完整。

圖片

4-2 軌跡數(shù)據(jù)對比

為了進(jìn)一步驗(yàn)證軌跡質(zhì)量,作者探討了 OS-Genesis 生成的完整軌跡與人工標(biāo)注(Human-annotated)軌跡在 GUI agent 訓(xùn)練中的差異。作者從 AndroidControl 的訓(xùn)練集中選取了 1,000 條眾包標(biāo)注的軌跡進(jìn)行訓(xùn)練并對比。正如圖下,OS-Genesis 顯著縮小了合成軌跡與人工標(biāo)注軌跡之間的性能差距。

這種提升在高階任務(wù)中尤為顯著,表明基于 OS-Genesis 軌跡訓(xùn)練的 agent 在任務(wù)規(guī)劃和問題解決方面表現(xiàn)更接近于人類操作方式。從平均任務(wù)成功率來看,將人工標(biāo)注數(shù)據(jù)視為 gold standard,OS-Genesis 數(shù)據(jù)的性能保留率超過了 80%。

圖片

5 總結(jié)與展望

本項(xiàng)工作提出了 OS-Genesis,為有效構(gòu)建 GUI Agents 提供了全新的視角。通過引入一種全新的交互驅(qū)動合成方法,OS-Genesis 成功克服了以往數(shù)據(jù)收集中構(gòu)建(1)有意義且(2)多樣化的 GUI 任務(wù)的關(guān)鍵瓶頸。在多個(gè)挑戰(zhàn)性的 online 基準(zhǔn)測試中,作者證明了 OS-Genesis 生成的數(shù)據(jù)在構(gòu)建 GUI agents 的規(guī)劃和動作能力上實(shí)現(xiàn)了突破。此外,OS-Genesis 生成的軌跡數(shù)據(jù)展現(xiàn)出了更高的多樣性,并顯著縮小了合成數(shù)據(jù)與人工標(biāo)注數(shù)據(jù)之間的質(zhì)量差距。OS-Genesis 為生成高質(zhì)量 GUI agents 訓(xùn)練軌跡數(shù)據(jù)提供了一個(gè)有前景的方向,使研究領(lǐng)域在實(shí)現(xiàn)數(shù)字世界自動化的道路上更進(jìn)一步!

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-02-19 14:18:11

2016-11-24 17:21:22

AndroidAndromedaGoogle

2018-07-24 09:28:18

存儲數(shù)據(jù)倉庫

2020-03-12 10:24:37

大數(shù)據(jù)技術(shù)人工智能

2021-09-16 07:52:18

Python項(xiàng)目實(shí)戰(zhàn)

2024-01-19 16:35:23

2025-01-08 15:15:16

2022-04-12 09:18:29

Windows補(bǔ)丁

2024-11-25 06:25:00

YOLO數(shù)據(jù)標(biāo)注目標(biāo)檢測

2025-01-16 10:07:44

2021-08-09 11:29:59

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-09-19 16:04:41

YOLO數(shù)據(jù)標(biāo)注

2021-12-24 10:52:03

微軟操作系統(tǒng)Windows

2025-01-15 08:32:33

2012-07-03 10:15:50

火狐OSFirefox

2023-09-20 12:13:47

開發(fā)模型

2023-11-26 00:13:16

開源數(shù)據(jù)Logstash

2025-02-06 09:43:08

HybridFlowRay大語言模型

2025-02-28 08:11:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號