OS-Genesis來了,自動收集和標(biāo)注Agent數(shù)據(jù),高效且多樣
共同一作孫秋實(shí)是香港大學(xué)的博士生,此前在新加坡國立大學(xué)獲得碩士學(xué)位,研究方向包括 LLM Agents 和神經(jīng)代碼智能等領(lǐng)域。共同一作金川楊是約翰霍普金斯大學(xué)的博士生,此前以專業(yè)第一名畢業(yè)于紐約大學(xué),其開發(fā)的心智能力測試 MMToM-QA 榮獲 ACL 2024 杰出論文獎。本文的 Shanghai AI Lab 吳志勇團(tuán)隊(duì)此前已發(fā)布了 OS-Copilot、OS-Atlas、SeeClick等同系列成果。
- 論文題目:OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
- 項(xiàng)目地址:https://qiushisun.github.io/OS-Genesis-Home/
- 研究機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室,香港大學(xué),上海交通大學(xué),約翰霍普金斯大學(xué),牛津大學(xué),香港科技大學(xué)
1 背景與動機(jī)
有效的 Digital Agents 必須擁有兩個(gè)能力:(1)Planning 能力,即任務(wù)規(guī)劃能力,能將用戶給定的(高階)指令分步劃分為子目標(biāo)(2)Action 能力,即根據(jù)當(dāng)前目標(biāo),執(zhí)行相應(yīng)的動作。
在構(gòu)建高質(zhì)量的 GUI agent 時(shí),GUI 軌跡數(shù)據(jù)能最有效地讓 agent 學(xué)習(xí)如何完成任務(wù),其數(shù)據(jù)稀缺性是當(dāng)前 digital agent 領(lǐng)域最關(guān)鍵挑戰(zhàn)之一。以下是一個(gè)典型的 GUI 軌跡數(shù)據(jù)示例,它包括以下部分:
- 高階指令:明確規(guī)定任務(wù)目標(biāo),例如 “將 Broccoli 應(yīng)用中的‘Avocado Toast with Egg’標(biāo)記為收藏”。
- 低階指令:分解為具體的操作步驟,例如 “點(diǎn)擊‘Avocado Toast with Egg’以查看更多選項(xiàng)”。
- 動作:與低階指令相關(guān)的具體操作,如 “CLICK [Avocado Toast with Egg]”。
- 狀態(tài):包括執(zhí)行動作前后的可視化和文本化表示,例如屏幕截圖和 GUI 的 a11ytree 結(jié)構(gòu)。
現(xiàn)有的軌跡數(shù)據(jù)采集方法通常依賴于人工監(jiān)督或基于預(yù)定義任務(wù)(Task-Driven)的合成數(shù)據(jù)生成。這些方法在實(shí)際應(yīng)用中存在以下局限性:
人工采集的過高成本:人工標(biāo)注軌跡數(shù)據(jù)需要大量的人力資源,不僅需要手動設(shè)計(jì)高階指令,還需逐步記錄每一步操作。這使得數(shù)據(jù)收集過程成本高昂且效率低下。
合成數(shù)據(jù)的局限性:基于模型生成的軌跡數(shù)據(jù)雖然可以緩解人工標(biāo)注的成本問題,但通常依賴于預(yù)定義的高階任務(wù)。這種方法不僅限制了生成數(shù)據(jù)的多樣性,還容易導(dǎo)致與真實(shí)環(huán)境的差距。特別是在中間步驟出錯(cuò)或任務(wù)目標(biāo) / 環(huán)境不匹配時(shí),生成的軌跡可能是不完整或不連貫的。
因此,如何在成本可控的情況下,有效地構(gòu)建 GUI Agents 軌跡是一個(gè)非常重要的課題。在此動機(jī)下,本文提出了 OS-Genesis:一套無需人工監(jiān)督的高質(zhì)量 GUI 數(shù)據(jù)合成框架。
2 OS-Genesis
OS-Genesis 的核心思想是:通過先探索性地交互 GUI 環(huán)境,捕捉每一步動作及其前后狀態(tài)變化。
然后基于這些變化逆向生成高質(zhì)量的低階指令(Low-level instruction,比如’點(diǎn)擊 Calendar APP’),再根據(jù)環(huán)境導(dǎo)出一個(gè)高階指令(High-level instruction,比如’添加日程:看機(jī)器之心推文’)。隨后,讓模型執(zhí)行這一合成的指令,此過程完全擺脫了人工干預(yù)和任務(wù)預(yù)定義的限制,實(shí)現(xiàn)了 GUI 軌跡數(shù)據(jù)生成的高效性和多樣性。本文可以為構(gòu)建通用的 GUI agent 提供新的思路,其具體方法如下所示。
2-1 反向任務(wù)合成
反向任務(wù)合成(Reverse Task Synthesis)是 OS-Genesis 的核心,它幫助我們在構(gòu)建 GUI 軌跡數(shù)據(jù)時(shí)擺脫需要人工 / 機(jī)器預(yù)定義任務(wù)的局限。其流程如下所示:
動作記錄與狀態(tài)捕捉
在沒有預(yù)定義任務(wù)的情況下,OS-Genesis 通過在 GUI 環(huán)境中系統(tǒng)性地執(zhí)行基本動作(例如 CLICK、TYPE、SCROLL 等),生成大量的三元組數(shù)據(jù) ?狀態(tài)前,動作,狀態(tài)后?,即 ?spre, action, spost?。這些三元組記錄了每個(gè)動作對環(huán)境狀態(tài)的影響,為后續(xù)的任務(wù)合成提供了原始數(shù)據(jù)。
低階指令生成
利用 GPT-4o 模型,將每個(gè)三元組 ?spre, action, spost? 轉(zhuǎn)化為描述具體操作的低階指令(Low-level Instruction)。例如,若動作 CLICK 使某菜單展開,低階指令可能為 “點(diǎn)擊下拉菜單以顯示選項(xiàng)”。
高階任務(wù)生成
在低階指令的基礎(chǔ)上,OS-Genesis 進(jìn)一步生成高階指令(High-level Instruction)。高階指令通過結(jié)合低階步驟和當(dāng)前 GUI 環(huán)境,描述了一個(gè)更為抽象且目標(biāo)明確的任務(wù),例如 “配置應(yīng)用程序設(shè)置”。這種從低階到高階的逐步生成方法不僅確保了指令的邏輯一致性,還能最大化利用 GUI 環(huán)境中的動態(tài)特性。
通過上述反向任務(wù)合成,OS-Genesis 可以在沒有人工干預(yù)的情況下構(gòu)建多樣化、語義豐富的任務(wù)集合,顯著提升了數(shù)據(jù)生成的效率和質(zhì)量。
2-2 軌跡構(gòu)建與獎勵模型
反向任務(wù)合成生成的高階指令隨后被用作探索 GUI 環(huán)境的起點(diǎn),進(jìn)一步構(gòu)建完整的軌跡數(shù)據(jù)(Trajectory)。為了確保生成軌跡的質(zhì)量,OS-Genesis 引入了一個(gè)獎勵模型(Trajectory Reward Model, TRM),對生成的軌跡進(jìn)行質(zhì)量評估和篩選。以下是軌跡構(gòu)建與獎勵模型的詳細(xì)流程:
軌跡執(zhí)行
利用反向任務(wù)合成生成的高階指令,GUI agent 會執(zhí)行一系列動作以完成任務(wù)。每條軌跡由以下內(nèi)容組成:高階指令、低階指令、動作序列以及狀態(tài)(包含截圖和 a11ytree)。
軌跡獎勵模型(Trajectory Reward Model)
為避免低質(zhì)量或不完整軌跡對模型訓(xùn)練的負(fù)面影響,OS-Genesis 使用 TRM 對每條軌跡分配一個(gè)獎勵分?jǐn)?shù)。獎勵分?jǐn)?shù)基于以下兩個(gè)指標(biāo):
- 完成度(Completion):衡量軌跡是否成功完成高階任務(wù),包括每個(gè)步驟的正確性和邏輯連貫性。
- 一致性(Coherence):評估軌跡的邏輯性,確保動作序列能夠高效地實(shí)現(xiàn)任務(wù)目標(biāo)。
獎勵驅(qū)動的數(shù)據(jù)篩選
根據(jù)獎勵分?jǐn)?shù),軌跡數(shù)據(jù)會被優(yōu)先用于模型訓(xùn)練。與傳統(tǒng)的二元過濾方法(即拋棄執(zhí)行失敗的任務(wù))不同,TRM 允許部分不完整但具有探索價(jià)值的軌跡保留在數(shù)據(jù)集中,從而最大化地利用生成的數(shù)據(jù)。
通過結(jié)合反向任務(wù)合成和獎勵模型,OS-Genesis 實(shí)現(xiàn)了從任務(wù)生成到軌跡構(gòu)建的端到端流程。實(shí)驗(yàn)結(jié)果表明,OS-Genesis 生成的數(shù)據(jù)在質(zhì)量和多樣性上均顯著優(yōu)于現(xiàn)有方法,為構(gòu)建通用 GUI agent 提供了可靠的數(shù)據(jù)支持。
3 實(shí)驗(yàn)
為了驗(yàn)證 OS-Genesis 在動態(tài)環(huán)境中生成高質(zhì)量軌跡數(shù)據(jù)的能力,本文在動態(tài)環(huán)境上進(jìn)行了實(shí)驗(yàn)。對于 Mobile 場景選擇了 AndroidWorld 和 AndroidControl,對于 Web 場景則使用了 WebArena 作為測評基準(zhǔn)。在這些復(fù)雜的環(huán)境中,作者測試用 OS-Genesis 合成數(shù)據(jù)訓(xùn)練的 agent 表現(xiàn)相對傳統(tǒng)方法效果如何。
3-1 模型與基線
VLMs. 作者在實(shí)驗(yàn)中選擇了代表性的 VLSs 作為 GUI agent 的基礎(chǔ)模型,以便全面評估 OS-Genesis 生成的數(shù)據(jù)在不同模型上的的影響:
- InternVL2-4B/8B:一種支持高分辨率動態(tài)輸入的開源 VLM,主要用于視覺任務(wù)。其擴(kuò)展版本 InternVL2-8B 具有更大的模型容量。
- Qwen2-VL-7B-Instruct:一種多模態(tài)模型,具備一定的 GUI 交互能力,專為指令執(zhí)行任務(wù)優(yōu)化。
此外,作者還額外添加了 GPT-4o 作為一個(gè)強(qiáng) baseline,來比較我們所訓(xùn)練的開源模型和商業(yè)模型之間的差距。
Baselinse. 所有的 baseline 接受的狀態(tài)信息均為 Screenshots + a11ytree
- Zero-Shot:直接使用未經(jīng)過額外訓(xùn)練的模型完成任務(wù)。這種方法用于評估模型的原始能力。
- Task-Driven:利用預(yù)定義任務(wù)和固定策略生成數(shù)據(jù),廣泛應(yīng)用于傳統(tǒng)數(shù)據(jù)生成流程。
- Self-Instruct:在 Task-Driven 的基礎(chǔ)上,引入自我指令生成機(jī)制來擴(kuò)展任務(wù)的和覆蓋范圍。
3-2 Mobile
在 AndroidWorld(In-domain 實(shí)驗(yàn))中,OS-Genesis 生成的數(shù)據(jù)顯著提升了 GUI agents 的任務(wù)成功率,從基線的 9.82% 提升至 17.41%,幾乎翻倍。尤其是在任務(wù)規(guī)劃和復(fù)雜操作中,OS-Genesis 的數(shù)據(jù)展現(xiàn)了更強(qiáng)的適應(yīng)性和泛化能力。
在 AndroidControl 中(OOD 實(shí)驗(yàn)),OS-Genesis 生成的軌跡在高階和低階任務(wù)中均表現(xiàn)出色,特別是在高階任務(wù)中,其規(guī)劃能力提升尤為明顯。此外,OS-Genesis 在未見過的應(yīng)用場景下表現(xiàn)出了較強(qiáng)的泛化能力,驗(yàn)證了其生成數(shù)據(jù)的高質(zhì)量和多樣性。
3-3 Web
OS-Genesis 在 WebArena 中的表現(xiàn)也顯著優(yōu)于基線方法。對于復(fù)雜的交互式網(wǎng)頁任務(wù)(如 GitLab 和 Reddit),本工作的 agent 相比 Task-Driven 方法提升了約 50%。在多個(gè)動態(tài)網(wǎng)頁場景中,通過 OS-Genesis 生成的數(shù)據(jù),agent 表現(xiàn)出了更高的多樣性和泛化能力,特別是在需要多步操作的任務(wù)中,其生成軌跡更符合邏輯和用戶意圖。
4 分析
本項(xiàng)工作對合成軌跡的質(zhì)量進(jìn)行了詳盡的分析,特別是將 OS-Genesis 生成的數(shù)據(jù)與人工標(biāo)注(Human-annotated)數(shù)據(jù)進(jìn)行了對比,以全面評估其在實(shí)際應(yīng)用中的可行性和有效性。
4-1 高階指令對比
作者首先比較了 OS-Genesis 生成的高階指令與人工編寫的高階指令在任務(wù)執(zhí)行中的效果。實(shí)驗(yàn)基于 AndroidWorld 的 500 個(gè)人工標(biāo)注軌高階任務(wù),采用 GPT-4o 探索其對應(yīng)軌跡,并用這些軌跡訓(xùn)練基于 InternVL2-8B 和 Qwen2-VL-7B。為保證公平性,OS-Genesis 和各 baseline 的軌跡數(shù)量保持一致。
結(jié)果分析
在任務(wù)成功率上,OS-Genesis 生成的高階指令顯著優(yōu)于人工編寫的指令。這主要?dú)w因于以下兩點(diǎn):
- 動態(tài)環(huán)境適配性:人工編寫的任務(wù)往往難以與復(fù)雜環(huán)境完全匹配,而 OS-Genesis 通過反向任務(wù)合成生成的指令能夠自適應(yīng) GUI 動態(tài)特性,更符合環(huán)境需求。
- 逐步生成策略:OS-Genesis 從低階指令逐步構(gòu)建高階指令,確保了指令的邏輯連貫性和可執(zhí)行性,而人工編寫的高階指令有時(shí)會因缺乏細(xì)節(jié)而導(dǎo)致軌跡不完整。
4-2 軌跡數(shù)據(jù)對比
為了進(jìn)一步驗(yàn)證軌跡質(zhì)量,作者探討了 OS-Genesis 生成的完整軌跡與人工標(biāo)注(Human-annotated)軌跡在 GUI agent 訓(xùn)練中的差異。作者從 AndroidControl 的訓(xùn)練集中選取了 1,000 條眾包標(biāo)注的軌跡進(jìn)行訓(xùn)練并對比。正如圖下,OS-Genesis 顯著縮小了合成軌跡與人工標(biāo)注軌跡之間的性能差距。
這種提升在高階任務(wù)中尤為顯著,表明基于 OS-Genesis 軌跡訓(xùn)練的 agent 在任務(wù)規(guī)劃和問題解決方面表現(xiàn)更接近于人類操作方式。從平均任務(wù)成功率來看,將人工標(biāo)注數(shù)據(jù)視為 gold standard,OS-Genesis 數(shù)據(jù)的性能保留率超過了 80%。
5 總結(jié)與展望
本項(xiàng)工作提出了 OS-Genesis,為有效構(gòu)建 GUI Agents 提供了全新的視角。通過引入一種全新的交互驅(qū)動合成方法,OS-Genesis 成功克服了以往數(shù)據(jù)收集中構(gòu)建(1)有意義且(2)多樣化的 GUI 任務(wù)的關(guān)鍵瓶頸。在多個(gè)挑戰(zhàn)性的 online 基準(zhǔn)測試中,作者證明了 OS-Genesis 生成的數(shù)據(jù)在構(gòu)建 GUI agents 的規(guī)劃和動作能力上實(shí)現(xiàn)了突破。此外,OS-Genesis 生成的軌跡數(shù)據(jù)展現(xiàn)出了更高的多樣性,并顯著縮小了合成數(shù)據(jù)與人工標(biāo)注數(shù)據(jù)之間的質(zhì)量差距。OS-Genesis 為生成高質(zhì)量 GUI agents 訓(xùn)練軌跡數(shù)據(jù)提供了一個(gè)有前景的方向,使研究領(lǐng)域在實(shí)現(xiàn)數(shù)字世界自動化的道路上更進(jìn)一步!