自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<dfn id="5onvv"><var id="5onvv"><input id="5onvv"></input></var></dfn>

^{<sub id="5onvv"></sub>}

<u id="5onvv"><form id="5onvv"></form></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OS-Genesis來了，自動收集和標(biāo)注Agent數(shù)據(jù)，高效且多樣

作者：機(jī)器之心 2025-01-22 14:05:00

人工智能新聞

本項(xiàng)工作提出了 OS-Genesis，為有效構(gòu)建 GUI Agents 提供了全新的視角。

共同一作孫秋實(shí)是香港大學(xué)的博士生，此前在新加坡國立大學(xué)獲得碩士學(xué)位，研究方向包括 LLM Agents 和神經(jīng)代碼智能等領(lǐng)域。共同一作金川楊是約翰霍普金斯大學(xué)的博士生，此前以專業(yè)第一名畢業(yè)于紐約大學(xué)，其開發(fā)的心智能力測試 MMToM-QA 榮獲 ACL 2024 杰出論文獎。本文的 Shanghai AI Lab 吳志勇團(tuán)隊(duì)此前已發(fā)布了 OS-Copilot、OS-Atlas、SeeClick等同系列成果。

論文題目：OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
項(xiàng)目地址：https://qiushisun.github.io/OS-Genesis-Home/
研究機(jī)構(gòu)：上海人工智能實(shí)驗(yàn)室，香港大學(xué)，上海交通大學(xué)，約翰霍普金斯大學(xué)，牛津大學(xué)，香港科技大學(xué)

1 背景與動機(jī)

有效的 Digital Agents 必須擁有兩個(gè)能力：（1）Planning 能力，即任務(wù)規(guī)劃能力，能將用戶給定的（高階）指令分步劃分為子目標(biāo)（2）Action 能力，即根據(jù)當(dāng)前目標(biāo)，執(zhí)行相應(yīng)的動作。

在構(gòu)建高質(zhì)量的 GUI agent 時(shí)，GUI 軌跡數(shù)據(jù)能最有效地讓 agent 學(xué)習(xí)如何完成任務(wù)，其數(shù)據(jù)稀缺性是當(dāng)前 digital agent 領(lǐng)域最關(guān)鍵挑戰(zhàn)之一。以下是一個(gè)典型的 GUI 軌跡數(shù)據(jù)示例，它包括以下部分：

高階指令：明確規(guī)定任務(wù)目標(biāo)，例如 “將 Broccoli 應(yīng)用中的‘Avocado Toast with Egg’標(biāo)記為收藏”。
低階指令：分解為具體的操作步驟，例如 “點(diǎn)擊‘Avocado Toast with Egg’以查看更多選項(xiàng)”。
動作：與低階指令相關(guān)的具體操作，如 “CLICK [Avocado Toast with Egg]”。
狀態(tài)：包括執(zhí)行動作前后的可視化和文本化表示，例如屏幕截圖和 GUI 的 a11ytree 結(jié)構(gòu)。

現(xiàn)有的軌跡數(shù)據(jù)采集方法通常依賴于人工監(jiān)督或基于預(yù)定義任務(wù)（Task-Driven）的合成數(shù)據(jù)生成。這些方法在實(shí)際應(yīng)用中存在以下局限性：

人工采集的過高成本：人工標(biāo)注軌跡數(shù)據(jù)需要大量的人力資源，不僅需要手動設(shè)計(jì)高階指令，還需逐步記錄每一步操作。這使得數(shù)據(jù)收集過程成本高昂且效率低下。

合成數(shù)據(jù)的局限性：基于模型生成的軌跡數(shù)據(jù)雖然可以緩解人工標(biāo)注的成本問題，但通常依賴于預(yù)定義的高階任務(wù)。這種方法不僅限制了生成數(shù)據(jù)的多樣性，還容易導(dǎo)致與真實(shí)環(huán)境的差距。特別是在中間步驟出錯(cuò)或任務(wù)目標(biāo) / 環(huán)境不匹配時(shí)，生成的軌跡可能是不完整或不連貫的。

因此，如何在成本可控的情況下，有效地構(gòu)建 GUI Agents 軌跡是一個(gè)非常重要的課題。在此動機(jī)下，本文提出了 OS-Genesis：一套無需人工監(jiān)督的高質(zhì)量 GUI 數(shù)據(jù)合成框架。

2 OS-Genesis

OS-Genesis 的核心思想是：通過先探索性地交互 GUI 環(huán)境，捕捉每一步動作及其前后狀態(tài)變化。

然后基于這些變化逆向生成高質(zhì)量的低階指令（Low-level instruction，比如’點(diǎn)擊 Calendar APP’），再根據(jù)環(huán)境導(dǎo)出一個(gè)高階指令（High-level instruction，比如’添加日程：看機(jī)器之心推文’）。隨后，讓模型執(zhí)行這一合成的指令，此過程完全擺脫了人工干預(yù)和任務(wù)預(yù)定義的限制，實(shí)現(xiàn)了 GUI 軌跡數(shù)據(jù)生成的高效性和多樣性。本文可以為構(gòu)建通用的 GUI agent 提供新的思路，其具體方法如下所示。

2-1 反向任務(wù)合成

反向任務(wù)合成（Reverse Task Synthesis）是 OS-Genesis 的核心，它幫助我們在構(gòu)建 GUI 軌跡數(shù)據(jù)時(shí)擺脫需要人工 / 機(jī)器預(yù)定義任務(wù)的局限。其流程如下所示：

動作記錄與狀態(tài)捕捉

在沒有預(yù)定義任務(wù)的情況下，OS-Genesis 通過在 GUI 環(huán)境中系統(tǒng)性地執(zhí)行基本動作（例如 CLICK、TYPE、SCROLL 等），生成大量的三元組數(shù)據(jù) ?狀態(tài)前，動作，狀態(tài)后?，即 ?spre, action, spost?。這些三元組記錄了每個(gè)動作對環(huán)境狀態(tài)的影響，為后續(xù)的任務(wù)合成提供了原始數(shù)據(jù)。

低階指令生成

利用 GPT-4o 模型，將每個(gè)三元組 ?spre, action, spost? 轉(zhuǎn)化為描述具體操作的低階指令（Low-level Instruction）。例如，若動作 CLICK 使某菜單展開，低階指令可能為 “點(diǎn)擊下拉菜單以顯示選項(xiàng)”。

高階任務(wù)生成

在低階指令的基礎(chǔ)上，OS-Genesis 進(jìn)一步生成高階指令（High-level Instruction）。高階指令通過結(jié)合低階步驟和當(dāng)前 GUI 環(huán)境，描述了一個(gè)更為抽象且目標(biāo)明確的任務(wù)，例如 “配置應(yīng)用程序設(shè)置”。這種從低階到高階的逐步生成方法不僅確保了指令的邏輯一致性，還能最大化利用 GUI 環(huán)境中的動態(tài)特性。

通過上述反向任務(wù)合成，OS-Genesis 可以在沒有人工干預(yù)的情況下構(gòu)建多樣化、語義豐富的任務(wù)集合，顯著提升了數(shù)據(jù)生成的效率和質(zhì)量。

2-2 軌跡構(gòu)建與獎勵模型

反向任務(wù)合成生成的高階指令隨后被用作探索 GUI 環(huán)境的起點(diǎn)，進(jìn)一步構(gòu)建完整的軌跡數(shù)據(jù)（Trajectory）。為了確保生成軌跡的質(zhì)量，OS-Genesis 引入了一個(gè)獎勵模型（Trajectory Reward Model, TRM），對生成的軌跡進(jìn)行質(zhì)量評估和篩選。以下是軌跡構(gòu)建與獎勵模型的詳細(xì)流程：

軌跡執(zhí)行

利用反向任務(wù)合成生成的高階指令，GUI agent 會執(zhí)行一系列動作以完成任務(wù)。每條軌跡由以下內(nèi)容組成：高階指令、低階指令、動作序列以及狀態(tài)（包含截圖和 a11ytree）。

軌跡獎勵模型（Trajectory Reward Model）

為避免低質(zhì)量或不完整軌跡對模型訓(xùn)練的負(fù)面影響，OS-Genesis 使用 TRM 對每條軌跡分配一個(gè)獎勵分?jǐn)?shù)。獎勵分?jǐn)?shù)基于以下兩個(gè)指標(biāo)：

完成度（Completion）：衡量軌跡是否成功完成高階任務(wù)，包括每個(gè)步驟的正確性和邏輯連貫性。
一致性（Coherence）：評估軌跡的邏輯性，確保動作序列能夠高效地實(shí)現(xiàn)任務(wù)目標(biāo)。

獎勵驅(qū)動的數(shù)據(jù)篩選

根據(jù)獎勵分?jǐn)?shù)，軌跡數(shù)據(jù)會被優(yōu)先用于模型訓(xùn)練。與傳統(tǒng)的二元過濾方法（即拋棄執(zhí)行失敗的任務(wù)）不同，TRM 允許部分不完整但具有探索價(jià)值的軌跡保留在數(shù)據(jù)集中，從而最大化地利用生成的數(shù)據(jù)。

通過結(jié)合反向任務(wù)合成和獎勵模型，OS-Genesis 實(shí)現(xiàn)了從任務(wù)生成到軌跡構(gòu)建的端到端流程。實(shí)驗(yàn)結(jié)果表明，OS-Genesis 生成的數(shù)據(jù)在質(zhì)量和多樣性上均顯著優(yōu)于現(xiàn)有方法，為構(gòu)建通用 GUI agent 提供了可靠的數(shù)據(jù)支持。

3 實(shí)驗(yàn)

為了驗(yàn)證 OS-Genesis 在動態(tài)環(huán)境中生成高質(zhì)量軌跡數(shù)據(jù)的能力，本文在動態(tài)環(huán)境上進(jìn)行了實(shí)驗(yàn)。對于 Mobile 場景選擇了 AndroidWorld 和 AndroidControl，對于 Web 場景則使用了 WebArena 作為測評基準(zhǔn)。在這些復(fù)雜的環(huán)境中，作者測試用 OS-Genesis 合成數(shù)據(jù)訓(xùn)練的 agent 表現(xiàn)相對傳統(tǒng)方法效果如何。

3-1 模型與基線

VLMs. 作者在實(shí)驗(yàn)中選擇了代表性的 VLSs 作為 GUI agent 的基礎(chǔ)模型，以便全面評估 OS-Genesis 生成的數(shù)據(jù)在不同模型上的的影響：

InternVL2-4B/8B：一種支持高分辨率動態(tài)輸入的開源 VLM，主要用于視覺任務(wù)。其擴(kuò)展版本 InternVL2-8B 具有更大的模型容量。
Qwen2-VL-7B-Instruct：一種多模態(tài)模型，具備一定的 GUI 交互能力，專為指令執(zhí)行任務(wù)優(yōu)化。

此外，作者還額外添加了 GPT-4o 作為一個(gè)強(qiáng) baseline，來比較我們所訓(xùn)練的開源模型和商業(yè)模型之間的差距。

Baselinse. 所有的 baseline 接受的狀態(tài)信息均為 Screenshots + a11ytree

Zero-Shot：直接使用未經(jīng)過額外訓(xùn)練的模型完成任務(wù)。這種方法用于評估模型的原始能力。
Task-Driven：利用預(yù)定義任務(wù)和固定策略生成數(shù)據(jù)，廣泛應(yīng)用于傳統(tǒng)數(shù)據(jù)生成流程。
Self-Instruct：在 Task-Driven 的基礎(chǔ)上，引入自我指令生成機(jī)制來擴(kuò)展任務(wù)的和覆蓋范圍。

3-2 Mobile

在 AndroidWorld（In-domain 實(shí)驗(yàn)）中，OS-Genesis 生成的數(shù)據(jù)顯著提升了 GUI agents 的任務(wù)成功率，從基線的 9.82% 提升至 17.41%，幾乎翻倍。尤其是在任務(wù)規(guī)劃和復(fù)雜操作中，OS-Genesis 的數(shù)據(jù)展現(xiàn)了更強(qiáng)的適應(yīng)性和泛化能力。

在 AndroidControl 中（OOD 實(shí)驗(yàn)），OS-Genesis 生成的軌跡在高階和低階任務(wù)中均表現(xiàn)出色，特別是在高階任務(wù)中，其規(guī)劃能力提升尤為明顯。此外，OS-Genesis 在未見過的應(yīng)用場景下表現(xiàn)出了較強(qiáng)的泛化能力，驗(yàn)證了其生成數(shù)據(jù)的高質(zhì)量和多樣性。

3-3 Web

OS-Genesis 在 WebArena 中的表現(xiàn)也顯著優(yōu)于基線方法。對于復(fù)雜的交互式網(wǎng)頁任務(wù)（如 GitLab 和 Reddit），本工作的 agent 相比 Task-Driven 方法提升了約 50%。在多個(gè)動態(tài)網(wǎng)頁場景中，通過 OS-Genesis 生成的數(shù)據(jù)，agent 表現(xiàn)出了更高的多樣性和泛化能力，特別是在需要多步操作的任務(wù)中，其生成軌跡更符合邏輯和用戶意圖。

4 分析

本項(xiàng)工作對合成軌跡的質(zhì)量進(jìn)行了詳盡的分析，特別是將 OS-Genesis 生成的數(shù)據(jù)與人工標(biāo)注（Human-annotated）數(shù)據(jù)進(jìn)行了對比，以全面評估其在實(shí)際應(yīng)用中的可行性和有效性。

4-1 高階指令對比

作者首先比較了 OS-Genesis 生成的高階指令與人工編寫的高階指令在任務(wù)執(zhí)行中的效果。實(shí)驗(yàn)基于 AndroidWorld 的 500 個(gè)人工標(biāo)注軌高階任務(wù)，采用 GPT-4o 探索其對應(yīng)軌跡，并用這些軌跡訓(xùn)練基于 InternVL2-8B 和 Qwen2-VL-7B。為保證公平性，OS-Genesis 和各 baseline 的軌跡數(shù)量保持一致。

結(jié)果分析

在任務(wù)成功率上，OS-Genesis 生成的高階指令顯著優(yōu)于人工編寫的指令。這主要?dú)w因于以下兩點(diǎn)：

動態(tài)環(huán)境適配性：人工編寫的任務(wù)往往難以與復(fù)雜環(huán)境完全匹配，而 OS-Genesis 通過反向任務(wù)合成生成的指令能夠自適應(yīng) GUI 動態(tài)特性，更符合環(huán)境需求。
逐步生成策略：OS-Genesis 從低階指令逐步構(gòu)建高階指令，確保了指令的邏輯連貫性和可執(zhí)行性，而人工編寫的高階指令有時(shí)會因缺乏細(xì)節(jié)而導(dǎo)致軌跡不完整。

4-2 軌跡數(shù)據(jù)對比

為了進(jìn)一步驗(yàn)證軌跡質(zhì)量，作者探討了 OS-Genesis 生成的完整軌跡與人工標(biāo)注（Human-annotated）軌跡在 GUI agent 訓(xùn)練中的差異。作者從 AndroidControl 的訓(xùn)練集中選取了 1,000 條眾包標(biāo)注的軌跡進(jìn)行訓(xùn)練并對比。正如圖下，OS-Genesis 顯著縮小了合成軌跡與人工標(biāo)注軌跡之間的性能差距。

這種提升在高階任務(wù)中尤為顯著，表明基于 OS-Genesis 軌跡訓(xùn)練的 agent 在任務(wù)規(guī)劃和問題解決方面表現(xiàn)更接近于人類操作方式。從平均任務(wù)成功率來看，將人工標(biāo)注數(shù)據(jù)視為 gold standard，OS-Genesis 數(shù)據(jù)的性能保留率超過了 80%。

5 總結(jié)與展望

本項(xiàng)工作提出了 OS-Genesis，為有效構(gòu)建 GUI Agents 提供了全新的視角。通過引入一種全新的交互驅(qū)動合成方法，OS-Genesis 成功克服了以往數(shù)據(jù)收集中構(gòu)建（1）有意義且（2）多樣化的 GUI 任務(wù)的關(guān)鍵瓶頸。在多個(gè)挑戰(zhàn)性的 online 基準(zhǔn)測試中，作者證明了 OS-Genesis 生成的數(shù)據(jù)在構(gòu)建 GUI agents 的規(guī)劃和動作能力上實(shí)現(xiàn)了突破。此外，OS-Genesis 生成的軌跡數(shù)據(jù)展現(xiàn)出了更高的多樣性，并顯著縮小了合成數(shù)據(jù)與人工標(biāo)注數(shù)據(jù)之間的質(zhì)量差距。OS-Genesis 為生成高質(zhì)量 GUI agents 訓(xùn)練軌跡數(shù)據(jù)提供了一個(gè)有前景的方向，使研究領(lǐng)域在實(shí)現(xiàn)數(shù)字世界自動化的道路上更進(jìn)一步！

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<center id="vjryx"></center>