自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

解放雙手！OSCAR讓操作系統(tǒng)交互實現(xiàn)自然語言「自由」

作者：機器之心 2025-02-03 12:19:58

人工智能新聞

OSCAR 作為通用智能體，憑借靈活的狀態(tài)機和動態(tài)的重新規(guī)劃能力，在桌面和智能手機操作系統(tǒng)任務(wù)中展現(xiàn)出強大的適應(yīng)性和有效性。

本文作者王曉強，加拿大蒙特利爾大學(xué)（Université de Montréal）和 Mila 人工智能研究所博士生，師從劉邦教授。博士期間的主要研究方向為自然語言處理，重點關(guān)注大語言模型的能力評估及其在智能體中的應(yīng)用。目前已在自然語言處理領(lǐng)域的頂級會議 ACL、EMNLP 等發(fā)表多篇論文。

在人工智能的宏大發(fā)展藍圖里，通用人工智能（AGI）堪稱研究者們夢寐以求的「圣杯」，其終極目標是打造出像人類一樣擁有廣泛且靈活智能的系統(tǒng)，能夠理解、學(xué)習(xí)并勝任幾乎所有任務(wù)。在邁向這個目標的征程中，實現(xiàn)人工智能與數(shù)字世界的高效交互至關(guān)重要，而桌面任務(wù) UI 自動化更是其中的關(guān)鍵賽道。

想象一下，未來我們只需輕松說出指令，電腦就能自動完成各種復(fù)雜操作，繁瑣的手動操作成為歷史，工作效率大幅提升，這樣的場景是不是很令人期待？

去年，Anthropic 發(fā)布的 Computer use 為 AI 在桌面操作領(lǐng)域帶來了新突破。它允許開發(fā)者通過 API，讓 Claude 像人類一樣操作計算機，極大拓展了 AI 在桌面操作領(lǐng)域的應(yīng)用場景。

今年一月份，OpenAI 重磅推出的 Computer Using Agent（CUA）也備受矚目，其賦能的 Operator 憑借 GPT-4o 的視覺能力，能夠「看懂」網(wǎng)站并與之交互，還可在 ChatGPT 界面自動執(zhí)行多種常規(guī)瀏覽器任務(wù)。

與它們采用商用 API 不同，今天要給大家介紹一個來自加拿大蒙特利爾大學(xué)和 Mila 研究所的研究團隊的開源解決方案 ——OSCAR（Operating System Control via state-Aware reasoning and Re-planning）。

OSCAR 不僅實現(xiàn)了桌面任務(wù) UI 自動化，還在多個操作系統(tǒng)環(huán)境（桌面 Windows、Ubuntu 和智能手機 Android）完成了泛化與驗證。目前，該研究已被 AI 領(lǐng)域頂級會議 ICLR 錄用。下面，就讓我們深入了解一下它的創(chuàng)新之處。

論文題目：OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning
論文鏈接：https://arxiv.org/abs/2410.18963

操作系統(tǒng) UI 交互自動化面臨的挑戰(zhàn)：動態(tài)自適應(yīng)難題

基于多模態(tài)大型語言模型（MLLM）的智能體（Agent）在復(fù)雜任務(wù)自動化領(lǐng)域表現(xiàn)出色，廣泛應(yīng)用于網(wǎng)絡(luò)瀏覽、游戲、軟件開發(fā)等場景，但不同應(yīng)用的觀察和動作空間差異極大，導(dǎo)致智能體通用性差，難以適應(yīng)復(fù)雜工作流。

此外，以往的 UI 交互智能體多在靜態(tài)離線的環(huán)境中開發(fā)，靠視覺問答和預(yù)設(shè)動作路徑操作，缺乏操作系統(tǒng)實時反饋，任務(wù)失敗時無法動態(tài)自適應(yīng)。在現(xiàn)實應(yīng)用中，實時反饋和自適應(yīng)調(diào)整對適應(yīng)新的 UI 環(huán)境至關(guān)重要，比如「打開某文件并打印」有多種操作路徑，可通過開始菜單搜索，也能直接導(dǎo)航路徑，但傳統(tǒng)智能體難以應(yīng)對這種多樣性。

具體構(gòu)建通用 UI 交互智能體面臨以下挑戰(zhàn)：

統(tǒng)一控制接口難題：智能體需熟練運用鼠標、鍵盤等標準輸入方式，精準理解視覺信息并轉(zhuǎn)化為指令，在不同應(yīng)用中穩(wěn)定高效操作。
UI 定位困境：智能體要能解讀屏幕信息，精準識別各類元素，如網(wǎng)頁搜索時準確找到搜索框并正確交互，對其理解和定位能力要求高。
新 UI 探索與重規(guī)劃挑戰(zhàn)：智能體需像人類面對陌生軟件一樣，具備動態(tài)探索和調(diào)整計劃的能力，能處理軟件崩潰等意外，依據(jù)反饋優(yōu)化策略。

OSCAR 的獨特設(shè)計：靈活狀態(tài)機與動態(tài)重規(guī)劃的巧妙結(jié)合

為解決上述難題，研究團隊推出 OSCAR。它以代碼為核心控制方式，與動態(tài)操作系統(tǒng)環(huán)境自主交互，創(chuàng)新點如下：

狀態(tài)機架構(gòu)：OSCAR 采用狀態(tài)機模式，通過 [Init]（初始化）、[Observe]（觀察）、[Plan]（規(guī)劃）、[Execute]（執(zhí)行）、[Verify]（驗證）等狀態(tài)循環(huán)，處理任務(wù)各環(huán)節(jié)。遇到問題時利用實時反饋重新規(guī)劃，比傳統(tǒng)方式效率更高、適應(yīng)性更強。

OSCAR 狀態(tài)機

視覺和語義雙重 UI 定位：OSCAR 利用 Set-of-Mark（SoM）提示技術(shù)和可訪問性（A11Y）樹生成視覺提示，精準定位 UI 元素；同時添加描述性標簽進行語義定位，便于把握 UI 布局，靈活操作元素。

OSCAR 視覺和語義雙重 UI 定位

任務(wù)驅(qū)動重新規(guī)劃：受計劃 - 解決提示（plan-and-solve）啟發(fā)，OSCAR 將用戶指令分解為子任務(wù)并逐步生成動作。收到負面反饋時，針對特定子任務(wù)重新規(guī)劃，避免整體重規(guī)劃，提高效率并防止錯誤傳播。
基于代碼的動作：OSCAR 借助生成的語義定位信息，利用元素 ID 或坐標引用交互元素，通過 PyAutoGUI 庫生成控制代碼，精確控制操作系統(tǒng)。

OSCAR 任務(wù)分解與重規(guī)劃

OSCAR 實驗驗證：UI 理解、定位和動態(tài)導(dǎo)航能力的實力認證

研究人員在 GAIA、OSWorld、AndroidWorld 等多個真實世界工作流自動化基準測評數(shù)據(jù)集中對 OSCAR 進行了評估，這些基準涵蓋了不同難度和類型的任務(wù)，包括簡單操作、復(fù)雜多步驟任務(wù)以及跨多種應(yīng)用的任務(wù)。

1. 基準測評成績突出：在 GAIA 基準測試中，OSCAR 在所有工作流復(fù)雜程度級別上都表現(xiàn)最佳。尤其是在最復(fù)雜的 Level 3 任務(wù)上，成功率達到 13.5%，幾乎是之前最先進方法的兩倍。在 OSWorld 和 AndroidWorld 基準測評中，OSCAR 同樣超越其他智能體，展現(xiàn)出強大的適應(yīng)性。

6a. GAIA 基準測評

6b. OSWorld 基準測評

6c. AndroidWorld 基準測評

OSCAR 在基準測評 GAIA, OSWorld 和 AndroidWorld 中取得最好水平

2. 規(guī)劃效率優(yōu)勢顯著：

在成功案例中，OSCAR 成功案例所需重新規(guī)劃次數(shù)更少，而且每次重新規(guī)劃的步驟更高效

在失敗案例中，OSCAR 在錯誤完成（FC）、達到步驟限制（RSL）和無效動作（IA）這些情況中的重新規(guī)劃冗余度（RR）明顯低于其他智能體系統(tǒng)

結(jié)語：開啟操作系統(tǒng)交互新時代

OSCAR 作為通用智能體，憑借靈活的狀態(tài)機和動態(tài)的重新規(guī)劃能力，在桌面和智能手機操作系統(tǒng)任務(wù)中展現(xiàn)出強大的適應(yīng)性和有效性。它為自動化工作流提供了高效通用的解決方案，有望成為提升動態(tài)操作系統(tǒng)環(huán)境生產(chǎn)力的有力工具，讓操作系統(tǒng)交互變得更加便捷、高效、易訪問。而且，憑借其開源特性，未來 OSCAR 還將在眾多開發(fā)者的共同努力下不斷進化，持續(xù)助力通用人工智能與數(shù)字世界實現(xiàn)完美交互。

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練智能體

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<acronym id="fffjc"><p id="fffjc"></p></acronym>

<acronym id="fffjc"><nav id="fffjc"></nav></acronym>