自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你的專屬“鋼鐵俠”助手OS Agents來了!浙大聯(lián)手OPPO、零一萬物等10個機構推出全新綜述

人工智能 新聞
多模態(tài)大語言模型的發(fā)展為操作系統(tǒng)智能體(OS Agents)創(chuàng)造了新的機遇,使得實現(xiàn)先進AI助手的想法更加接近現(xiàn)實。

電影《鋼鐵俠》中,托尼·斯塔克的助手賈維斯(J.A.R.V.I.S.)能幫他控制各種系統(tǒng)并自動完成任務,曾讓無數(shù)觀眾羨慕不已。

現(xiàn)在,這樣的超級智能助手,終于變成現(xiàn)實了!

隨著多模態(tài)大語言模型的爆發(fā)式進化,OS Agents橫空出世,它們能無縫操控電腦和手機,為你自動搞定繁瑣任務。

從Anthropic的Computer Use,到蘋果的Apple Intelligence,再到智譜AI的AutoGLM,以及Google DeepMind的Project Mariner,科技巨頭們的野心都指向了同一個目標:打造真正意義上的操作系統(tǒng)智能助手。

OS Agents 已經不僅僅是“助手”,它們正在改寫“人機交互”的游戲規(guī)則。

最近,浙江大學聯(lián)手OPPO、零一萬物等十個機構共同梳理了一篇綜述文章《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》,不僅詳細解讀了OS Agents的硬核技術構造,還盤點了它們的評估方法和未來挑戰(zhàn)。

科技行業(yè)的下一個新風口,會是OS Agents嗎?

圖片

OS Agents商業(yè)學術同時迸發(fā)

像賈維斯這樣的超級AI助手,一般被稱為OS Agents,它們能夠通過操作系統(tǒng)(OS)提供的環(huán)境和接口(如圖形用戶界面,GUI),在諸如電腦或者手機等計算設備上自動化的完成各類任務。

OS Agents有巨大的潛力改善全球數(shù)十億用戶的生活,想象一個世界:在線購物、預訂差旅等日?;顒佣伎梢杂蛇@些智能體無縫完成,這將大幅提高人們的生活效率和生產力。

過去,諸如Siri[1]、Cortana[2]和Google Assistant[3]等AI助手,已經展示了這一潛力。然而,由于模型能力在過去較為有限,導致這些產品只能完成有限的任務。

幸運的是,隨著多模態(tài)大語言模型的不斷發(fā)展,如Gemini[4] 、GPT[5] 、Grok[6] 、Yi[7] 和Claude[8] 系列模型(排名根據(jù)2024年12月22日更新的 Chatbot Arena LLM Leaderboard[9]),這一領域迎來了新的可能性。

(M)LLMs展現(xiàn)出令人矚目的能力,使得OS Agents能夠更好地理解復雜任務并在計算設備上執(zhí)行。

基礎模型公司和手機廠商近期在這一領域動作頻頻,例如最近由Anthropic推出的Computer Use[10]、由蘋果公司推出的Apple Intelligence[11]、由智譜AI推出的AutoGLM[12]和由Google DeepMind推出的Project Mariner [13]。

其中,Computer Use利用Claude[14]與用戶的計算機直接互動,可以實現(xiàn)無縫的任務自動化。

與此同時,學術界已經提出了各種方法來構建基于(M)LLM的OS Agents。

例如,OS-Atlas[15]提出一種 GUI 基礎模型,通過跨多個平臺綜合 GUI 操作數(shù)據(jù),大幅改進了模型對 GUI 的操作能力,提升OOD任務的表現(xiàn)。

而OS-Copilot[16]則是一種OS Agents框架,能夠使智能體在少監(jiān)督情況下實現(xiàn)廣泛的計算機任務自動化,并展示了其在多種應用中的泛化能力和自我改進能力。

圖片

△OS Agents的部分代表性商業(yè)產品與學術研究

本文是對OS Agents進行的一次全面綜述。

首先闡明OS Agents的基礎,探討了其關鍵要素,包括環(huán)境、觀察空間和動作空間,并概述了理解、規(guī)劃和執(zhí)行操作等核心能力。

接著,審視了構建OS Agents的方法,重點關注OS Agents領域特定的基礎模型和智能體框架的開發(fā)。

隨后,文章詳細回顧了評估協(xié)議和基準測試,展示了OS Agents在多種任務中的評估方式。

最后,文章討論了當前的挑戰(zhàn)并指出未來研究的潛在方向,包括安全與隱私、個性化與自我進化。

本文旨在梳理OS Agents研究的現(xiàn)狀,為學術研究和工業(yè)開發(fā)提供幫助。

為了進一步推動該領域的創(chuàng)新,團隊還維護了一個開源的GitHub倉庫,包含250+有關OS Agents的論文以及其他相關資源,并且仍在持續(xù)更新中。(鏈接在文章末尾~)

圖片

△OS Agents基礎:關鍵要素和核心能力

OS Agents基礎

關鍵要素 (Key Component)

要實現(xiàn) OS Agents 對計算設備的通用控制,需要通過與操作系統(tǒng)提供的環(huán)境、輸入和輸出接口進行交互來完成目標。

為滿足這種交互需求,現(xiàn)有的 OS Agents 依賴三個關鍵要素:

  • 環(huán)境(Environment):智能體操作的系統(tǒng)或平臺,例如電腦、手機和瀏覽器。環(huán)境是智能體完成任務的舞臺,支持從簡單的信息檢索到復雜的多步驟操作。
  • 觀察空間(Observation Space):智能體可獲取的所有信息范圍。這些信息諸如屏幕截圖、文本描述或GUI界面結構,是智能體理解環(huán)境和任務的基礎。例如,網頁的 HTML 代碼或手機的屏幕截圖。
  • 動作空間(Action Space):智能體與環(huán)境交互的動作集合。它定義了可執(zhí)行的操作,如點擊、輸入文本、導航操作甚至調用外部工具。這使得智能體能夠自動化完成任務并優(yōu)化工作流。

核心能力 (Capability)

在OS Agents的這些關鍵要素后,如何與操作系統(tǒng)正確、有效的交互,這就需要考驗OS Agents自身各方面的能力。

OS Agents必須掌握的核心能力可以總結為如下三點:

  • 理解(Understanding):OS Agents 首先需要理解復雜的操作環(huán)境。無論是 HTML 代碼、屏幕截圖,還是屏幕界面中密集的圖標和文本信息,智能體都需要通過理解能力提取關鍵內容,構建對任務和環(huán)境的全面認知。這種理解能力是處理信息檢索等任務的前提。
  • 規(guī)劃(Planning):在任務執(zhí)行中,OS Agents 的規(guī)劃能力至關重要。規(guī)劃能力要求OS Agents將復雜任務拆解為多個子任務,并制定操作序列來實現(xiàn)目標。同時,它們最好還要能夠據(jù)環(huán)境變化動態(tài)調整計劃,以適應復雜的操作系統(tǒng)環(huán)境,例如動態(tài)網頁和實時更新的用戶屏幕界面。
  • 操作(Grounding):OS Agents最終需要將規(guī)劃轉化為具體的、可執(zhí)行的操作,例如點擊按鈕、輸入文本或調用 API。這種將規(guī)劃“落地”的能力使得它們能夠在真實環(huán)境中高效完成任務,并實現(xiàn)從文字描述到操作執(zhí)行的精準轉換。

OS Agents的構建

基礎模型 (Foundation Model)

要構建能夠高效執(zhí)行任務的 OS Agents ,其核心在于開發(fā)適配的基礎模型。

這些模型不僅需要理解復雜的屏幕界面,還要在多模態(tài)場景下執(zhí)行任務。

下面是對基礎模型的架構與訓練策略的詳細歸納與總結:

圖片

△OS Agents基礎模型:架構、預訓練、監(jiān)督微調和強化學習

架構(Architecture):我們將主要的模型架構分為四個類別:1、Existing LLMs:直接采用開源的大語言模型架構,將結構化的屏幕界面信息以文本形式輸入給LLMs,從而使得模型可以感知環(huán)境;2、Existing MLLMs:直接采用開源的多模態(tài)大語言模型架構,整合文本和視覺處理能力,提升對GUI的理解能力,減少文本化視覺信息而造成的特征損失;3、 Concatenated MLLMs:由LLM與視覺編碼器橋接而成,靈活性更高,可以根據(jù)任務需求選擇不同的語言模型和視覺模型進行組合;4、Modified MLLMs:對現(xiàn)有 MLLM 架構進行優(yōu)化調整,以解決特定場景的挑戰(zhàn),如:添加額外模塊(高分辨率視覺編碼器或圖像分割模塊等),以更細致地感知和理解屏幕界面細節(jié)。

預訓練(Pre-training):預訓練為模型構建打下基礎,通過海量數(shù)據(jù)提升對屏幕界面的理解能力。數(shù)據(jù)源包括公共數(shù)據(jù)集、合成數(shù)據(jù)集;預訓練任務覆蓋屏幕定位(Screen Grounding)、屏幕理解(Screen Understanding)與光學字符識別(OCR)等。

監(jiān)督微調(Supervised Fine-tuning):監(jiān)督微調讓模型更貼合 GUI 場景,是提升OS Agents規(guī)劃能力和執(zhí)行能力的重要手段。例如,通過記錄任務執(zhí)行軌跡生成訓練數(shù)據(jù),或利用 HTML 渲染屏幕界面細節(jié),提升模型對不同 GUI 的泛化能力。

強化學習(Reinforcement Learning):現(xiàn)階段的強化學習實現(xiàn)了用(M)LLMs作為特征提取到(M)LLM-as-Agent的范式轉變,幫助了OS Agents在動態(tài)環(huán)境中交互,根據(jù)獎勵反饋,不斷優(yōu)化決策。這種方法不僅提升了智能體的對齊程度,還為視覺和多模態(tài)智能體提供了更強的泛化能力與任務適配性。

近期OS Agents基礎模型的相關論文總結如下:

圖片

△OS Agents基礎模型近期研究工作總結

智能體框架 (Agent Framework)

OS Agents 除了需要強大的基礎模型,還需要搭配上Agent框架來增強感知、規(guī)劃、記憶和行動能力。

這些模塊協(xié)同工作,使 OS Agents 能夠高效應對復雜的任務和環(huán)境。

以下是OS Agents框架中四大關鍵模塊的總結歸納:

圖片

△OS Agents框架:感知、規(guī)劃、記憶和行動

感知(Perception):感知作為OS Agents 的“眼睛”,通過輸入的多模態(tài)數(shù)據(jù)(如屏幕截圖、HTML 文檔)觀察環(huán)境。我們將感知細分為:1、文本感知:將操作系統(tǒng)的狀態(tài)轉化為結構化文本描述,如 DOM 樹或 HTML 文件;2、屏幕界面感知:使用視覺編碼器對屏幕界面截圖進行理解,通過視覺定位(如按鈕、菜單)和語義連接(如 HTML 標記)精準識別關鍵元素。

規(guī)劃(Planning):規(guī)劃作為OS Agents 的“大腦”,負責制定任務的執(zhí)行策略,可以分為:1、全局規(guī)劃:一次生成完整計劃并執(zhí)行;2、迭代規(guī)劃:隨著環(huán)境變化動態(tài)調整計劃,使智能體能夠適應實時更新的屏幕界面和任務需求。

記憶(Memory):OS Agents框架的“記憶”部分可以幫助存儲任務數(shù)據(jù)、操作歷史和環(huán)境狀態(tài)。記憶分為三個類型:1、內部記憶(Internal Memory):存儲操作歷史、屏幕截圖、狀態(tài)數(shù)據(jù)和動態(tài)環(huán)境信息,支持任務執(zhí)行的上下文理解和軌跡優(yōu)化。例如,借助截圖解析屏幕界面布局或根據(jù)歷史操作生成決策;2、外部記憶(External Memory):提供長期知識支持,例如通過調用外部工具(如 API)或知識庫獲取領域背景知識,輔助復雜任務的決策;3、特定記憶(Specific Memory):聚焦于特定任務的知識和用戶需求,例如存儲子任務分解方法、用戶偏好或屏幕界面交互功能,提供高度針對性的操作支持。此外,我們還總結了多種記憶優(yōu)化策略。

行動(Action):我們將OS Agents 的行動范圍定義為動作空間,這包含操作系統(tǒng)交互的方式,我們將其細分為三個類別:1、輸入操作:輸入是 OS Agents 與數(shù)字屏幕界面交互的基礎,主要包括鼠標操作、觸控操作和鍵盤操作;2、導航操作:使 OS Agents 能夠探索和移動于目標平臺,獲取執(zhí)行任務所需的信息;3、擴展操作:突破了傳統(tǒng)屏幕界面交互的限制,為智能體提供更靈活的任務執(zhí)行能力,例如:代碼執(zhí)行與API 調用。

近期有關OS Agents框架的論文總結如下:

圖片

△OS Agents框架近期研究工作總結

OS Agents的評估

在 OS Agents 的發(fā)展中,科學的評估起到了關鍵作用,幫助開發(fā)者衡量智能體在各種場景中的性能。

下面的表格總結了近期有關OS Agents評估基準的論文:

圖片

△OS Agents Benchmark近期研究工作總結

評估協(xié)議 (Evaluation Protocol)

操作系統(tǒng)智能體評估的核心可總結為兩個關鍵問題:評估過程應如何進行與需要對哪些方面進行評估。

下面本文將圍繞這兩個問題,闡述操作系統(tǒng)智能體的評估原則和指標。

  • 評估原則(Evaluation Principle):OS Agents 的評估結合了多維度的技術方法,提供對其能力與局限性的全面洞察,主要分為兩種類型:1、客觀評估(Objective Evaluation):通過標準化的數(shù)值指標,評估智能體在特定任務中的性能。例如,操作的準確性、任務的成功率以及語義匹配的精準度。這樣的評估方法能快速且標準化地衡量智能體的性能;2、主觀評估(Subjective Evaluation):基于人類用戶的主觀感受,評估智能體的輸出質量,包括其相關性、自然性、連貫性和整體效果。越來越多的研究也利用(M)LLM-as-Judge來進行評估,從而提高效率和一致性。
  • 評估指標(Evaluation Metric):評估指標聚焦于 OS Agents 的理解、規(guī)劃和操作能力,衡量其在不同任務中的表現(xiàn)。主要包括以下兩個方面:1、步驟級指標:評估智能體在每一步操作中的準確性,如任務執(zhí)行中動作的語義匹配程度、操作準確性等;2、任務級指標:聚焦于整個任務完成情況,包括任務的成功率和完成任務的效率。

評估基準 (Evaluation Benchmark)

為了全面評估 OS Agents 的性能,研究者開發(fā)了多種評估基準,涵蓋不同平臺、環(huán)境設置和任務類別。

這些基準測試為衡量智能體的跨平臺適應性、動態(tài)任務執(zhí)行能力提供了科學依據(jù)。

評估平臺(Evaluation Platform):評估平臺構建了集成的評估環(huán)境,不同平臺具有獨特的挑戰(zhàn)和評估重點,我們將其主要分為三類:移動平臺(Mobile)、桌面平臺(Desktop)與網頁平臺(Web)。

基準設置(Benchmark Setting):該部分將 OS Agents 的評估環(huán)境分為兩大類:靜態(tài)(Static)環(huán)境和交互式(Interactive)環(huán)境,并進一步將交互式環(huán)境細分為模擬(Simulated)環(huán)境和真實世界(Real-World)環(huán)境。靜態(tài)環(huán)境適用于基礎任務的離線評估,而交互式環(huán)境(尤其是真實世界環(huán)境)更能全面測試OS Agents在復雜動態(tài)場景中的實際能力。真實世界環(huán)境強調泛化能力和動態(tài)適應性,是未來評估的重要方向。

任務(Task):為了全面評估OS Agents的能力,當前的基準測試整合了各種專業(yè)化任務,涵蓋從系統(tǒng)級任務(如安裝和卸載應用程序)到日常應用任務(如發(fā)送電子郵件和在線購物)。主要可以分為以下三類:1、GUI 定位(GUI Grounding):評估OS Agents將指令轉換為屏幕界面操作的能力,即如何在操作系統(tǒng)中與指定的可操作元素交互;2、信息處理(Information Processing):評估OS Agents高效處理和總結信息的能力,尤其在動態(tài)和復雜環(huán)境中,從大量數(shù)據(jù)中提取有用信息;3、智能體任務(Agentic Tasks):評估OS Agents的核心能力,如規(guī)劃和執(zhí)行復雜任務的能力。這類任務為智能體提供目標或指令,要求其在沒有顯式指導的情況下完成任務。

挑戰(zhàn)與未來

本部分討論了 OS Agents 面臨的主要挑戰(zhàn)及未來發(fā)展的方向,重點聚焦于安全與隱私(Safety & Privacy)以及個性化與自我進化(Personalization & Self-Evolution)兩個方面。

安全與隱私

安全與隱私是OS Agents開發(fā)中必須重視的領域。

OS Agents 面臨多種攻擊方式,包括間接提示注入攻擊、惡意彈出窗口和對抗性指令生成,這些威脅可能導致系統(tǒng)執(zhí)行錯誤操作或泄露敏感信息。

盡管目前已有適用于LLMs的安全框架,但針對OS Agents的防御機制仍顯不足。

當前研究主要集中于設計專門應對注入攻擊和后門攻擊等特殊威脅的防御方案,急待開發(fā)全面的且可擴展防御框架,以提升 OS Agents 的整體安全性和可靠性。

為評估OS Agents在不同場景下的魯棒性,還引入了一些智能體安全基準測試,用于全面測試和改進系統(tǒng)的安全表現(xiàn),例如ST-WebAgentBench[17]和MobileSafetyBench[18]。

個性化與自我進化

個性化OS Agents需要根據(jù)用戶偏好不斷調整行為和功能。

多模態(tài)大語言模型正逐步支持理解用戶歷史記錄和動態(tài)適應用戶需求,OpenAI的Memory功能[19]在這一方向上已經取得了一定進展。

讓智能體通過用戶交互和任務執(zhí)行過程持續(xù)學習和優(yōu)化,從而提升個性化程度和性能。

未來將記憶機制擴展到更復雜的形式,如音頻、視頻、傳感器數(shù)據(jù)等,從而提供更高級的預測能力和決策支持。

同時,支持用戶數(shù)據(jù)驅動的自我優(yōu)化,增強用戶體驗。

總結

多模態(tài)大語言模型的發(fā)展為操作系統(tǒng)智能體(OS Agents)創(chuàng)造了新的機遇,使得實現(xiàn)先進AI助手的想法更加接近現(xiàn)實。

本綜述旨在概述OS Agents的基礎,包括其關鍵組成部分和能力。

此外,文章還回顧了構建OS Agents的多種方法,特別關注領域特定的基礎模型和智能體框架。

在評估協(xié)議和基準測試中,團隊成員細致分析了各類評估指標,并且將基準測試從環(huán)境、設定與任務進行分類。

展望未來,團隊明確了需要持續(xù)研究和關注的挑戰(zhàn),例如安全與隱私、個性化與自我進化等。這些領域是進一步研究的重點。

本綜述總結了該領域的當前狀態(tài),并指出了未來工作的潛在方向,旨在為OS Agents的持續(xù)發(fā)展貢獻力量,并增強其在學術界和工業(yè)界的應用價值與實際意義。

如有錯誤,歡迎大家批評指正,作者也表示,期待各位同行朋友交流討論!

論文鏈接:https://github.com/OS-Agent-Survey/OS-Agent-Survey
項目主頁:https://os-agent-survey.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-03-14 11:31:52

零一萬物AI框架

2011-09-05 22:08:31

博通騰達雙波段路由器

2025-01-06 09:45:00

AI訓練數(shù)據(jù)

2025-04-21 09:00:00

智能體AI模型

2013-05-20 10:32:53

RunJS

2023-09-02 12:49:01

2017-08-07 14:24:16

互聯(lián)網

2013-10-12 14:40:07

2012-10-10 10:17:05

Google微軟開放式網頁標準

2012-09-19 14:43:14

2011-08-28 16:26:20

清華同方筆記本

2024-01-22 13:59:00

模型訓練

2015-11-27 14:04:00

微軟Windows 10

2024-01-29 07:15:00

模型數(shù)據(jù)

2011-10-08 13:54:43

同方筆記本

2011-10-09 09:42:46

同方筆記本

2017-10-09 12:51:28

鋼鐵俠
點贊
收藏

51CTO技術棧公眾號