純視覺方案,精準(zhǔn)操控電腦和手機(jī)!港大Aria-UI登頂,超越Claude 3.5
在當(dāng)今數(shù)字時(shí)代,智能助手已成為處理跨平臺(tái)任務(wù)的不可或缺工具。
然而,如何將用戶的自然語言指令精準(zhǔn)映射(grounding)到界面元素一直是該領(lǐng)域的核心挑戰(zhàn)。
傳統(tǒng)解決方案主要依賴調(diào)用無障礙API、解析HTML源碼或提取后臺(tái)數(shù)據(jù),這些方法普遍存在效率低下、信息不完整、兼容性差等顯著痛點(diǎn),嚴(yán)重制約了自動(dòng)化技術(shù)的廣泛應(yīng)用。
港大聯(lián)合Rhymes AI推出的Aria-UI,通過開創(chuàng)性的「純視覺理解」方案徹底改變了這一現(xiàn)狀,無需任何后臺(tái)數(shù)據(jù)支持,僅通過直接觀察用戶界面就能完成自然語言理解、界面元素定位、語義對(duì)齊和任務(wù)執(zhí)行等全流程操作。這種新的設(shè)計(jì)不僅簡化了部署流程,更為跨平臺(tái)自動(dòng)化開辟了全新范式。
項(xiàng)目主頁:https://ariaui.github.io
Hugging Face在線demo:https://huggingface.co/spaces/Aria-UI/Aria-UI
GitHub倉庫:https://github.com/AriaUI/Aria-UI
論文鏈接:https://arxiv.org/abs/2412.1702
Aria-UI是一款專門面向GUI智能交互的創(chuàng)新型大規(guī)模多模態(tài)模型(LMM),顛覆性地實(shí)現(xiàn)了「看到即會(huì)操作」的自然交互范式 - 就像人類用戶一樣,AI只需「觀察」界面,即可理解并自主完成復(fù)雜的操作流程,從網(wǎng)頁瀏覽、文件處理到系統(tǒng)設(shè)置等任務(wù)都能輕松應(yīng)對(duì)。
在評(píng)估AI自動(dòng)化操作能力的權(quán)威基準(zhǔn)測試中,Aria-UI配合GPT-4o展現(xiàn)出卓越表現(xiàn):AndroidWorld榜單排名第一,OSWorld榜單排名第三!
這一成績不僅超越了業(yè)界領(lǐng)先的Claude 3.5 Sonnet computer-use接口,更展示了其在模擬人類操作電腦方面的強(qiáng)大能力。
Aria-UI采用創(chuàng)新的MoE (Mixture of Experts)架構(gòu),通過智能動(dòng)態(tài)激活機(jī)制,將模型參數(shù)需求壓縮至僅3.9B,同時(shí)保持較好的性能。這一突破性的輕量級(jí)設(shè)計(jì)帶來多重優(yōu)勢:
技術(shù)亮點(diǎn):
- 極致壓縮:僅激活3.9B參數(shù),大幅降低計(jì)算資源需求
- 高效推理:優(yōu)化的MoE架構(gòu)確??焖夙憫?yīng)和穩(wěn)定性能
- 廣泛適配:支持在資源受限場景下的靈活部署
- 開放生態(tài):全面開源模型權(quán)重與訓(xùn)練數(shù)據(jù)
- 部署便利:提供即用型vLLM推理腳本、支持主流huggingface transformers框架、完整的部署文檔與示例
這種開放共享的策略,配合便捷的部署方案,讓Aria-UI真正做到「開箱即用」。
Aria-UI的突破性創(chuàng)新
智能指令適配引擎:Aria-UI設(shè)計(jì)了數(shù)據(jù)生成pipeline,通過自動(dòng)合成海量高質(zhì)量訓(xùn)練樣本,為模型注入強(qiáng)大的指令理解能力。這套智能指令適配引擎使模型獲得了卓越的泛化性能,能從容應(yīng)對(duì)各類復(fù)雜任務(wù)場景,展現(xiàn)出非凡的環(huán)境適應(yīng)能力,為實(shí)現(xiàn)真正的通用型AI助手奠定了堅(jiān)實(shí)基礎(chǔ)。
動(dòng)態(tài)上下文感知:為實(shí)現(xiàn)高精度的任務(wù)執(zhí)行,Aria-UI創(chuàng)新性地融合了多模態(tài)上下文理解機(jī)制。通過整合文本記錄和圖文操作歷史,模型獲得了強(qiáng)大的場景理解能力,能準(zhǔn)確把握動(dòng)態(tài)變化的操作環(huán)境,將復(fù)雜指令精準(zhǔn)轉(zhuǎn)化為具體行動(dòng)。
全面性能測評(píng):Aria-UI在嚴(yán)格的性能評(píng)測中展現(xiàn)出令人矚目的技術(shù)優(yōu)勢,成功刷新了多個(gè)領(lǐng)域基準(zhǔn)的記錄。在純視覺人機(jī)交互基準(zhǔn)測試中,其表現(xiàn)遠(yuǎn)超現(xiàn)有最佳視覺模型;在與需要調(diào)用AXTree等額外信息的傳統(tǒng)方案對(duì)比中,Aria-UI僅依靠視覺理解就取得了顯著的性能提升。實(shí)驗(yàn)測評(píng)不僅驗(yàn)證了純視覺方法的可行性,更展示了其在界面自動(dòng)化領(lǐng)域(GUI Grounding)的應(yīng)用潛力。
隨著圖形用戶界面(GUI)在各大平臺(tái)的深度普及,它已然成為數(shù)字世界的核心交互方式。從日常生活場景到專業(yè)工作領(lǐng)域,GUI智能體正在重塑人機(jī)交互的方式,為任務(wù)自動(dòng)化開辟新天地。如圖2所示,一個(gè)完整的GUI智能體運(yùn)作可分為兩大核心階段:決策規(guī)劃(Planning)和視覺定位(Grounding)
在決策規(guī)劃階段,智能體通過分析當(dāng)前界面狀態(tài),制定執(zhí)行任務(wù)的具體策略;而在視覺定位階段,則需要將規(guī)劃好的指令精準(zhǔn)映射到實(shí)際界面元素上,確保操作的準(zhǔn)確執(zhí)行。
盡管大規(guī)模多模態(tài)模型(LMMs)在決策規(guī)劃方面取得顯著進(jìn)展,特別是在鏈?zhǔn)酵评恚–oT)和模型擴(kuò)展等技術(shù)的加持下,但如何實(shí)現(xiàn)語言指令到GUI元素的精準(zhǔn)定位仍然面臨重大挑戰(zhàn)。這些挑戰(zhàn)主要體現(xiàn)在三個(gè)層面:
- 跨設(shè)備兼容性:不同設(shè)備間界面布局存在巨大差異,要求模型具備強(qiáng)大的適應(yīng)能力
- 指令多樣性:規(guī)劃指令在形式和內(nèi)容上變化多端,考驗(yàn)?zāi)P偷睦斫饽芰?/span>
- 場景復(fù)雜性:任務(wù)執(zhí)行過程充滿動(dòng)態(tài)變化,對(duì)模型的實(shí)時(shí)響應(yīng)能力提出更高要求
這些挑戰(zhàn)不僅推動(dòng)著GUI智能體技術(shù)的持續(xù)創(chuàng)新,也為打造更智能、更實(shí)用的自動(dòng)化解決方案指明了方向。
多樣化指令適配:從數(shù)據(jù)到模型的全方位提升
在開發(fā)Aria-UI的過程中,研究人員深入剖析了當(dāng)前GUI Grounding領(lǐng)域的數(shù)據(jù)困境。傳統(tǒng)數(shù)據(jù)集普遍存在規(guī)模受限、封閉私有、平臺(tái)單一等問題,尤其是缺乏對(duì)動(dòng)態(tài)任務(wù)執(zhí)行過程中關(guān)鍵上下文信息的采集。這些局限性嚴(yán)重制約了多模態(tài)大模型(LMM)在跨平臺(tái)場景下的表現(xiàn)和通用性。
針對(duì)這些挑戰(zhàn),Aria-UI開創(chuàng)性地提出了一套 數(shù)據(jù)驅(qū)動(dòng)解決方案。通過構(gòu)建高度自動(dòng)化的數(shù)據(jù)生成pipeline,實(shí)現(xiàn)了對(duì)網(wǎng)頁、桌面和移動(dòng)端三大核心平臺(tái)的全面覆蓋。這套創(chuàng)新機(jī)制不僅顯著擴(kuò)充了訓(xùn)練數(shù)據(jù)的規(guī)模和多樣性,更為模型在復(fù)雜指令適配方面的能力提升開辟了新途徑。
多平臺(tái)數(shù)據(jù)擴(kuò)展:打造Web、PC與移動(dòng)端全場景覆蓋
Aria-UI 設(shè)計(jì)的數(shù)據(jù)生成pipeline包含兩個(gè)關(guān)鍵階段:
第一階段:精確元素描述生成
采用頂尖多模態(tài)語言模型(如GPT-4o或Qwen2-VL-72B)進(jìn)行元素描述生成。輸入數(shù)據(jù)包含:元素截圖、HTML文本信息、屏幕位置坐標(biāo)。
為確保描述質(zhì)量,研究人員優(yōu)化了視覺輸入方式:
? 獨(dú)立截圖:捕捉目標(biāo)元素局部畫面
? 放大視圖:用紅框標(biāo)注目標(biāo)元素在整體界面中的位置
這種方法能獲取元素特征,包括視覺屬性、功能特性和位置關(guān)系等。例如,一個(gè)紅色的“訂閱”按鈕描述為:位于ChefMaria烹飪頻道頭部右上角的'訂閱'按鈕,鮮紅色背景,白色文字搭配鈴鐺圖標(biāo),下方顯示2.3M訂閱者
第二階段:多樣化指令生成
基于第一階段的精確描述,利用LLM生成自然、多樣的操作指令。以上述訂閱按鈕為例:「訂閱ChefMaria的頻道?!?/span>
為增強(qiáng)數(shù)據(jù)多樣性,每個(gè)元素均生成3種不同表達(dá)的指令。通過這套精心設(shè)計(jì)的pipeline,成功構(gòu)建了覆蓋三大平臺(tái)的海量高質(zhì)量指令數(shù)據(jù)集,為模型訓(xùn)練提供了堅(jiān)實(shí)基礎(chǔ)。
網(wǎng)頁數(shù)據(jù)(Web)
網(wǎng)頁平臺(tái)以其豐富的交互形式和動(dòng)態(tài)特性,為構(gòu)建GUI Grounding數(shù)據(jù)集提供了理想環(huán)境?;谧钚碌腃ommon Crawl數(shù)據(jù)庫,設(shè)計(jì)了以下精細(xì)化處理流程:
? 網(wǎng)頁篩選:采用fastText技術(shù)進(jìn)行內(nèi)容質(zhì)量評(píng)估,有效過濾低質(zhì)量和不當(dāng)網(wǎng)頁,重點(diǎn)保留交互元素豐富的高價(jià)值頁面;
? 元素提取:基于HTML屬性進(jìn)行精準(zhǔn)識(shí)別,提取按鈕、圖標(biāo)等高交互性元素,優(yōu)先采集復(fù)雜度高且貼近實(shí)際應(yīng)用場景的界面內(nèi)容;
? 跨設(shè)備數(shù)據(jù)采集:運(yùn)用Playwright自動(dòng)化工具,同步采集1920×1080(標(biāo)準(zhǔn)分辨率)和2440×1600(高清分辨率)兩種規(guī)格的界面數(shù)據(jù),確保模型的廣泛適用性。
通過這套系統(tǒng)化的處理流程,成功從173K個(gè)網(wǎng)頁中提取了2M個(gè)高質(zhì)量交互元素,并最終生成了 6M條標(biāo)準(zhǔn)化指令樣本。這些覆蓋多種分辨率和界面復(fù)雜度的數(shù)據(jù),不僅完整展現(xiàn)了現(xiàn)代網(wǎng)頁的特性,更為GUI任務(wù)提供了豐富而實(shí)用的訓(xùn)練資源。
桌面數(shù)據(jù)(Desktop)
桌面環(huán)境數(shù)據(jù)的高質(zhì)量采集一直是研究中的關(guān)鍵難點(diǎn)。現(xiàn)有數(shù)據(jù)集普遍存在規(guī)模受限、采集成本高等問題,如OmniACT數(shù)據(jù)集僅包含7.3K條人工標(biāo)注樣本。
針對(duì)這一挑戰(zhàn),研究人員創(chuàng)新開發(fā)了基于大語言模型(LLM)的自動(dòng)化遍歷Agent,實(shí)現(xiàn)了桌面環(huán)境數(shù)據(jù)的高效采集:
? 智能遍歷策略: Agent通過實(shí)時(shí)解析操作系統(tǒng)的可訪問性樹(A11y),采用深度優(yōu)先搜索算法,系統(tǒng)性地探索和選擇界面中的交互元素,確保采集的全面性;
? 狀態(tài)追蹤機(jī)制:集成輕量級(jí)記憶模塊,實(shí)時(shí)記錄已訪問元素的狀態(tài)信息,有效避免重復(fù)采集,提升采集效率;
? 多模態(tài)數(shù)據(jù)捕獲:對(duì)每個(gè)交互元素進(jìn)行多維度信息采集,包括高清截圖、精確坐標(biāo)位置以及完整的A11y屬性描述,保證數(shù)據(jù)的完整性。
通過這套創(chuàng)新的采集系統(tǒng),成功獲取了50K個(gè)高質(zhì)量桌面交互元素,并借助數(shù)據(jù)處理流程最終生成了 150K條豐富多樣的指令樣本。這一成果顯著擴(kuò)充了桌面環(huán)境GUI Grounding數(shù)據(jù)的規(guī)模,為相關(guān)研究提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
移動(dòng)數(shù)據(jù)(Mobile)
移動(dòng)端是GUI自動(dòng)化研究的重點(diǎn)領(lǐng)域,已積累了豐富的公開數(shù)據(jù)資源。盡管目前最大的AMEX數(shù)據(jù)集包含了104K張屏幕截圖和1.6M個(gè)交互元素,但其元素描述過于簡單,缺乏與實(shí)際任務(wù)相匹配的自然語言指令。針對(duì)這一問題,Aria-UI 對(duì)AMEX數(shù)據(jù)進(jìn)行了系統(tǒng)性重構(gòu),通過高質(zhì)量的描述和指令重生成,在保持原有規(guī)模的同時(shí)顯著提升了數(shù)據(jù)質(zhì)量,為移動(dòng)端任務(wù)提供了更有效的訓(xùn)練基礎(chǔ)。
動(dòng)態(tài)上下文感知機(jī)制
相比于靜態(tài)任務(wù),動(dòng)態(tài)任務(wù)的成功執(zhí)行高度依賴于對(duì)上下文信息的準(zhǔn)確理解。Aria-UI 創(chuàng)新性地引入了 文本-圖像混合的操作歷史記錄,顯著增強(qiáng)了模型的上下文感知能力。在處理多步驟任務(wù)時(shí),模型不僅考慮當(dāng)前元素的特征,還綜合分析先前操作的完整記錄,從而生成更精準(zhǔn)的操作指令。這種深度上下文感知機(jī)制使 Aria-UI 在復(fù)雜任務(wù)場景中展現(xiàn)出優(yōu)異的準(zhǔn)確性和穩(wěn)定性。
跨平臺(tái)統(tǒng)一解決方案
通過上述創(chuàng)新設(shè)計(jì),Aria-UI 不僅有效克服了現(xiàn)有數(shù)據(jù)集的局限性,還在多樣化指令適配方面取得了突破性進(jìn)展。無論是網(wǎng)頁、桌面應(yīng)用還是移動(dòng)端界面,Aria-UI 都表現(xiàn)出卓越的性能,為跨平臺(tái)GUI自動(dòng)化提供了一站式解決方案。這些進(jìn)展為未來更廣泛的任務(wù)自動(dòng)化應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
模型框架:高效與精準(zhǔn)的結(jié)合
Aria-UI 基于先進(jìn)的MoE多模態(tài)大模型Aria構(gòu)建,充分繼承和優(yōu)化了其核心優(yōu)勢,實(shí)現(xiàn)了效率與精確度的最佳平衡:
深度多模態(tài)理解:Aria的原生多模態(tài)架構(gòu)專門設(shè)計(jì)用于處理復(fù)雜的跨模態(tài)信息,使GUI智能體能夠準(zhǔn)確理解和響應(yīng)多樣化的交互場景;
高效計(jì)算架構(gòu):得益于精巧的模型設(shè)計(jì),Aria以僅3.9B的激活參數(shù)實(shí)現(xiàn)了超越7B規(guī)模密集模型的推理速度,確保了實(shí)際應(yīng)用中的快速響應(yīng)能力。
突破分辨率限制, 精準(zhǔn)適配復(fù)雜界面
面對(duì)顯示技術(shù)從1080p向2K及更高分辨率演進(jìn)的趨勢,高分辨率圖像處理能力已成為GUI Grounding模型的核心需求。
研究人員對(duì)Aria的基礎(chǔ)架構(gòu)進(jìn)行了創(chuàng)新性改進(jìn):通過智能分塊策略,將原本980×980的處理能力提升至 3920×2940,實(shí)現(xiàn)了超高分辨率支持。
為確保高分辨率場景下的精確定位,采用了基于NaViT的優(yōu)化方案,通過保持原始寬高比的智能填充技術(shù),有效降低了圖像變形帶來的精度損失。這些技術(shù)創(chuàng)新使Aria-UI能夠在各種分辨率環(huán)境下保持穩(wěn)定的性能表現(xiàn)。
訓(xùn)練與推理策略:構(gòu)建動(dòng)態(tài)環(huán)境適應(yīng)能力
Aria-UI采用雙階段訓(xùn)練方案,系統(tǒng)性地建立基礎(chǔ)能力并強(qiáng)化動(dòng)態(tài)適應(yīng)性:
基礎(chǔ)能力構(gòu)建階段
在第一階段,研究人員專注于培養(yǎng)模型的核心GUI Grounding能力。模型接收標(biāo)準(zhǔn)格式的指令輸入(如「給定GUI圖像,定位以下描述對(duì)應(yīng)元素的像素坐標(biāo)」),通過大量單步指令-坐標(biāo)對(duì)的訓(xùn)練,學(xué)習(xí)準(zhǔn)確輸出歸一化坐標(biāo)值(0-1000范圍內(nèi))的基礎(chǔ)能力,為后續(xù)的動(dòng)態(tài)任務(wù)處理奠定堅(jiān)實(shí)基礎(chǔ)。
動(dòng)態(tài)能力增強(qiáng)階段
第二階段著重增強(qiáng)模型的動(dòng)態(tài)任務(wù)處理能力,引入了包含純文本歷史和文本-圖像混合歷史的上下文感知訓(xùn)練。
為了維持模型的普適性并防止過度擬合,在訓(xùn)練集中保留了20%的單步數(shù)據(jù),確保模型在保持動(dòng)態(tài)處理能力的同時(shí)不會(huì)丟失基礎(chǔ)定位準(zhǔn)確度。
智能推理機(jī)制
在實(shí)際推理階段,Aria-UI將輸出統(tǒng)一的標(biāo)準(zhǔn)化坐標(biāo)([0, 1000]范圍),并能夠?qū)v史操作記錄作為上下文輸入處理。這種設(shè)計(jì)使模型能夠像進(jìn)行對(duì)話一樣處理連續(xù)的交互任務(wù),將過往的元素定位與交互記錄納入決策考量,從而在復(fù)雜的動(dòng)態(tài)環(huán)境中展現(xiàn)出優(yōu)異的適應(yīng)能力和穩(wěn)定性。
憑借這套創(chuàng)新的技術(shù)架構(gòu),Aria-UI在多個(gè)關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了突破:精準(zhǔn)支持從1080p到4K的超高分辨率界面、靈活適配多樣化布局設(shè)計(jì),同時(shí)在復(fù)雜動(dòng)態(tài)環(huán)境中展現(xiàn)出較強(qiáng)的任務(wù)處理能力和環(huán)境適應(yīng)性。
Agent任務(wù)表現(xiàn)
研究人員在ScreenSpot基準(zhǔn)數(shù)據(jù)集上對(duì)Aria-UI的基礎(chǔ)GUI Grounding能力進(jìn)行了系統(tǒng)評(píng)估。該測試集包含六個(gè)細(xì)分場景,覆蓋兩類界面元素和三大主流平臺(tái)(移動(dòng)端、網(wǎng)頁、桌面端)。
每個(gè)測試樣本由一張GUI截圖和對(duì)應(yīng)的定位指令組成,其中移動(dòng)端和網(wǎng)頁場景采用2K分辨率,桌面端場景則使用540p分辨率,全面驗(yàn)證模型在不同應(yīng)用環(huán)境下的定位準(zhǔn)確性。
在綜合性能測試中,Aria-UI展現(xiàn)出卓越的定位能力,在全部測試子集上取得了82.4%的最優(yōu)平均準(zhǔn)確率。特別是在文本元素定位任務(wù)中,模型表現(xiàn)尤為突出,超越現(xiàn)有方案。這些結(jié)果充分證明了Aria-UI在跨平臺(tái)場景和多元素類型中具備強(qiáng)大的適應(yīng)性與泛化能力。
移動(dòng)端離線Agent測試
研究人員對(duì)Aria-UI在移動(dòng)端離線動(dòng)態(tài)場景中的性能進(jìn)行了深入評(píng)估,重點(diǎn)驗(yàn)證其為代理任務(wù)軌跡提供精準(zhǔn)定位坐標(biāo)的能力。評(píng)估采用了三個(gè)專業(yè)測試集:AndroidControl-Low、GUI-Odyssey和AndroidControl-High。
其中,前兩個(gè)測試集包含了完整的逐步操作指令(人工標(biāo)注或自動(dòng)生成),而AndroidControl-High則僅提供任務(wù)目標(biāo),需要借助GPT-4o作為規(guī)劃器來分解和生成具體操作步驟。這種評(píng)估框架使我們能夠全面檢驗(yàn)?zāi)P驮谌蝿?wù)精度和完成率兩個(gè)關(guān)鍵指標(biāo)上的表現(xiàn)。
在實(shí)驗(yàn)中,研究人員設(shè)計(jì)并評(píng)估了Aria-UI的兩個(gè)關(guān)鍵變體:
- Aria-UI_TH(文本動(dòng)作歷史):該變體在推理過程中集成了Agent的歷史動(dòng)作文本描述,通過上下文信息增強(qiáng)來優(yōu)化當(dāng)前元素的定位準(zhǔn)確性。這種設(shè)計(jì)在計(jì)算效率和性能表現(xiàn)間實(shí)現(xiàn)了理想平衡。
- Aria-UI_IH(文本-圖像交替歷史):該變體在文本動(dòng)作歷史的基礎(chǔ)上,額外引入了前序步驟的圖像信息作為輔助輸入。這種多模態(tài)融合策略為任務(wù)提供了更豐富的上下文感知,尤其適合需要精確視覺理解的復(fù)雜場景。
實(shí)驗(yàn)結(jié)果顯示,兩個(gè)變體都在AndroidControl和GUI-Odyssey測試集上取得了突破性進(jìn)展,顯著超越現(xiàn)有基準(zhǔn)模型。歷史信息的引入(無論是純文本還是文本-圖像結(jié)合)都有效提升了元素定位精度和任務(wù)完成質(zhì)量。其中,Aria-UI_TH憑借其出色的性能與效率權(quán)衡,展現(xiàn)出特別優(yōu)異的應(yīng)用價(jià)值。
網(wǎng)頁端離線Agent測試
研究人員采用Multimodal-Mind2Web基準(zhǔn)對(duì)Aria-UI在網(wǎng)頁代理任務(wù)中的性能進(jìn)行了全面評(píng)估。該基準(zhǔn)包含三個(gè)具有挑戰(zhàn)性的測試場景:跨任務(wù)、跨網(wǎng)站和跨領(lǐng)域,旨在系統(tǒng)驗(yàn)證模型在零樣本環(huán)境下的泛化能力。
實(shí)驗(yàn)結(jié)果令人矚目:Aria-UI系列模型在所有測試場景中均顯著領(lǐng)先于現(xiàn)有基準(zhǔn)方案,整體平均準(zhǔn)確率達(dá)到57.5%。
其中,融入歷史信息的變體表現(xiàn)更為出色,Aria-UI_TH和Aria-UI_IH的準(zhǔn)確率進(jìn)一步提升至58.9%。特別值得一提的是,Aria-UI_IH在跨網(wǎng)站和跨領(lǐng)域測試中展現(xiàn)出卓越表現(xiàn),充分證明了其在處理復(fù)雜多模態(tài)上下文方面的優(yōu)勢。
在線Agent評(píng)估
移動(dòng)端與網(wǎng)頁端性能
采用AndroidWorld基準(zhǔn)測試框架,在Android模擬器環(huán)境中對(duì)移動(dòng)端代理進(jìn)行了嚴(yán)格的在線評(píng)估。評(píng)估采用系統(tǒng)狀態(tài)檢測機(jī)制,通過監(jiān)測虛擬設(shè)備的實(shí)時(shí)狀態(tài)來判定任務(wù)完成情況。
同時(shí),還引入了AndroidWorld提供的MobileMiniWob++任務(wù)集,這是一個(gè)基于經(jīng)典Web代理環(huán)境MiniWob++構(gòu)建的專業(yè)測試集。
- AndroidWorld測試:Aria-UI展現(xiàn)出突破性成果,其中Aria-UI_TH變體實(shí)現(xiàn)了44.8%的任務(wù)成功率,創(chuàng)造了新的性能基準(zhǔn)。這一成績不僅超越了現(xiàn)有最優(yōu)方案,還優(yōu)于依賴AXTree輸入的非純視覺方法(如SoM和Choice)。這充分證明了Aria-UI作為純視覺GUI代理的卓越能力,展示了其在復(fù)雜真實(shí)場景中的穩(wěn)定性和適應(yīng)性。
- MobileMiniWob++測試:在純視覺輸入條件下,Aria-UI的表現(xiàn)顯著優(yōu)于其他視覺方法和基于選擇的方案。雖然在這個(gè)結(jié)構(gòu)相對(duì)簡單的測試環(huán)境中,基于GPT-4-Turbo的SoM方法取得了最佳成績,但Aria-UI仍然在純視覺處理領(lǐng)域展現(xiàn)出領(lǐng)先優(yōu)勢。
OSWorld評(píng)估:復(fù)雜操作系統(tǒng)環(huán)境測試
在最具挑戰(zhàn)性的操作系統(tǒng)模擬環(huán)境OSWorld中,研究人員對(duì)Aria-UI進(jìn)行了深入評(píng)估。通過將Aria-UI作為核心定位模型,并與GPT-4o協(xié)同運(yùn)作,我們完成了涵蓋369個(gè)實(shí)際應(yīng)用場景的綜合測試。
實(shí)驗(yàn)結(jié)果顯示,Aria-UI創(chuàng)造了15.15%的平均任務(wù)成功率,顯著領(lǐng)先于所有現(xiàn)有方案。特別值得關(guān)注的是,在多個(gè)高難度應(yīng)用場景中,Aria-UI展現(xiàn)出卓越性能:
- VLC播放器任務(wù):30.06%
- Chrome瀏覽器操作:23.80%
- Impress演示制作:15.32%
這些證明了Aria-UI在處理復(fù)雜GUI交互時(shí)的優(yōu)越能力。
綜合性能總結(jié)
通過一系列嚴(yán)格的在線評(píng)估,Aria-UI在多個(gè)關(guān)鍵場景中均展現(xiàn)出全面的技術(shù)優(yōu)勢:
- 移動(dòng)端環(huán)境:優(yōu)異的定位精度
- 網(wǎng)頁端應(yīng)用:出色的交互能力
- 操作系統(tǒng)環(huán)境:強(qiáng)大的任務(wù)完成能力
這些測試結(jié)果有力地證明了Aria-UI作為純視覺GUI代理的技術(shù)先進(jìn)性,展示了其在復(fù)雜多變的實(shí)際應(yīng)用環(huán)境中的卓越適應(yīng)能力和操作精準(zhǔn)度。
總結(jié)
Aria-UI通過一系列嚴(yán)格的在線測試,在移動(dòng)端、網(wǎng)頁端及復(fù)雜的操作系統(tǒng)模擬環(huán)境中均展現(xiàn)出顯著的技術(shù)優(yōu)勢,全面超越現(xiàn)有最先進(jìn)解決方案。
這些測試成果不僅驗(yàn)證了Aria-UI作為純視覺GUI代理的卓越性能,更凸顯了其超強(qiáng)的環(huán)境適應(yīng)能力、精確的元素定位能力和可靠的任務(wù)完成能力。如此全方位的優(yōu)異表現(xiàn),有力地證實(shí)了Aria-UI在處理復(fù)雜人機(jī)交互任務(wù)時(shí)的技術(shù)成熟度和實(shí)用價(jià)值。