自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI讓手機(jī)任務(wù)自動“跑”起來！我國高校最新研究，簡化移動設(shè)備操作

作者：量子位 2024-10-31 16:42:41

人工智能移動開發(fā)

移動任務(wù)自動化利用AI精準(zhǔn)捕捉并解析人類意圖，進(jìn)而在移動設(shè)備（手機(jī)、平板電腦、車機(jī)終端）上高效執(zhí)行多樣化任務(wù)，為那些因認(rèn)知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。

AI解放碳基生物雙手，甚至能讓你的手機(jī)自己玩自己！

你沒聽錯——這其實(shí)就是移動任務(wù)自動化。

在AI飛速發(fā)展下，這逐漸成為一個新興的熱門研究領(lǐng)域。

移動任務(wù)自動化利用AI精準(zhǔn)捕捉并解析人類意圖，進(jìn)而在移動設(shè)備（手機(jī)、平板電腦、車機(jī)終端）上高效執(zhí)行多樣化任務(wù)，為那些因認(rèn)知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。

幫助視障人群用戶完成導(dǎo)航、閱讀或網(wǎng)上購物
輔助老年人使用手機(jī)，跨越數(shù)字鴻溝
幫助車主在駕駛過程中完成發(fā)送短信或調(diào)節(jié)車內(nèi)環(huán)境
替用戶完成日常生活中普遍存在的重復(fù)性任務(wù)
……

媽媽再也不嫌重復(fù)設(shè)置多個日歷事項(xiàng)會心煩了。

最近，來自西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室 (MOE KLINNS Lab）的蔡忠閩教授、宋云鵬副教授團(tuán)隊(duì)（團(tuán)隊(duì)主要研究方向?yàn)橹悄苋藱C(jī)交互、混合增強(qiáng)智能、電力系統(tǒng)智能化等），基于團(tuán)隊(duì)最新AI研究成果，創(chuàng)新性提出了基于視覺的移動設(shè)備任務(wù)自動化方案VisionTasker。

這項(xiàng)研究不僅為普通用戶提供了更智能的移動設(shè)備使用體驗(yàn)，也展現(xiàn)出了對特殊需求群體的關(guān)懷與賦能。

基于視覺的移動設(shè)備任務(wù)自動化方案

團(tuán)隊(duì)提出了VisionTasker，一個結(jié)合基于視覺的UI理解和LLM任務(wù)規(guī)劃的兩階段框架，用于逐步實(shí)現(xiàn)移動任務(wù)自動化。

該方案有效消除了表示UI對視圖層次結(jié)構(gòu)的依賴，提高了對不同應(yīng)用界面的適應(yīng)性。

值得注意的是，利用VisionTasker無需大量數(shù)據(jù)訓(xùn)練大模型。

VisionTasker從用戶以自然語言提出任務(wù)需求開始工作， Agent開始理解并執(zhí)行指令。

具體實(shí)現(xiàn)如下：

1、用戶界面理解

VisionTasker通過視覺的方法做UI理解來解析和解釋用戶界面。

首先Agent識別并分析用戶界面上的元素及布局，如按鈕、文本框、文字標(biāo)簽等。

然后，將這些識別到的視覺信息轉(zhuǎn)換成自然語言描述，用于解釋界面內(nèi)容。

2、任務(wù)規(guī)劃與執(zhí)行

接下來，Agent利用大語言模型導(dǎo)航，根據(jù)用戶的指令和界面描述信息做任務(wù)規(guī)劃。

將用戶任務(wù)拆解為可執(zhí)行的步驟，如點(diǎn)擊或滑動操作，以自動推進(jìn)任務(wù)的完成。

3、持續(xù)迭代以上過程

每一步完成后，Agent都會根據(jù)最新界面和歷史動作更新其對話和任務(wù)規(guī)劃，確保每一步的決策都是基于當(dāng)前上下文的。

這是個迭代的過程，將持續(xù)進(jìn)行直到判斷任務(wù)完成或達(dá)到預(yù)設(shè)的限制。

用戶不僅能從交互中解放雙手，還可以通過可見提示監(jiān)控任務(wù)進(jìn)度，并隨時中斷任務(wù)，保持對整個流程的控制。

首先是識別界面中的小部件和文本，檢測按鈕、文本框等元素及其位置。

對于沒有文本標(biāo)簽的按鈕，利用 CLIP 模型基于視覺設(shè)計(jì)來推斷其可能功能。

隨后，系統(tǒng)根據(jù) UI 布局的視覺信息進(jìn)行區(qū)塊劃分，將界面分割成多個具有不同功能的區(qū)塊，并對每個區(qū)塊生成自然語言描述。

這個過程還包括文本與小部件的匹配，確保正確理解每個元素的功能。

最終，所有這些信息被轉(zhuǎn)化為自然語言描述，為大語言模型提供清晰、語義豐富的界面信息，使其能夠有效地進(jìn)行任務(wù)規(guī)劃和自動化操作。

實(shí)驗(yàn)評估

實(shí)驗(yàn)評估部分，該項(xiàng)目提供了對三種UI理解的比較分析，分別是：

GPT-4V
VH（視圖層級）
VisionTasker方法

△三種UI理解方法的比較分析

對比顯示，VisionTasker在多個維度上比其他方法有顯著優(yōu)勢。

此外，在處理跨語言應(yīng)用時也表現(xiàn)出了良好的泛化能力。

△ 實(shí)驗(yàn)1中使用到的常見UI布局

表明VisionTasker的以視覺為基礎(chǔ)的UI理解方法在理解和解釋UI方面具有明顯優(yōu)勢，尤其是在面對多樣化和復(fù)雜的用戶界面時尤為明顯。

△跨四個數(shù)據(jù)集的單步預(yù)測準(zhǔn)確性

文章還進(jìn)行了單步預(yù)測實(shí)驗(yàn)，根據(jù)當(dāng)前的任務(wù)狀態(tài)和用戶界面，預(yù)測接下來應(yīng)該執(zhí)行的動作或操作。

結(jié)果顯示，VisionTasker在所有數(shù)據(jù)集上的平均準(zhǔn)確率達(dá)到了67%，比基線方法提高了15%以上。

真實(shí)世界任務(wù)：VisionTasker vs 人類

實(shí)驗(yàn)過程中，研究人員設(shè)計(jì)了147個真實(shí)的多步驟任務(wù)來測試VisionTasker的表現(xiàn)，這些任務(wù)涵蓋了國內(nèi)常用的42個應(yīng)用程序。

與此同時，團(tuán)隊(duì)還設(shè)置了人類對比測試，由12名人類評估者手動執(zhí)行這些任務(wù)，然后VisionTasker的結(jié)果進(jìn)行比較。

結(jié)果顯示，VisionTasker在大多數(shù)任務(wù)中能達(dá)到與人類相當(dāng)?shù)耐瓿陕剩⑶以谀承┎皇煜さ娜蝿?wù)中表現(xiàn)優(yōu)于人類。

△實(shí)際任務(wù)自動化實(shí)驗(yàn)的結(jié)果 “Ours-qwen”是指使用開源Qwen實(shí)現(xiàn)VisionTasker框架，”O(jiān)urs”表示使用文心一言作為LLM

團(tuán)隊(duì)還評估了VisionTasker在不同條件下的表現(xiàn)，包括使用不同的大語言模型（LLM）和編程演示（PBD）機(jī)制。

VisionTasker 在大多數(shù)直觀任務(wù)中達(dá)到了與人類相當(dāng)?shù)耐瓿陕剩谑煜と蝿?wù)中略低于人類但在不熟悉任務(wù)中優(yōu)于人類。

△VisionTasker逐步完成任務(wù)的展示

結(jié)論

作為一個基于視覺和大模型的移動任務(wù)自動化框架，VisionTasker克服了現(xiàn)階段移動任務(wù)自動化對視圖層級結(jié)構(gòu)的依賴。

通過一系列對比實(shí)驗(yàn)，證明其在用戶界面表現(xiàn)上超越了傳統(tǒng)的編程演示和視圖層級結(jié)構(gòu)方法。

它在4個不同的數(shù)據(jù)集上都展示了高效的UI表示能力，表現(xiàn)出更廣泛的應(yīng)用性；并在Android手機(jī)上的147個真實(shí)世界任務(wù)中，特別是在復(fù)雜任務(wù)的處理上，表現(xiàn)了出超越人類的任務(wù)完成能力。

此外，通過集成編程演示（PBD）機(jī)制，VisionTasker在任務(wù)自動化方面有顯著的性能提升。

目前，該工作已以正式論文的形式發(fā)表于2024年10月13-16日在美國匹茲堡舉行的人機(jī)交互頂級會議UIST（The ACM Symposium on User Interface Software and Technology）。

UIST是人機(jī)交互領(lǐng)域?qū)Ｗ⒂谌藱C(jī)界面軟件和技術(shù)創(chuàng)新的CCF A類頂級學(xué)術(shù)會議。

原文鏈接：https://dl.acm.org/doi/10.1145/3654777.3676386
項(xiàng)目鏈接：https://github.com/AkimotoAyako/VisionTasker

責(zé)任編輯：張燕妮來源：量子位

AI 移動開發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營