自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里北交大實(shí)習(xí)生論文火了!MobileAgent 可模擬人類玩轉(zhuǎn)手機(jī),網(wǎng)友:加速剁手、吃土!

原創(chuàng) 精選
人工智能
MobileAgent是由阿里巴巴聯(lián)合北京交通大學(xué)(一名在阿里實(shí)習(xí)的童鞋)開(kāi)發(fā)的一個(gè)自主多模態(tài)AI代理,可以模擬人類操作手機(jī),是一個(gè)純視覺(jué)解決方案,不需要任何系統(tǒng)代碼,完全通過(guò)分析圖像來(lái)理解和操作手機(jī)。

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

“太酷了,以后就靠AI幫我加速剁手吃土了?!苯找豢蠲麨镸obileAgent的移動(dòng)智能代理引起了圈內(nèi)人的注意。

一個(gè)驚艷之處在于,這款A(yù)gent為“手機(jī)+GPT4”結(jié)合,做出了一個(gè)很好的應(yīng)用示范,簡(jiǎn)直解鎖了一種手機(jī)新形態(tài)。

MobileAgent與Siri、智能客服不同的是,規(guī)劃和推理方面非常出色,能夠自動(dòng)完成各種復(fù)雜任務(wù),比如——

在Alibaba上幫助用戶找到帽子,并根據(jù)條件添加到購(gòu)物車;

在Amazon Music中搜索歌手Jay Chou或播放關(guān)于“代理”的音樂(lè);

在Chrome中搜索今日湖人隊(duì)比賽結(jié)果或關(guān)于Taylor Swift的信息;

在Gmail中發(fā)送空郵件或具有特定內(nèi)容的郵件;

在TikTok上為寵物貓視頻點(diǎn)贊或評(píng)論等,還可以結(jié)合使用多個(gè)應(yīng)用完成復(fù)雜任務(wù)。

在Chrome中搜索今日湖人隊(duì)比賽結(jié)果或關(guān)于Taylor Swift的信息在Chrome中搜索今日湖人隊(duì)比賽結(jié)果或關(guān)于Taylor Swift的信息

在TikTok中滑動(dòng)一段關(guān)于寵物貓的視頻,然后點(diǎn)擊“點(diǎn)贊”觀看該視頻。在TikTok中滑動(dòng)一段關(guān)于寵物貓的視頻,然后點(diǎn)擊“點(diǎn)贊”觀看該視頻。

據(jù)悉,MobileAgent是由阿里巴巴聯(lián)合北京交通大學(xué)(一名在阿里實(shí)習(xí)的童鞋)開(kāi)發(fā)的一個(gè)自主多模態(tài)AI代理,可以模擬人類操作手機(jī),是一個(gè)純視覺(jué)解決方案,不需要任何系統(tǒng)代碼,完全通過(guò)分析圖像來(lái)理解和操作手機(jī)。

圖片圖片

最重要的特性有四點(diǎn):純可視化解決方案,獨(dú)立于XML 和系統(tǒng)元數(shù)據(jù);操作范圍不受限制,可進(jìn)行多應(yīng)用操作;多種視覺(jué)感知工具,用于操作定位;無(wú)需探索和培訓(xùn),即插即用。

圖片圖片

現(xiàn)在代碼已經(jīng)放在github上,感興趣的朋友不妨移步去實(shí)操一番:

https://github.com/X-PLUG/MobileAgent

1、多模態(tài)大模型的威力釋放到手機(jī)上

圖片圖片

眾所周知,GPT4的在端側(cè)的本地能力是不足的,即便最先進(jìn)的GPT-4V,仍然缺乏足夠的視覺(jué)感知能力來(lái)作為有效的媒介,雖然可以產(chǎn)生有效的操作,但它很難在屏幕上準(zhǔn)確定位這些操作的位置。這種限制阻礙了僅通過(guò)高級(jí)多模態(tài)大模型在移動(dòng)設(shè)備上進(jìn)行操作的能力。

為了解決這個(gè)問(wèn)題,此前有人想到一個(gè)通過(guò)利用用戶界面布局文件來(lái)幫助GPT-4V進(jìn)行本地化的辦法,但效果差強(qiáng)人意。

與以往依賴應(yīng)用程序的XML文件或移動(dòng)系統(tǒng)元數(shù)據(jù)的解決方案不同,Mobile-Agent以視覺(jué)為中心,在各種移動(dòng)操作環(huán)境中具有更大的適應(yīng)性,消除了對(duì)特定系統(tǒng)定制的必要性。

MobileAgent利用視覺(jué)感知工具準(zhǔn)確識(shí)別和定位應(yīng)用程序前端界面的視覺(jué)和文字元素,實(shí)現(xiàn)了自主規(guī)劃和分解復(fù)雜操作任務(wù),通過(guò)逐步操作導(dǎo)航移動(dòng)應(yīng)用程序。

2、如何評(píng)估多模態(tài)大模型作為手機(jī)Agent的能力

阿里團(tuán)隊(duì)為了評(píng)估該代理的準(zhǔn)確率和性能,還搭建了一套適配不同場(chǎng)景的基準(zhǔn)測(cè)試集,包括電商購(gòu)物、音樂(lè)、瀏覽器、地圖、應(yīng)用商店、記事本、系統(tǒng)設(shè)置、視頻、短視頻、跨App等。每個(gè)場(chǎng)景設(shè)計(jì)了三個(gè)不同難度的指令,以評(píng)估 Mobile-Agent 在各種任務(wù)下的表現(xiàn),

圖片圖片

總結(jié)來(lái)看,MobileAgent有三類使用場(chǎng)景:

(1)自動(dòng)化移動(dòng)設(shè)備操作:Mobile-Agent可用于自動(dòng)化執(zhí)行移動(dòng)應(yīng)用程序中的任務(wù),提高效率。

(2)移動(dòng)設(shè)備性能評(píng)估:利用Mobile-Agent進(jìn)行移動(dòng)設(shè)備操作評(píng)估,以提高性能。

(3)提高移動(dòng)應(yīng)用程序適應(yīng)性:Mobile-Agent可幫助移動(dòng)應(yīng)用程序在不同環(huán)境中實(shí)現(xiàn)更大的適應(yīng)性。

該代理的功能特色也可圈可點(diǎn):

利用多模大語(yǔ)言模型技術(shù);利用視覺(jué)感知工具準(zhǔn)確識(shí)別和定位應(yīng)用程序前端界面中的視覺(jué)和文字元素;自主規(guī)劃和分解復(fù)雜操作任務(wù);通過(guò)逐步操作來(lái)導(dǎo)航移動(dòng)應(yīng)用程序;具有更大的適應(yīng)性,消除了對(duì)特定系統(tǒng)定制的必要性;引入了Mobile-Eval,用于評(píng)估移動(dòng)設(shè)備操作的基準(zhǔn)。

3、工作原理一覽

MobileAgent工作原理包括三方面:視覺(jué)感知工具,自主任務(wù)規(guī)劃和執(zhí)行,自反思和提示格式。MobileAgent使用了視覺(jué)感知模塊、文本和圖標(biāo)定位,自主規(guī)劃和自反思方法來(lái)實(shí)現(xiàn)對(duì)手機(jī)應(yīng)用的操作。

圖片圖片

觀察、思考和行動(dòng)是MobileAgent采用的提示格式,要求代理輸出三個(gè)組成部分。

圖片 圖片

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2018-11-13 12:28:34

2011-09-15 09:50:33

2017-11-10 17:30:28

雙11

2012-11-19 13:53:42

職場(chǎng)Google實(shí)習(xí)生

2021-05-10 11:25:12

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2021-06-24 17:37:58

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2014-01-07 09:23:41

項(xiàng)目管理

2024-12-04 13:30:00

2010-10-12 11:06:07

招聘

2013-06-07 09:59:40

Google實(shí)習(xí)面試

2009-09-17 09:35:17

微軟實(shí)習(xí)生

2012-11-14 10:27:08

人類心臟模擬Sequoia

2022-07-01 09:20:00

模型研究論文

2011-12-07 20:37:42

iOSAndroid谷歌

2015-04-14 15:05:35

Web前端開(kāi)發(fā)騰訊暑期實(shí)習(xí)生

2024-01-09 15:51:56

Rust開(kāi)發(fā)Trait

2020-07-27 08:26:03

數(shù)據(jù)庫(kù) SQL索引

2021-05-20 19:56:08

泄露密碼數(shù)據(jù)泄露網(wǎng)絡(luò)攻擊

2009-03-13 08:58:04

AOL裁員實(shí)習(xí)

2021-07-26 09:31:09

自動(dòng)化測(cè)試編程語(yǔ)言手機(jī)編程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)