自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

控制電腦手機(jī)的智能體人人都能造,微軟開源OmniParser

人工智能 新聞
有網(wǎng)友發(fā)現(xiàn)蘋果已經(jīng)默默發(fā)布了 Ferret-UI 的兩個(gè)實(shí)現(xiàn)版本(分別基于 Gemma 2B 和 Llama 8B)。

最近這幾天,讓大模型具備控制計(jì)算機(jī)(包括電腦和手機(jī))的相關(guān)研究和應(yīng)用如雨后春筍般不斷涌現(xiàn)。

先是 Anthropic 發(fā)布了能控制計(jì)算機(jī)的新版 Claude 3.5 Sonnet,之后榮耀 MagicOS 9.0 來了個(gè)全局智能體,再然后,昨天智譜發(fā)布了具備「全棧式工具使用能力」的 AutoGLM,同時(shí)華為也公布了一項(xiàng)可讓 AI 像人類一樣操作手機(jī)的新研究成果 LiMAC。

很顯然,這股熱潮完全沒有要停息的意思。今天,有網(wǎng)友發(fā)現(xiàn)蘋果已經(jīng)默默發(fā)布了 Ferret-UI 的兩個(gè)實(shí)現(xiàn)版本(分別基于 Gemma 2B 和 Llama 8B),這是蘋果今年五月發(fā)布的一個(gè)可讓 AI 理解手機(jī)屏幕的技術(shù),詳情參閱《讓大模型理解手機(jī)屏幕,蘋果多模態(tài) Ferret-UI 用自然語言操控手機(jī)》。

圖片

來自 X 用戶  Niels Rogge

  • Ferret-UI 項(xiàng)目地址:https://huggingface.co/papers/2404.05719

不僅如此,微軟也低調(diào)開源了他們的相關(guān)研究 OmniParser,這是一個(gè)基于大模型的屏幕解析工具,可將 UI 截圖轉(zhuǎn)換成結(jié)構(gòu)化的元素;據(jù)稱其解析和理解 UI 的能力達(dá)到了當(dāng)前最佳水平,甚至超越了 GPT-4V。

圖片

  • 項(xiàng)目地址:https://huggingface.co/microsoft/OmniParser
  • 代碼地址:https://github.com/microsoft/OmniParser
  • 論文標(biāo)題:OmniParser for Pure Vision Based GUI Agent
  • 論文地址:https://arxiv.org/abs/2408.00203

有了這個(gè)工具,或許每個(gè)人都可以創(chuàng)建自己的計(jì)算機(jī)操控智能體了。

圖片

先來看看 OmniParser 的效果。對于一個(gè)用戶任務(wù):「將約翰內(nèi)斯堡提供素食選擇的餐廳保存到我的行程中」。

OmniParser 首先會(huì)解析 Tripadvisor 網(wǎng)頁屏幕上的所有元素,然后它成功從中找到了「餐廳」選項(xiàng)。之后它點(diǎn)擊(動(dòng)作執(zhí)行需要搭配其它模型)該選項(xiàng),打開了一個(gè)搜索框。OmniParser 繼續(xù)解析,這一次沒有在屏幕上找到所需關(guān)鍵詞,于是它在搜索框中輸入了「約翰內(nèi)斯堡」。再次解析后,它打開了相應(yīng)的搜索項(xiàng),展開了搜索結(jié)果。同樣,繼續(xù)解析,它成功定位到了素食選項(xiàng),然后進(jìn)行了勾選。最后,點(diǎn)擊篩選出的第一個(gè)選項(xiàng)上的相應(yīng)按鈕將其收藏到行程中。至此,任務(wù)完成。

圖片

而如果你想看看能否進(jìn)入布萊斯峽谷國家公園呢?OmniParser 也能助你輕松完成。

圖片

整體來看,OmniParser 的解析能力非常出色,過程也還算流暢。

我們知道,不同的操作系統(tǒng)和應(yīng)用有著大不相同的交互界面。為了穩(wěn)健地應(yīng)對各種不同情況,屏幕解析模型需要:

  1. 可靠地識(shí)別交互界面內(nèi)可交互的圖標(biāo);
  2. 理解屏幕截圖中各種不同元素的含義,并將計(jì)劃動(dòng)作與屏幕上相應(yīng)的區(qū)域準(zhǔn)確地關(guān)聯(lián)起來。

OmniParser 正是為這一目的而生的。OmniParser 可基于用戶任務(wù)和 UI 截圖輸出:(1) 解析后的截圖,帶有邊界框和數(shù)值 ID,(2) 包含提取出的文本和圖標(biāo)描述的局部語義。下面展示了幾個(gè)例子:

圖片

圖片

圖片

如果再搭配上其它可以基于 UI 采取行動(dòng)的模型(比如 GPT-4V、Phi-3.5 和 Llama 3.2),便可以創(chuàng)造出可以理解并控制計(jì)算機(jī)的智能體。

該團(tuán)隊(duì)用 GPT-4V 做了實(shí)驗(yàn),結(jié)果發(fā)現(xiàn) OmniParser 能大幅提升其為界面區(qū)域生成精準(zhǔn)動(dòng)作的能力。他們使用 OmniParser 和 GPT-4V 創(chuàng)建的一個(gè)智能體在 WindowsAgentArena 基準(zhǔn)上達(dá)到了最佳水平。

OmniParser 是如何煉成的?

收集和整理專用數(shù)據(jù)集 ——OmniParser 的開發(fā)始于創(chuàng)建兩個(gè)數(shù)據(jù)集:

  • 一個(gè)可交互區(qū)域檢測數(shù)據(jù)集,該數(shù)據(jù)集收集整理自常見的網(wǎng)頁,其中可點(diǎn)擊和可操作的區(qū)域都做了標(biāo)注。
  • 一個(gè)圖標(biāo)描述數(shù)據(jù)集,旨在將每個(gè) UI 元素與其相應(yīng)的功能關(guān)聯(lián)起來。在訓(xùn)練模型以理解檢測到的元素的語義方面,此數(shù)據(jù)集非常關(guān)鍵。

下面展示了可交互區(qū)域檢測數(shù)據(jù)集的一些樣本示例。

圖片

對檢測和描述模型進(jìn)行微調(diào) ——OmniParser 使用了兩個(gè)互補(bǔ)的模型:

  • 一個(gè)檢測模型,在可交互圖標(biāo)數(shù)據(jù)集上進(jìn)行了微調(diào),其能可靠地識(shí)別屏幕截圖中的可操作區(qū)域。
  • 一個(gè)描述模型,在圖標(biāo)描述數(shù)據(jù)集上完成了訓(xùn)練,其作用是提取檢測到的元素的功能語義,為預(yù)期操作生成準(zhǔn)確符合上下文的描述。

性能表現(xiàn)

該團(tuán)隊(duì)對自己的方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果發(fā)現(xiàn),OmniParser 可大幅提升 GPT-4V 在 ScreenSpot 基準(zhǔn)上的性能。

圖片

在 Mind2Web 基準(zhǔn)上,OmniParser + GPT-4V 的表現(xiàn)也勝過可從 HTML 提取額外信息的 GPT-4V。

圖片

在 AITW 基準(zhǔn)上,OmniParser 的表現(xiàn)優(yōu)于一個(gè)經(jīng)過增強(qiáng)的 GPT-4V—— 附帶了一個(gè)使用視圖圖層訓(xùn)練的專用 Android 圖標(biāo)檢測模型。

圖片

另外,其在新基準(zhǔn) WindowsAgentArena 上也達(dá)到了最佳性能。

圖片

OmniParser 可作為當(dāng)前各種視覺 - 語言模型(VLM)的插件。為了進(jìn)一步演示這一點(diǎn),該團(tuán)隊(duì)也測試了其與 Phi-3.5-V 和 Llama-3.2-V 的組合。

圖片

該團(tuán)隊(duì)表示:「我們希望 OmniParser 可以作為一種通用且易于使用的工具,在 PC 和移動(dòng)平臺(tái)上解析用戶的屏幕,而無需依賴 HTML 和 Android 中的視圖圖層等額外信息。」

不知道如果將 OmniParser 與新版 Claude 3.5 Sonnet 的 Computer Use 結(jié)合起來會(huì)是什么效果?可能會(huì)像這位網(wǎng)友說的,很贊吧。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2012-05-14 14:35:41

2025-01-23 13:05:42

2021-06-29 15:47:56

微軟Windows 11Windows

2021-03-18 11:45:49

人工智能機(jī)器學(xué)習(xí)算法

2020-05-19 14:00:09

人工智能機(jī)器學(xué)習(xí)AI

2021-06-29 18:52:45

Windows 11主板新系統(tǒng)

2021-06-29 11:40:51

Python郵件命令

2013-08-02 13:25:00

2024-10-15 17:28:05

2024-08-14 15:00:00

模型數(shù)據(jù)

2024-08-29 12:48:32

2013-01-06 14:18:08

Ubuntu手機(jī)操作系

2025-02-24 13:46:40

2010-08-25 10:35:31

微軟

2020-11-05 09:01:41

冒泡排序

2021-09-27 13:50:13

Python裝飾器函數(shù)

2024-10-16 08:31:29

2024-06-13 17:51:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)