自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="3dsbx"></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

AI像人一樣操控電腦：多模態(tài)AI Agents和屏幕交互新范式原創(chuàng)

發(fā)布于 2024-11-20 10:11

瀏覽

0收藏

編者按： 未來(lái)我們與計(jì)算機(jī)的交互方式將發(fā)生怎樣的變革？當(dāng) AI 能像人類一樣自如地操控電腦和手機(jī)，我們的工作方式會(huì)有什么改變？

本文深入剖析了 Anthropic、微軟和蘋果三大科技巨頭在突破這一瓶頸上的最新進(jìn)展。通過(guò)解讀他們各自獨(dú)特的技術(shù)路線 —— 從 Anthropic 采用像素計(jì)數(shù)方式實(shí)現(xiàn)精準(zhǔn)導(dǎo)航，到微軟將界面解析為結(jié)構(gòu)化數(shù)據(jù)，再到蘋果專注于移動(dòng)端的多模態(tài)交互方案，文章為我們展現(xiàn)了 AI 驅(qū)動(dòng)屏幕交互的未來(lái)圖景。

作者 | Tula Masterman

編譯 |?岳揚(yáng)

01 引言：AI Agent 領(lǐng)域的持續(xù)變革

Anthropic、微軟和蘋果的最新動(dòng)態(tài)正在重塑我們對(duì) AI Agents 的認(rèn)知。目前，“AI Agent” 這一概念已被廣泛提及 —— 幾乎每一項(xiàng)與人工智能相關(guān)的公告都會(huì)涉及 AI Agents，但其先進(jìn)程度和實(shí)用性卻有著天壤之別。

在這個(gè)領(lǐng)域的一端，我們看到了一些能夠進(jìn)行多輪規(guī)劃、工具操作和目標(biāo)評(píng)估的先進(jìn) AI Agents。它們通過(guò)不斷迭代來(lái)完成特定任務(wù)，甚至能夠建立和利用“記憶（memories）”，從過(guò)往的錯(cuò)誤中吸取教訓(xùn)，以推動(dòng)未來(lái)的成功。如何打造一個(gè)高效的 AI Agents，是當(dāng)前人工智能研究的熱點(diǎn)之一。這涉及到探究成功 Agents 應(yīng)該具備哪些特性（例如，AI Agents 的規(guī)劃方式、記憶運(yùn)用、工具選擇以及任務(wù)跟蹤能力）以及如何構(gòu)建一個(gè)高效的 AI Agents 團(tuán)隊(duì)。

而在另一端，是一些執(zhí)行的任務(wù)目的單一、幾乎無(wú)需推理的 AI Agents。這些 AI Agents 往往更側(cè)重于特定的工作流程（例如，專門負(fù)責(zé)生成文檔摘要并保存結(jié)果的 Agent）。由于這些 Agents 的應(yīng)用場(chǎng)景較為明確，因此它們通常更容易實(shí)現(xiàn)，不需要過(guò)多的規(guī)劃和跨工具協(xié)調(diào)，也無(wú)需處理復(fù)雜的決策問(wèn)題。

隨著 Anthropic、微軟和蘋果的最新動(dòng)態(tài)不斷發(fā)布，我們目睹了基于文本的 AI Agents 向多模態(tài)轉(zhuǎn)變。這一變化意味著我們可以通過(guò)書面或口頭指令來(lái)指導(dǎo) AI Agents，使其能夠流暢地在手機(jī)或電腦上執(zhí)行任務(wù)。這一技術(shù)有很大的潛力可以提升跨設(shè)備使用的便利性，然而，與此同時(shí)，這種技術(shù)也伴隨著重大的風(fēng)險(xiǎn)。Anthropic 關(guān)于 computer use 技術(shù)的相關(guān)公告強(qiáng)調(diào)了 AI 不受限制訪問(wèn)用戶屏幕的潛在風(fēng)險(xiǎn)，并提出了一系列降低風(fēng)險(xiǎn)措施，例如在專用的虛擬機(jī)或容器中運(yùn)行 Claude，將互聯(lián)網(wǎng)訪問(wèn)限制在允許的域名列表中，進(jìn)行人工干預(yù)檢查，并避免讓模型接觸敏感數(shù)據(jù)。他們還強(qiáng)調(diào)，通過(guò) API 提交的內(nèi)容不會(huì)被用于模型訓(xùn)練。

02 Anthropic、微軟和蘋果最新公告亮點(diǎn)

2.1 Anthropic推出Claude 3.5 Sonnet：賦予人工智能使用計(jì)算機(jī)的能力

概述：Computer Use 的目標(biāo)是讓 AI 能夠像人類一樣操作計(jì)算機(jī)。在理想狀態(tài)下，Claude 能夠?qū)崿F(xiàn)文檔的打開與編輯、點(diǎn)擊頁(yè)面的各個(gè)區(qū)域、內(nèi)容的滾動(dòng)閱讀，以及命令行代碼的運(yùn)行和執(zhí)行等多種操作。目前，Claude 已能按照人類指令在屏幕上移動(dòng)光標(biāo)、點(diǎn)擊指定區(qū)域，并在虛擬鍵盤上輸入文字。在 OSWorld 基準(zhǔn)測(cè)試[1]中，Claude取得了 14.9% 的成績(jī)，雖然超過(guò)了同基準(zhǔn)測(cè)試中的其他 AI 模型，但與人類 70–75% 的平均得分相比，仍有不小的差距。
工作原理：Claude 通過(guò)查看用戶上傳的屏幕截圖，并計(jì)算像素位置來(lái)確定光標(biāo)移動(dòng)的位置，從而完成指定任務(wù)。研究人員提到，為了安全起見，在訓(xùn)練過(guò)程中并未給予 Claude 互聯(lián)網(wǎng)訪問(wèn)權(quán)限，但 Claude 能夠?qū)氖褂糜?jì)算器和文本編輯器等簡(jiǎn)單任務(wù)的訓(xùn)練中學(xué)習(xí)到的知識(shí)，應(yīng)用到更為復(fù)雜的任務(wù)上。在任務(wù)執(zhí)行失敗時(shí)，它還會(huì)進(jìn)行重試。Computer Use 功能包含了三個(gè)由 Anthropic 定義的工具：computer、text editor 和 bash。其中，computer 工具用于屏幕上的導(dǎo)航，text editor 用于文本文件的查看、創(chuàng)建和編輯，而 bash 則用于執(zhí)行 bash shell 命令。
面臨的挑戰(zhàn)：盡管 Claude 的能力表現(xiàn)良好，但還有很長(zhǎng)的路要走。目前，它在頁(yè)面滾動(dòng)、整體穩(wěn)定性方面存在問(wèn)題，且對(duì)提示詞注入攻擊較為敏感。
使用指南：公眾可通過(guò) Anthropic API 體驗(yàn)公共測(cè)試版。Computer Use 功能可以與常規(guī)工具結(jié)合使用。

2.2 微軟的OmniParser & GPT-4V：讓AI能夠理解和操作屏幕

概述：OmniParser 用于解析用戶界面截圖，并將其轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)輸出。這些輸出可以被傳遞給 GPT-4V 這樣的模型，以便根據(jù)檢測(cè)到的屏幕元素生成相應(yīng)的操作動(dòng)作。在包括專為 Windows 系統(tǒng)設(shè)計(jì)的 Windows Agent Arena[2] 在內(nèi)的多種基準(zhǔn)測(cè)試中，OmniParser 與 GPT-4V 的組合得分約為20%。這些測(cè)試任務(wù)旨在評(píng)估 AI Agents 在規(guī)劃、理解屏幕內(nèi)容和使用工具方面的能力。
工作原理：OmniParser 通過(guò)整合多個(gè)經(jīng)過(guò)微調(diào)的模型來(lái)解析屏幕內(nèi)容。它采用了微調(diào)后的可交互圖標(biāo)/區(qū)域檢測(cè)模型（YOLOv8[3]）、圖標(biāo)描述模型（BLIP-2[4] 或 Florence2[5]）以及 OCR 模塊。這些模型被用于識(shí)別圖標(biāo)和文本，并在生成內(nèi)容描述后，將輸出數(shù)據(jù)發(fā)送給 GPT-4V，由 GPT-4V 決定如何利用這些信息與屏幕交互。
面臨的挑戰(zhàn)：目前，當(dāng) OmniParser 檢測(cè)到重復(fù)的圖標(biāo)或文本并將其傳遞給 GPT-4V 時(shí)，GPT-4V 經(jīng)常無(wú)法正確點(diǎn)擊目標(biāo)圖標(biāo)。此外，OmniParser 的準(zhǔn)確性受 OCR 輸出影響，如果邊界框定位不準(zhǔn)確，整個(gè)系統(tǒng)可能無(wú)法正確點(diǎn)擊鏈接區(qū)域。還有，對(duì)于某些圖標(biāo)的理解也存在挑戰(zhàn)，因?yàn)橥粋€(gè)圖標(biāo)有時(shí)會(huì)被用來(lái)表示不同的含義（例如，三個(gè)點(diǎn)可能代表加載中，也可能代表菜單選項(xiàng)）。
使用指南：OmniParser 可在 GitHub[6] 和 HuggingFace[7] 上獲取。您需要安裝必要的依賴項(xiàng)，并從 HuggingFace 加載模型。之后，您可以嘗試運(yùn)行 demo notebooks，了解 OmniParser 如何分析圖像。

2.3 蘋果的Ferret-UI：將多模態(tài)智能引入移動(dòng)端

概述：蘋果的 Ferret（任意時(shí)間、任意地點(diǎn)、任意粒度下引用和定位任何事物）技術(shù)早在 2023 年便已問(wèn)世。近期，蘋果推出了 Ferret-UI，這是一款 MLLM（多模態(tài)大語(yǔ)言模型），能夠在移動(dòng)設(shè)備端用戶界面上執(zhí)行“引用、定位和推理”任務(wù)。這些任務(wù)包括小部件的分類和圖標(biāo)的識(shí)別（引用任務(wù)），以及尋找特定圖標(biāo)或文本（定位任務(wù)）。Ferret-UI 能夠理解用戶界面并根據(jù)指令進(jìn)行交互。
工作原理：Ferret-UI 在 Ferret 的基礎(chǔ)上進(jìn)行了優(yōu)化，通過(guò)訓(xùn)練來(lái)適應(yīng)不同分辨率的圖像，從而更好地掌握移動(dòng)端用戶界面的細(xì)節(jié)。每張圖像都被分割成兩張子圖像，并生成各自的特征。大語(yǔ)言模型（LLM）結(jié)合全圖像、兩張子圖像、區(qū)域特征和文本嵌入信息來(lái)生成響應(yīng)。
面臨的挑戰(zhàn)：Ferret-UI 的相關(guān)論文指出，模型在某些情況下會(huì)預(yù)測(cè)目標(biāo)附近的文本，而不是目標(biāo)文本，或者當(dāng)屏幕上出現(xiàn)拼寫錯(cuò)誤的單詞時(shí)，會(huì)預(yù)測(cè)出正確的單詞，而不是屏幕上顯示的錯(cuò)誤單詞，有時(shí)還會(huì)錯(cuò)誤地識(shí)別用戶界面的屬性。
使用指南：蘋果在 GitHub[8] 上公開了 Ferret-UI 的數(shù)據(jù)和代碼，僅供研究目的使用。蘋果發(fā)布了兩個(gè) Ferret-UI 模型版本，一個(gè)基于 Gemma-2b，另一個(gè)基于 Llama-3–8B。這些模型遵循 Gemma 和 Llama 的許可協(xié)議，而數(shù)據(jù)集則允許非商業(yè)用途。

2.4 總結(jié)：AI 驅(qū)動(dòng)屏幕導(dǎo)航的三種策略

總的來(lái)說(shuō)，這些系統(tǒng)分別展示了構(gòu)建多模態(tài) AI Agents 的不同路徑，它們能夠代表我們與電腦或手機(jī)進(jìn)行交互。

Anthropic 推出的 Claude 3.5 Sonnet 著眼于一般的計(jì)算機(jī)交互，通過(guò)像素計(jì)數(shù)來(lái)實(shí)現(xiàn)屏幕上的精準(zhǔn)導(dǎo)航。微軟的 OmniParser 則專注于解決將用戶界面拆分為結(jié)構(gòu)化輸出的難題，隨后這些信息會(huì)被傳遞至 GPT-4V 等模型以決定下一步操作。而蘋果的 Ferret-UI 則是針對(duì)移動(dòng)端用戶界面設(shè)計(jì)的，它能識(shí)別圖標(biāo)、文字和小部件，并能執(zhí)行與用戶界面相關(guān)的開放式指令。

這三種系統(tǒng)的工作流程一般包括兩個(gè)主要階段：一是解析視覺信息，二是思考如何與之交互。精確解析屏幕內(nèi)容對(duì)于規(guī)劃交互方式以及確保系統(tǒng)穩(wěn)定執(zhí)行任務(wù)至關(guān)重要。

03 結(jié)語(yǔ)：打造更智能、更安全的AI Agents

依我之見，這些進(jìn)步最激動(dòng)人心的地方在于多模態(tài)功能與推理框架正逐步融合。雖然這些工具展現(xiàn)出巨大的潛力，但與人類的表現(xiàn)相比仍有較大差距。此外，在部署能夠訪問(wèn)屏幕的 AI Agents 系統(tǒng)時(shí)，還必須正視和解決一系列 AI 安全方面的問(wèn)題。

智能體系統(tǒng)的一大優(yōu)勢(shì)在于它們能夠通過(guò)將任務(wù)細(xì)分為多個(gè)部分，從而克服單個(gè)模型在認(rèn)知方面的局限性。這些系統(tǒng)的構(gòu)建方式多種多樣。有時(shí)候，用戶面前看似單一的智能體，實(shí)際上可能是由多個(gè)子智能體組成的團(tuán)隊(duì) —— 每個(gè)子智能體擁有不同的職責(zé)，比如規(guī)劃（planning）、屏幕交互（screen interaction）或記憶存儲(chǔ)管理（memory management）。比如，負(fù)責(zé)推理的智能體可能會(huì)與專門處理屏幕數(shù)據(jù)的智能體協(xié)作，同時(shí)另一個(gè)智能體則負(fù)責(zé)整理記憶存儲(chǔ)，以提高未來(lái)的表現(xiàn)。

另外，這些功能也可以集成在一個(gè)全能的智能體中。在這種情況下，智能體可能包含多個(gè)內(nèi)部規(guī)劃模塊 —— 一個(gè)專注于屏幕操作的規(guī)劃，另一個(gè)則負(fù)責(zé)整個(gè)任務(wù)的管理。盡管構(gòu)建智能體的最佳方案尚待探索，但我們的目標(biāo)始終不變：那就是創(chuàng)造出能夠在不同模態(tài)下長(zhǎng)期穩(wěn)定工作，并能無(wú)間適應(yīng)用戶需求的智能體。

Thanks for reading!
Hope you have enjoyed and learned new things from this blog!

END

本期互動(dòng)內(nèi)容 ??

?如果讓 AI 來(lái)操作你的設(shè)備，你最擔(dān)心什么問(wèn)題？安全、隱私還是其他？

??文中鏈接??

[1]https://os-world.github.io/

[2]https://microsoft.github.io/WindowsAgentArena/

[3]https://yolov8.com/

[4]https://arxiv.org/abs/2301.12597

[5]https://arxiv.org/abs/2311.06242

[6]https://github.com/microsoft/OmniParser/

[7]https://huggingface.co/microsoft/OmniParser

[8]https://github.com/apple/ml-ferret/tree/main/ferretui

原文鏈接：

https://towardsdatascience.com/computer-use-and-ai-agents-a-new-paradigm-for-screen-interaction-b2dcbea0df5b

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

已于2024-11-20 10:22:06修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

開源大模型AI代理操作系統(tǒng)：像Windos一樣，操控AI代理

Aceryt ? 3239瀏覽 ? 0回復(fù)
模塊化RAG：RAG新范式，像樂(lè)高一樣搭建

大語(yǔ)言模型論文跟蹤 ? 2796瀏覽 ? 0回復(fù)
最強(qiáng)AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團(tuán)隊(duì)僅5人

Crystalcxt ? 2040瀏覽 ? 0回復(fù)
必須為孩子存下來(lái)的提示詞，像玩RPG游戲一樣學(xué)習(xí)

ermulong ? 2489瀏覽 ? 0回復(fù)
必須為孩子存下來(lái)的提示詞，像玩黑神話游戲一樣學(xué)習(xí)

ermulong ? 1975瀏覽 ? 0回復(fù)
像藝術(shù)家一樣畫畫：通過(guò)構(gòu)圖、繪畫和潤(rùn)色用擴(kuò)散模型生成復(fù)雜場(chǎng)景

angel ? 2189瀏覽 ? 0回復(fù)
TOT(Tree of Thought) | 讓GPT-4像人類一樣思考

arnoldzhw ? 2449瀏覽 ? 0回復(fù)
超級(jí)Agent：像人一樣操控電腦！

PaperAgent ? 2309瀏覽 ? 0回復(fù)
編程能力超o1，像人類一樣操作電腦，開啟Agent新時(shí)代！

51CTO技術(shù)棧 ? 2208瀏覽 ? 0回復(fù)
Anthropic 升級(jí)版 Claude 3.5 Sonnet 模型，像人一樣操控電腦？

穿越時(shí)空111 ? 2181瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進(jìn)行抽象推理

lintoms ? 1659瀏覽 ? 0回復(fù)
谷歌發(fā)布雙思維AI Agent：像人類一樣思考，重大技術(shù)突破！

Aceryt ? 1822瀏覽 ? 0回復(fù)
Meta楊立昆引燃全民大討論：美政府有些人被洗腦了，監(jiān)管讓開源變得像非法一樣！

51CTO技術(shù)棧 ? 1692瀏覽 ? 0回復(fù)
人形機(jī)器人全能運(yùn)動(dòng)革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時(shí)操控（上交&上海AI lab）

angel ? 1958瀏覽 ? 0回復(fù)
讓模型像人一樣思考

zhcs333 ? 1659瀏覽 ? 0回復(fù)
像Sora一樣，用物理模擬方式生成視頻

Aceryt ? 1564瀏覽 ? 0回復(fù)
一文看懂Agentic AI、AI Agents和Agents：別再傻傻分不清了！

探索AGI ? 2989瀏覽 ? 0回復(fù)
LLM-Reasoner：讓任何大模型都能像DeepSeek R1一樣深入思考

PyTorch研習(xí)社 ? 1411瀏覽 ? 0回復(fù)
AI犬種識(shí)別革命：像專家一樣思考的形態(tài)特征解碼器

51CTO內(nèi)容精選 ? 802瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 7h前發(fā)布
面對(duì)開源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：「混合專家模型」可視化指南：A Visual Guide to MoE

下一篇：從 Llama 1 到 3.1：Llama 模型架構(gòu)演進(jìn)詳解

社區(qū)精華內(nèi)容

目錄

<style id="9p09t"></style>