自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="jpqfb"><track id="jpqfb"></track></legend>

<thead id="jpqfb"><rt id="jpqfb"></rt></thead>

<blockquote id="jpqfb"></blockquote><legend id="jpqfb"><track id="jpqfb"><dfn id="jpqfb"></dfn></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Windows、Office直接上手，大模型智能體操作電腦太6了

作者：機(jī)器之心 2024-02-19 14:10:00

人工智能新聞

近期，吉林大學(xué)人工智能學(xué)院發(fā)布了一項(xiàng)利用視覺大語言模型直接控制電腦 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》，它將這一想象映射進(jìn)了現(xiàn)實(shí)。

當(dāng)我們談到 AI 助手的未來，很難不想起《鋼鐵俠》系列中那個令人炫目的 AI 助手賈維斯。賈維斯不僅是托尼?斯塔克的得力助手，更是他與先進(jìn)科技的溝通者。如今，大模型的出現(xiàn)顛覆了人類使用工具的方式，我們或許離這樣的科幻場景又近了一步。想象一下，如果一個多模態(tài) Agent，能夠直接像人類一樣通過鍵盤和鼠標(biāo)直接操控我們身邊的電腦，這將是多么令人振奮的突破。

AI助手賈維斯

近期，吉林大學(xué)人工智能學(xué)院發(fā)布了一項(xiàng)利用視覺大語言模型直接控制電腦 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》，它將這一想象映射進(jìn)了現(xiàn)實(shí)。該工作提出了 ScreenAgent 模型，首次探索在無需輔助定位標(biāo)簽的情況下，利用 VLM Agent 直接控制電腦鼠標(biāo)和鍵盤，實(shí)現(xiàn)大模型直接操作電腦的目標(biāo)。此外，ScreenAgent 通過「計劃-執(zhí)行-反思」的自動化流程首次實(shí)現(xiàn)對 GUI 界面的連續(xù)控制。該工作是對人機(jī)交互方式的一次探索和革新，同時開源了具備精準(zhǔn)定位信息的數(shù)據(jù)集、控制器、訓(xùn)練代碼等。

論文地址：https://arxiv.org/abs/2402.07945
項(xiàng)目地址：https://github.com/niuzaisheng/ScreenAgent

ScreenAgent 可以幫助用戶輕松實(shí)現(xiàn)在線娛樂活動，購物，旅行，閱讀等也不在話下。它還可以是最了解你的貼心管家，幫助用戶管理個人電腦。甚至無需動手，就幫助用戶實(shí)現(xiàn)快速辦公，成為你最得力的辦公助手！話不多說，直接看效果。

帶你網(wǎng)上沖浪，實(shí)現(xiàn)娛樂自由

ScreenAgent 根據(jù)用戶文本描述上網(wǎng)查找并播放指定的視頻：

系統(tǒng)操作管家，賦予用戶高階技能

讓 ScreenAgent 打開 Windows 的事件查看器：

掌握辦公技能，輕松玩轉(zhuǎn) office

此外，ScreenAgent 可以使用 office 辦公軟件。例如根據(jù)用戶文本描述，刪除所打開的第二頁 PPT：

謀定而后動，知止而有得

對于要完成某一任務(wù)，在任務(wù)執(zhí)行前必須要做好規(guī)劃活動。ScreenAgent 可以在任務(wù)開始前，根據(jù)觀測到的圖像和用戶需求，進(jìn)行規(guī)劃，例如：

將視頻播放速度調(diào)至 1.5 倍速：

在 58 同城網(wǎng)站上搜索二手邁騰車的價格：

在命令行里安裝 xeyes:

視覺定位能力遷移，鼠標(biāo)選定無壓力

ScreenAgent 還保留了對于自然事物的視覺定位能力，可以通過鼠標(biāo)拖拽的方式繪制出物體的選框：

方法

事實(shí)上，要教會 Agent 與用戶圖形界面直接交互并不是一件簡單的事情，需要 Agent 同時具備任務(wù)規(guī)劃、圖像理解、視覺定位、工具使用等多種綜合能力?，F(xiàn)有的模型或交互方案都存在一定妥協(xié)，例如 LLaVA-1.5 等模型缺乏在大尺寸圖像上的精確視覺定位能力；GPT-4V 有非常強(qiáng)的任務(wù)規(guī)劃、圖像理解和 OCR 的能力，但是拒絕給出精確的坐標(biāo)。現(xiàn)有的方案需要在圖像上人工標(biāo)注額外的數(shù)字標(biāo)簽，并讓模型選擇需要點(diǎn)選的 UI 元素，例如 Mobile-Agent、UFO 等項(xiàng)目；此外，CogAgent、Fuyu-8B 等模型可以支持高分辨率圖像輸入并有精確視覺定位能力，但是 CogAgent 缺乏完整函數(shù)調(diào)用能力，F(xiàn)uyu-8B 則語言能力欠缺。

為了解決上述問題，文章提出為視覺語言模型智能體（VLM Agent）構(gòu)建一個與真實(shí)計算機(jī)屏幕交互的全新環(huán)境。在這個環(huán)境中，智能體可以觀察屏幕截圖，并通過輸出鼠標(biāo)和鍵盤操作來操縱圖形用戶界面。為了引導(dǎo) VLM Agent 與計算機(jī)屏幕進(jìn)行持續(xù)的交互，文章構(gòu)建了一個包含「計劃-執(zhí)行-反思」的運(yùn)行流程。在計劃階段，Agent 被要求將用戶任務(wù)拆解為子任務(wù)。在執(zhí)行階段，Agent 將觀察屏幕截圖，給出執(zhí)行子任務(wù)的具體鼠標(biāo)和鍵盤動作?？刂破鲗?zhí)行這些動作，并將執(zhí)行結(jié)果反饋給 Agent。在反思階段，Agent 觀察執(zhí)行結(jié)果，并判定當(dāng)前的狀態(tài)，選擇繼續(xù)執(zhí)行、重試或調(diào)整計劃。這一流程持續(xù)進(jìn)行，直到任務(wù)完成。值得一提的是，ScreenAgent 無需使用任何文字識別或圖標(biāo)識別模塊，使用端到端的方式訓(xùn)練模型所有的能力。

ScreenAgent 環(huán)境參考了 VNC 遠(yuǎn)程桌面連接協(xié)議來設(shè)計 Agent 的動作空間，包含最基礎(chǔ)的鼠標(biāo)和鍵盤操作，鼠標(biāo)的點(diǎn)擊操作都需要 Agent 給出精確的屏幕坐標(biāo)位置。相比起調(diào)用特定的 API 來完成任務(wù)，這種方式更加通用，可以適用于各種 Windows、Linux Desktop 等桌面操作系統(tǒng)和應(yīng)用程序。

ScreenAgent 數(shù)據(jù)集

為了訓(xùn)練 ScreenAgent 模型，文章人工標(biāo)注了具備精準(zhǔn)視覺定位信息的 ScreenAgent 數(shù)據(jù)集。這一數(shù)據(jù)集涵蓋了豐富的日常計算機(jī)任務(wù)，包括了 Windows 和 Linux Desktop 環(huán)境下的文件操作、網(wǎng)頁瀏覽、游戲娛樂等場景。

數(shù)據(jù)集中每一個樣本都是完成一個任務(wù)的完整流程，包含了動作描述、屏幕截圖和具體執(zhí)行的動作。例如，在亞馬遜網(wǎng)站上「將最便宜的巧克力加入到購物車」的案例，需要先在搜索框中搜索關(guān)鍵詞，再使用過濾器對價格進(jìn)行排序，最后將最便宜的商品加入購物車。整個數(shù)據(jù)集包含 273 條完整的任務(wù)記錄。

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)分析部分作者將 ScreenAgent 與多個現(xiàn)有的 VLM 模型從各個角度進(jìn)行比較，主要包括兩個層面，指令跟隨能力和細(xì)粒度動作預(yù)測的正確率。指令跟隨能力主要考驗(yàn)?zāi)Ｐ湍芊裾_輸出 JSON 格式的動作序列和動作類型的正確率。而動作屬性預(yù)測的正確率則比較每一種動作的屬性值是否預(yù)測正確，例如鼠標(biāo)點(diǎn)擊的位置、鍵盤按鍵等。

指令跟隨

在指令跟隨方面，Agent 的首要任務(wù)就是能夠根據(jù)提示詞輸出正確的工具函數(shù)調(diào)用，即輸出正確的 JSON 格式，在這方面 ScreenAgent 與 GPT-4V 都能夠很好的遵循指令，而原版的 CogAgent 由于在視覺微調(diào)訓(xùn)練時缺乏 API 調(diào)用形式的數(shù)據(jù)的支撐，反而喪失了輸出 JSON 的能力。

動作屬性預(yù)測的正確率

從動作屬性的正確率來看，ScreenAgent 也達(dá)到了與 GPT-4V 相當(dāng)?shù)乃?。值得注意的是，ScreenAgent 在鼠標(biāo)點(diǎn)擊的精確度上遠(yuǎn)遠(yuǎn)超過了現(xiàn)有模型。這表明視覺微調(diào)有效增強(qiáng)了模型的精確定位能力。此外，我們還觀察到 ScreenAgent 在任務(wù)規(guī)劃方面與 GPT-4V 相比存在明顯差距，這凸顯了 GPT-4V 的常識知識和任務(wù)規(guī)劃能力。

結(jié)論

吉林大學(xué)人工智能學(xué)院團(tuán)隊(duì)提出的 ScreenAgent 能夠采用與人類一樣的控制方式控制電腦，不依賴于其他的 API 或 OCR 模型，可以廣泛應(yīng)用于各種軟件和操作系統(tǒng)。ScreenAgent 在「計劃-執(zhí)行-反思」的流程控制下，可以自主地完成用戶給定的任務(wù)。采用這樣的方式，用戶可以看到任務(wù)完成的每一步，更好地理解 Agent 的行為想法。

文章開源了控制軟件、模型訓(xùn)練代碼、以及數(shù)據(jù)集。在此基礎(chǔ)上可以探索更多邁向通用人工智能的前沿工作，例如在環(huán)境反饋下的強(qiáng)化學(xué)習(xí)、Agent 對開放世界的主動探索、構(gòu)建世界模型、Agent 技能庫等等。

此外，AI Agent 驅(qū)動的個人助理具有巨大的社會價值，例如幫助肢體受限的人群使用電腦，減少人類重復(fù)的數(shù)字勞動以及普及電腦教育等。在未來，或許不是每個人都能成為像鋼鐵俠那樣的超級英雄，但我們都可能擁有一位專屬的賈維斯，一位可以陪伴、輔助和指導(dǎo)我們的智能伙伴，為我們的生活和工作帶來更多便利與可能。

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營