自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4V學(xué)會用鍵鼠上網(wǎng),人類眼睜睜看著它發(fā)帖玩游戲

人工智能
GPT-4V-Act,本質(zhì)上是一個基于Web瀏覽器的AI多模態(tài)助手(Chromium Copilot)。它可以像人類一樣用鼠標(biāo)、鍵盤和屏幕“查看”網(wǎng)頁界面,并通過網(wǎng)頁中的交互按鍵進(jìn)行下一步操作。

GPT-4V學(xué)會自動操縱電腦,這一天終于還是到來了。

只需要給GPT-4V接入鼠標(biāo)和鍵盤,它就能根據(jù)瀏覽器界面上網(wǎng):

圖片圖片

甚至還能快速摸清楚“播放音樂”的播放器網(wǎng)站和按鈕,給自己來一段music:

圖片圖片

是不是有點細(xì)思極恐了?

這是一個MIT本科生小哥整出來的新活,名叫GPT-4V-Act。

圖片圖片

只需要幾個簡單的工具,GPT-4V就能學(xué)會控制你的鍵盤和鼠標(biāo),用瀏覽器上網(wǎng)發(fā)帖、買東西甚至是玩游戲。

要是用到的工具出bug了,GPT-4V甚至還能意識到、并試圖解決它。

圖片圖片

來看看這是怎么做到的。

教GPT-4V“自動上網(wǎng)”

GPT-4V-Act,本質(zhì)上是一個基于Web瀏覽器的AI多模態(tài)助手(Chromium Copilot)。

它可以像人類一樣用鼠標(biāo)、鍵盤和屏幕“查看”網(wǎng)頁界面,并通過網(wǎng)頁中的交互按鍵進(jìn)行下一步操作。

要實現(xiàn)這種效果,除了GPT-4V以外,還用到了三個工具。

一個是UI界面,可以讓GPT-4V“看見”網(wǎng)頁截圖,也能讓用戶與GPT-4V發(fā)生交互。

這樣,GPT-4V就能將每一步運行思路都通過對話框的形式反映出來,用戶來決定是否要繼續(xù)讓它操作。

圖片圖片

另一個是Set-of-Mark Prompting(SoM)工具,讓GPT-4V學(xué)會交互的一款工具。

圖片圖片

這個工具由微軟發(fā)明,目的是更好地對GPT-4V進(jìn)行提示詞工程。

相比讓GPT-4V直接“看圖說話”,這個工具可以將圖片關(guān)鍵細(xì)節(jié)拆分成不同的部分,并進(jìn)行編號,讓GPT-4V有的放矢:

圖片圖片

對于網(wǎng)頁端也是如此,Set-of-Mark Prompting用類似的方式讓GPT-4V知道從網(wǎng)頁瀏覽器的哪個部分找答案,并進(jìn)行交互。

最后,還需要用到一個自動標(biāo)注器(JS DOM auto-labeler),可以將網(wǎng)頁端所有能交互的按鍵標(biāo)注出來,讓GPT-4V決定要按哪個。

圖片圖片

一套流程下來, GPT-4V不僅能準(zhǔn)確判斷圖片上的哪些內(nèi)容符合需求,還能準(zhǔn)確找到交互按鍵,并學(xué)會“自動上網(wǎng)”。

這是個大項目,目前還只實現(xiàn)了部分功能,包括點擊、打字交互、自動標(biāo)注等。

接下來,還有其他的一些功能要實現(xiàn),例如試試AI打標(biāo)器(目前網(wǎng)頁端的交互還是通過通過JS接口得知哪里能交互,不是AI識別的)、以及提示用戶輸入詳細(xì)信息等。

圖片圖片

此外,作者也提到,現(xiàn)階段GPT-4V-Act用法上還有一些需要注意的地方。

例如,GPT-4V-Act可能會被網(wǎng)頁打開后鋪天蓋地的彈窗小廣告給“整懵了”,然后出現(xiàn)交互bug。

圖片圖片

又例如,目前這種玩法可能會違反OpenAI的產(chǎn)品使用規(guī)定:

除非API允許,否則不得使用任何自動化或編程的方法從服務(wù)中提取數(shù)據(jù)并輸出,包括抓取、網(wǎng)絡(luò)收集或網(wǎng)絡(luò)數(shù)據(jù)提取。

圖片圖片

所以用的時候也要低調(diào)一點(doge)

微軟SoM作者也來圍觀

這個項目在網(wǎng)上發(fā)出后,吸引了不少人的圍觀。

像是小哥用到的微軟Set-of-Mark Prompting工具的作者,就發(fā)現(xiàn)了這個項目:

出色的工作!

圖片圖片

還有網(wǎng)友提到,甚至可以用來讓AI自己讀取驗證碼。

圖片圖片

這個在SoM項目中提到過,GPT-4V是能成功解讀驗證碼的(所以以后可能還真不知道是人還是機器在上網(wǎng))。

圖片圖片

與此同時,也有網(wǎng)友已經(jīng)在想象桌面流自動化(desktop automation)的操作了。

對此作者回應(yīng)稱:

AI自動標(biāo)注器應(yīng)該能實現(xiàn)這個,我也確實在計劃制作一個更通用的Copilot。

圖片圖片

不過目前GPT-4V還是要收費的,有沒有其他的實現(xiàn)方法?

作者也表示,目前還沒有,但確實可能會嘗試Fuyu-8B或者LLaVAR這樣的開源模型。

圖片圖片

免費的自動化桌面流AI助手,可以期待一波了。

參考鏈接:
[1]https://github.com/ddupont808/GPT-4V-Act
[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-12-03 08:43:55

機器人模型

2014-02-24 14:34:49

2023-10-19 09:32:45

自動駕駛技術(shù)

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2017-03-09 13:30:13

Linux游戲AMD

2011-12-24 21:59:02

iPhone

2022-02-13 23:03:47

區(qū)塊鏈游戲技術(shù)

2024-01-22 06:40:00

模型視覺

2011-05-29 16:46:44

筆記本體驗

2024-06-04 14:11:00

2021-08-26 11:42:15

游戲編程語言

2009-05-15 17:07:48

HeroIE首頁IE瀏覽器

2021-12-09 10:08:10

智能自動駕駛汽車

2019-05-05 10:06:56

Windows 7Windows 10游戲

2011-08-22 22:57:54

筆記本評測

2021-03-03 14:15:03

人工智能

2010-03-24 08:53:19

Windows 7游戲

2018-06-01 15:13:21

2015-06-19 14:42:55

游戲開發(fā)

2021-09-27 14:35:14

Linux玩游戲虛擬現(xiàn)實
點贊
收藏

51CTO技術(shù)棧公眾號