剛剛,OpenAI首個(gè)L3級智能體深夜覺醒!AI自己玩電腦引爆全網(wǎng),AGI一觸即發(fā)
剛剛,OpenAI首個(gè)智能體終于亮相了!
奧特曼帶領(lǐng)團(tuán)隊(duì)毫無預(yù)警地開啟半小時(shí)「Operator」在線直播,首次揭秘能像人類一樣使用電腦的AI。
Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano
演示中,AI智能體不僅可以精準(zhǔn)理解指令,還能自主完成各類任務(wù)。
而它的獨(dú)特之處在于,可以直接與網(wǎng)頁交互——打字、點(diǎn)擊、滾動,幾乎一氣呵成。
比如,自動填寫繁瑣的在線表單、上網(wǎng)購物、創(chuàng)建表情包、處理重復(fù)性瀏覽器任務(wù)等等。
圖片
「Operator」背后操盤手便是Computer-Using Agent (CUA),打破了特定編程接口的局限,像人類一場直接與GUI進(jìn)行交互。
從此,通往AGI道路上的又一大瓶頸被掃除。智能體可以在數(shù)字世界中四處行動了!
OpenAI官博將此稱為,AI與數(shù)字世界的「通用界面」。
圖片
「Operator」究竟有多厲害?
在多個(gè)測試環(huán)境中,CUA成功率令人瞠目:在OSWORLD上完成計(jì)算機(jī)使用任務(wù)成功率高達(dá)38.1%,比此前SOTA提升近16%;在WebArena上完成瀏覽器使用任務(wù)成功率達(dá)到58.1%,性能飆升22%。
不過與人類(72.4%和78.2%)相較之下,AI的能力還是有所差距。
在WebVoyager上,CUA更是達(dá)到了驚人的87%。
圖片
好消息是,「Operator」終于上線。而壞消息是,目前只有Pro美國用戶才能體驗(yàn)。
為了彌補(bǔ)這一遺憾,奧特曼提前劇透了,o3-mini直接在ChatGPT中「開源」,Plus用戶會有更多用量。
雖然但是,我們其實(shí)也可以用國產(chǎn)「Operator」替代一波(手動狗頭)
隨著Operator的正式發(fā)布,總裁Greg也再一次強(qiáng)調(diào),「2025年,就是智能體之年」。
圖片
話不多說,直接上演示。
AI接管PC訂餐,但直播小翻車
我們可以在Operator中選擇OpenTable,讓它訂一張今晚7點(diǎn)在Beretta的兩人位子。
可以看到,輸入查詢后,Operator會實(shí)例化指令,創(chuàng)建在云端運(yùn)行的瀏覽器操作。
圖片
隨后,Operator轉(zhuǎn)到了搜索Beretta的URL。非常令人驚喜的是,OpenTable默認(rèn)的地址是弗吉尼亞,但它自動更正為舊金山。
再比如,我們做飯需要雞蛋、菠菜、雞大腿和辣椒。在紙上寫下這些食材后,就可以直接傳給Operator,同時(shí)告訴他我們偏好的商店是Gus。
圖片
在這種情況下,Operator很快就根據(jù)GPT-4o的視覺功能理解了圖中的意思,還明白Gus商店是哪里。
接下來,就像OpenTable一樣,它實(shí)例化了一個(gè)瀏覽器,然后開始了購買環(huán)節(jié)。
圖片
如果在以前,如果我們想用智能體執(zhí)行類似操作,就必須確定特定網(wǎng)站有API,并且這個(gè)API有一切所需的功能,然而,大部分網(wǎng)站都是沒有API的。
而CUA通過教模型使用我們?nèi)粘J褂玫幕窘缑?,它就解鎖了一系列以前無法訪問的軟件!
可以看到,在執(zhí)行操作的過程中,Operator進(jìn)行了一些內(nèi)在獨(dú)白,總結(jié)出了思維鏈。
然后它選擇了雞蛋,點(diǎn)擊了添加按鈕。而且每執(zhí)行一個(gè)操作還會給電腦截個(gè)圖,這樣它就知道自己的操作對電腦有什么影響。
接下來,它點(diǎn)擊搜索框,輸入菠菜。這種采取行動、抓取屏幕截圖、創(chuàng)建子計(jì)劃的循環(huán)會一直持續(xù),直到任務(wù)完成。
圖片
當(dāng)然,人類也可以隨時(shí)接過Operator的控制權(quán),這就保證了用戶隨時(shí)可以控制Operator,并向它發(fā)出指令。
有趣的是,人類接管之后,Operator并不能看到我們在接管模式下做的事——這就保證了私密性。
接下來,OpenAI的研究者給它下達(dá)了一項(xiàng)新任務(wù):用StubHub買四張本周末舊金山勇士隊(duì)比賽、票價(jià)500以下的門票。
非常真實(shí)的是,Operator小翻車了一下。
那就讓它試試,買明早圣瑪麗澳網(wǎng)公開賽的門票。Operator立馬打開引擎,展開搜索。
圖片
隨后,研究者們讓Operator定10個(gè)中等披薩,指令發(fā)出后,它會主動向人類確認(rèn)任務(wù)。
圖片
而在實(shí)際購買時(shí),也會需要人類登錄自己的賬號,才能完成下一步操作。
問題來了:如果Operator買錯(cuò)東西、訂錯(cuò)酒店了怎么辦呢?不用擔(dān)心,這種情況下,人類需要隨時(shí)確認(rèn),它才能繼續(xù)行動。
如果它遇到詐騙網(wǎng)站,對此還會有一個(gè)提示注入監(jiān)視器,功能跟防病毒軟件一樣,可以觀察和監(jiān)視它的操作,遇到可疑之處立馬停止。
L3級AGI達(dá)成,開啟下一場人機(jī)交互革命
支撐Operator的核心技術(shù)Computer-Using Agent(CUA),被訓(xùn)練用于與圖形用戶界面GUI(在屏幕上看到的按鈕、菜單和文本框)進(jìn)行交互,就像人類一樣。這就讓它具有了很高的靈活性,無需依賴操作系統(tǒng)或特定網(wǎng)頁API,從而能夠完成各種數(shù)字化任務(wù)。
更進(jìn)一步的,通過將高級GUI感知與結(jié)構(gòu)化問題解決能力結(jié)合在一起,CUA還可以將任務(wù)分解為多步驟計(jì)劃,并在遇到挑戰(zhàn)時(shí)自適應(yīng)糾錯(cuò)。
CUA能夠如此之強(qiáng),是因?yàn)榻⒃贠penAI多年關(guān)鍵研究——多模態(tài)、推理和安全性領(lǐng)域基礎(chǔ)之上。通過融合GPT-4o的視覺能力、深度推理技術(shù)和創(chuàng)新的強(qiáng)化學(xué)習(xí)方法,研發(fā)團(tuán)隊(duì)攻克了AI操作計(jì)算機(jī)的諸多技術(shù)難關(guān)。
其最大的突破在于,實(shí)現(xiàn)了通用界面。
傳統(tǒng)AI往往被局限于專門的API,而CUA可以像人類一樣操作任何軟件工具。這意味著,AI能適應(yīng)幾乎所有的計(jì)算機(jī)環(huán)境,解決AI長期以來難以觸及的「長尾」數(shù)字使用場景。
還記得此前,彭博爆料的OpenAI內(nèi)部AGI路線圖嗎?Operator的出世,意味著L3級智能體時(shí)代正式開啟!
圖片
下一個(gè)目標(biāo),OpenAI還將擴(kuò)展智能體的動作空間。接下來幾周/幾個(gè)月,我們還將會看到更多的智能體。
圖片
此外,他們還計(jì)劃開放API接口,讓開發(fā)者能夠基于CUA構(gòu)建自定義的計(jì)算機(jī)智能體。
OpenAI下場智能體Operator,或許將成為下一場人機(jī)交互革命的起點(diǎn)。
計(jì)算機(jī)使用智能體:AI與數(shù)字世界交互的通用界面
那么,CUA具體是如何工作的?
圖片
技術(shù)報(bào)告:https://cdn.openai.com/operator_system_card.pdf
如下是它的工作原理圖,CUA會通過處理「原始像素?cái)?shù)據(jù)」來理解屏幕上顯示的內(nèi)容,并使用虛擬鼠標(biāo)和鍵盤完成操作。
它可以執(zhí)行多步驟任務(wù)、應(yīng)對錯(cuò)誤并適應(yīng)意外變化。
圖片
基于這些優(yōu)勢,使得CUA能夠在各種數(shù)字環(huán)境中發(fā)揮作用,比如填寫表單和瀏覽網(wǎng)站,而無需依賴特定的API。
根據(jù)用戶的指令,CUA通過一個(gè)結(jié)合感知、推理和行動的迭代循環(huán)來運(yùn)行:
- 感知:從計(jì)算機(jī)截取的屏幕快照被添加到模型的上下文中,為其提供當(dāng)前計(jì)算機(jī)狀態(tài)的視覺參考。
- 推理:CUA使用思維鏈(CoT)推斷下一步操作,同時(shí)考慮當(dāng)前和過去的屏幕快照及其執(zhí)行的操作。這種內(nèi)在獨(dú)白通過讓模型評估觀察內(nèi)容、跟蹤中間步驟并進(jìn)行動態(tài)調(diào)整來提高任務(wù)完成的效果。
- 行動:CUA執(zhí)行操作——點(diǎn)擊、滾動或輸入——直到判斷任務(wù)完成或需要用戶輸入。盡管它可以自動完成大多數(shù)步驟,但對于敏感操作(如輸入登錄信息或處理驗(yàn)證碼表單),CUA會尋求用戶確認(rèn)。
刷新SOTA,但與人類差一大截
CUA在計(jì)算機(jī)使用和瀏覽器使用的基準(zhǔn)測試中,通過使用統(tǒng)一的屏幕、鼠標(biāo)和鍵盤界面,刷新了SOTA。
瀏覽器使用
WebArena和WebVoyager專為評估網(wǎng)頁瀏覽AI智能體,在瀏覽器中完成現(xiàn)實(shí)任務(wù)的性能而設(shè)計(jì)。
- WebArena利用自托管的開源離線網(wǎng)站,模擬現(xiàn)實(shí)任務(wù)場景,例如電子商務(wù)、在線商店內(nèi)容管理系統(tǒng)(CMS)以及社交論壇平臺等。
- WebVoyager則測試模型在亞馬遜、GitHub和Google地圖等在線實(shí)時(shí)網(wǎng)站上的任務(wù)完成表現(xiàn)。
在這些基準(zhǔn)測試中,CUA通過同一個(gè)通用界面設(shè)定了新標(biāo)準(zhǔn)。該界面將瀏覽器屏幕視為「像素」,并通過鼠標(biāo)和鍵盤執(zhí)行操作。
如前所述,在基于網(wǎng)頁的任務(wù)中,CUA在WebArena上的任務(wù)成功率為58.1%,而在WebVoyager上達(dá)到了驚人的87%。
盡管CUA在任務(wù)相對簡單的WebVoyager上表現(xiàn)出較高的成功率,但在更復(fù)雜的基準(zhǔn)測試(如WebArena)中,CUA仍需進(jìn)一步優(yōu)化,以縮小與人類表現(xiàn)之間的差距。
比如,讓CUA去「劍橋詞典的Plus專區(qū),不用登錄,隨便做一個(gè)語法小測試,然后告訴我你考了多少分」。
只見AI一步一步找到測驗(yàn),并開始刷題,最終得到滿分12分。
在屏幕左側(cè),可以清晰看到它每一步操作過程,其中「不斷截圖」(New screenshot)是支撐它完成任務(wù)的重要步驟。
生活中購物常會遇到退款問題,CUA也能算清楚。
給定一個(gè)完整的指令——我應(yīng)該能從2023年2月取消的訂單中得到多少退款,包括運(yùn)費(fèi)?
CUA就會進(jìn)入購物平臺one-stop-shop,打開「我的訂單」,并通過日期、訂單號查找所有可用的信息,然后計(jì)算得出退款總金額:406.53。
再比如,破解一個(gè)復(fù)雜推理題——6階多格骨牌(Polyominoes)組合方式,以及在所有形狀中,只有2行形狀有多少種。
CUA同樣是通過屏幕截圖,計(jì)算找到最終解:「在35種不同的6階多格骨牌組合中,有12種形狀只有兩行?!?/span>
對于程序員們來說非常使用的場景——更新項(xiàng)目的許可,CUA也能做到。
計(jì)算機(jī)使用
OSWorld是一個(gè)評估模型控制完整操作系統(tǒng)(如Ubuntu、Windows和macOS)能力的基準(zhǔn)測試。
在該基準(zhǔn)測試中,CUA成功率達(dá)到了38.1%。
此外,研究人員還觀察到測試時(shí)的性能擴(kuò)展(test-time scaling),即當(dāng)允許更多操作步驟時(shí),CUA性能會進(jìn)一步提升。
下圖比較了CUA和之前SOTA模型在不同最大允許步驟下的表現(xiàn)。
人類在該基準(zhǔn)測試中的表現(xiàn)為72.4%,因此CUA仍有顯著的改進(jìn)空間。
圖片
以下可視化示例展示了CUA如何完成多種標(biāo)準(zhǔn)化OSWorld任務(wù)。
假設(shè)你想要下載Python在線課程,目前已經(jīng)成功下載Week 0課程講義,剩下幾周PDF文件的下載,完全可以交給AI去做。
這類重復(fù)性任務(wù),AI最擅長不過了,而且你還會有大把時(shí)間去做別的事。
相比之下,在圖片壓縮的任務(wù)中,CUA似乎非常「糾結(jié)」。
在調(diào)節(jié)圖片質(zhì)量時(shí),不僅重復(fù)了數(shù)次「設(shè)為60%」,期間還一度出現(xiàn)了160%、360%這種奇怪的設(shè)定。
不過,在一番波折之后,CUA最終還是完成了任務(wù)。
CUA并非100%可靠
目前,OpenAI通過Operator研究預(yù)覽版提供了CUA——一種可以上網(wǎng)為你執(zhí)行任務(wù)的智能體。
前面已經(jīng)提到了,Operator目前也只面向美國的Pro用戶開放,入口是operator.chatgpt.com。
圖片
與任何早期技術(shù)一樣,CUA還只是一個(gè)初出茅廬的AI,并不能在所有場景中穩(wěn)定運(yùn)行。
不過,它已經(jīng)在多種情況下證明了其實(shí)用性,OpenAI希望將這種可靠性拓展到更多任務(wù)場景。
在下表中,他們展示了CUA在Operator中根據(jù)提示詞完成少量試驗(yàn)的表現(xiàn),以說明其已知的優(yōu)勢和劣勢。
其中,OpenAI明顯指出:對于不同的網(wǎng)站和用戶界面,CUA可靠性會有所不同。
圖片
CUA在執(zhí)行簡單重復(fù)的UI工作比較擅長。
即便是同一個(gè)任務(wù),CUA的可靠性可能會根據(jù)描述任務(wù)的方式而改變。在這種情況下,可以通過以下方式進(jìn)行改進(jìn):
- 提供具體的時(shí)間細(xì)節(jié)(比如,用「上午9點(diǎn)到12點(diǎn)」而不是籠統(tǒng)地說「從上午9點(diǎn)開始的全天」)
- 提供關(guān)于應(yīng)該使用哪些UI界面元素來查找結(jié)果的提示(比如,提示「查看篩選器部分」)
簡言之,越具體,AI更容易理解你的意圖。
圖片
當(dāng)CUA需要與它在訓(xùn)練過程中很少接觸過的UI界面進(jìn)行交互時(shí),它很難準(zhǔn)確判斷如何恰當(dāng)?shù)厥褂眠@些UI。
這通常會導(dǎo)致大量的試錯(cuò)過程和低效的操作。
此外,CUA在文本編輯方面并不精確。它經(jīng)常在處理過程中犯很多錯(cuò)誤,或者提供帶有錯(cuò)誤的輸出。
圖片
所以,能自己用電腦的AI,對人類足夠安全嗎?
OpenAI是這么說的:在開發(fā)CUA時(shí),他們將安全性作為了首要任務(wù),以應(yīng)對「智能體訪問數(shù)字世界所帶來的挑戰(zhàn)」。比如,它會拒絕「購買武器」之類的有害任務(wù)。
而在以后,通過收集的真實(shí)世界反饋,他們還會不斷改進(jìn)安全措施。