OpenAI突發(fā)Operator!完全自主玩轉(zhuǎn)瀏覽器,奧特曼:Level 3時(shí)代開啟
OpenAI熱炒已久的智能體,剛剛正式發(fā)布!
OpenAI官方介紹:
Operator是我們的首批智能體之一。這些AI能夠獨(dú)立為你完成工作——只需給它一個(gè)任務(wù),它就會(huì)執(zhí)行。
be like,給它一個(gè)購物清單,Operator就能完全自主地幫你買好東西。
可以看到操作老哥的雙手已經(jīng)離開鍵盤,屏幕上的所有操作都是Operator自己完成。
還能讓它來預(yù)定餐廳:
這邊奧特曼直播剛結(jié)束,OpenAI總裁Brockman就迫不及待地宣布:
2025是智能體之年。
并且這一次,Operator官宣即上線——只不過,暫時(shí)只面向Pro用戶,對(duì),就是一個(gè)月200刀(約合人民幣1458元)的那個(gè)大會(huì)員。
看罷直播,網(wǎng)友們還是非常興奮的,直呼“瘋狂星期四”。
但是嘛……
嗯,Operator很香,但要是開源就更棒了,DeepSeek、Meta快卷起來(doge)。
玩轉(zhuǎn)瀏覽器,無需人類輔助
口說無憑,咱們還是先通過官方Demo,來看看Operator到底有多“獨(dú)立自主”。
它幾乎可以使用任何網(wǎng)站,無需人類的操作輔助。
比如從Allrecipes上找到一份蛤蜊扁面條的食譜,然后把所有的食材都放到我instacart的購物車?yán)铮?/p>
它操作這一切的邏輯和人類一樣,看到了哪些圖片、該點(diǎn)擊哪些按鈕。
這和其他使用API或者基于編程接口的Agent不同,它是基于文本的思維鏈進(jìn)行推理。
確認(rèn)好菜單后,去哪個(gè)店下單買菜呢?
人類進(jìn)一步給出指令,使用Gus’s,然后Operator就會(huì)到對(duì)應(yīng)的網(wǎng)站開始下單。
遇到登錄、支付等操作時(shí),Operator會(huì)將操作權(quán)交還給用戶。
在用戶實(shí)測中,有博主發(fā)現(xiàn)如果Operator被Reddit墻了,它還會(huì)自己在搜索時(shí)就加入“Reddit”關(guān)鍵詞以找到相關(guān)帖子。
用戶也可以通過添加自定義指令,獲得個(gè)性化體驗(yàn)。比如設(shè)置訂機(jī)票時(shí)的首選航司。
Operator允許用戶保存提示,以便在主頁上快速訪問,非常適合重復(fù)任務(wù),如在購物網(wǎng)站上補(bǔ)貨。
Operator也能同時(shí)運(yùn)行多個(gè)任務(wù),就像是打開多個(gè)網(wǎng)頁那樣,比如讓它在Etsy上訂購個(gè)性化的搪瓷馬克杯,同時(shí)在Hipcamp上預(yù)訂露營地。
Operator的底層使用了一個(gè)全新的模型Computer-Using-Agent(CUA)。
通過將GPT-4o的視覺能力和高級(jí)推理強(qiáng)化學(xué)習(xí)相結(jié)合,CUA可以進(jìn)行GUI交互。
Operator可以看到網(wǎng)頁界面的內(nèi)容,使用鼠標(biāo)、鍵盤允許的所有操作。由此它可以自動(dòng)操作,而無需自定義的API集成。
如果遇到問題或者出現(xiàn)錯(cuò)誤,Operator可以利用推理能力自我糾錯(cuò)。并在它卡住需要幫助時(shí),將控制權(quán)交還給用戶。
CUA在WebArena和WebVoyager兩個(gè)基準(zhǔn)測試中都取得了SOTA。
目前,美區(qū)的Pro會(huì)員已經(jīng)可以通過operator.chatgpt.com來使用Operator。Plus、Team、Enterprise等付費(fèi)用戶和其他地區(qū)的胖友們,還得再等等,但OpenAI承諾未來會(huì)將這些功能集成到ChatGPT中。
OpenAI邁入“Level 3”
2024年7月,OpenAI發(fā)布了“從AI到AGI的五步過程”:
- Level 1:Chatbots,AI可以以對(duì)話的方式與人互動(dòng)。
- Level 2:Reasoners,AI科技解決人類水平的問題。
- Level 3:Agents,AI可以作為系統(tǒng)執(zhí)行一些行動(dòng)任務(wù)。
- Level 4:Innovators,AI可以開發(fā)創(chuàng)新性的AI。
- Level 5:Organizations,AI可以完成一個(gè)組織完成的工作。
在當(dāng)時(shí)的定義和規(guī)劃中,OpenAI表示自己還只處于Level 1階段,正在靠近Level 2。
而現(xiàn)在,隨著Operator的發(fā)布,奧特曼宣布:
這是我們進(jìn)入Level 3的開始。
值得注意的是,就像開頭提到,OpenAI悄悄畫了個(gè)重點(diǎn):Operator還只是“首批”而非唯一智能體。
在直播中,奧特曼也預(yù)告了:
我們還將在未來幾周和幾個(gè)月內(nèi)推出更多智能體。
One More Thing
就在OpenAI今天這場直播之前,還有一個(gè)小小的花絮。
Operator發(fā)布2小時(shí)前,OpenAI發(fā)了一條推文,表示修復(fù)了ChatGPT和API錯(cuò)誤率高的問題。
又虛晃了網(wǎng)友們一槍(doge)。
另一個(gè)好消息是,奧特曼還預(yù)告,ChatGPT免費(fèi)版就能用上o3-mini。