強(qiáng)如Operator也怕驗(yàn)證碼,1450元花得值嗎?第一波實(shí)測來了
要花1450元才能玩到Operator,讓本來滿滿期待的大伙,一下難受住了。
而交了錢的各位,開始興奮的曬出各種測試結(jié)果。
有網(wǎng)友分享,Operator通過瀏覽網(wǎng)頁在3分鐘之內(nèi)幫打找到了附近牙醫(yī)診所,回報(bào)了地址和電話。
圖片
也有人讓它作為研究助手,在arXiv上挨個(gè)打開每篇論文,看完后輸出總結(jié)。
也有“壞人”專門出難題,看AI如何應(yīng)對(duì):讓Operator到ChatGPT官網(wǎng)使用Operator會(huì)如何?
但沒想到OpenAI預(yù)判了他的預(yù)判,直接給出一個(gè)嘲諷式報(bào)錯(cuò)。
試得好,下次別試了。
圖片
強(qiáng)如Operator,上網(wǎng)沖浪時(shí)也會(huì)被驗(yàn)證碼難住,但好在它學(xué)會(huì)了向人類用戶求助:
我遇到了一個(gè)驗(yàn)證碼……你能接管并幫我搞定嗎?
圖片
沒錯(cuò),這只是一個(gè)早期預(yù)覽版。
參與發(fā)布直播的基礎(chǔ)研究貢獻(xiàn)者(Fundamental Research Contributor)Casey Chu認(rèn)為,它會(huì)犯錯(cuò)誤,但它讓你提前窺見未來。
而且他的這個(gè)帖子,就是Operator寄幾發(fā)的,成功套娃了:
圖片
核心貢獻(xiàn)者(Core Contributor)Yilong Qin認(rèn)為,測試時(shí)間計(jì)算的Scaling Law在這里繼續(xù)發(fā)揮威力。
給Agent更多時(shí)間,它會(huì)內(nèi)省、更新、一遍又一遍地嘗試直至最終成功。
圖片
同為核心貢獻(xiàn)者的姚順雨表示,有了強(qiáng)化學(xué)習(xí)的新范式,Operator的進(jìn)步速度會(huì)像從o1-preview到o3一樣。
圖片
同時(shí)他介紹,Agent是OpenAI(甚至是AI)誕生以來就有的目標(biāo),在發(fā)展過程中做了多次嘗試。
但只有發(fā)現(xiàn)GPT和草莓(o1)兩種新范式后,Agent的潛能才真正被解鎖。
2025年將是Agent之年。
圖片
他為什么這么說?還要從OpenAI成立之初講起。
OpenAI的十年Agent之路
早在2016-2017年,OpenAI就通過Word of Bits和Universe探索了讓AI操作瀏覽器上網(wǎng)。
Word of Bits由OpenAI與斯坦福大學(xué)合作,參與者包括大家熟悉的Karpathy和Jim Fan、斯坦福大學(xué)副教授Percy Liang等,以及姚班校友施天麟。
圖片
施天麟只在OpenAI工作了一年,隨后在2017年創(chuàng)辦了Cresta,業(yè)務(wù)正是AI Agents 方向,專注于為客服中心提供各種AI助手。
2024年11月,Cresta完成1.25億美元D輪融資,總?cè)谫Y金額達(dá)到2.7億美元。
圖片
OpenAI Universe則是一個(gè)Agent訓(xùn)練和測試的平臺(tái)。他們從李飛飛的ImageNet上受到啟發(fā),希望能把圖像識(shí)別任務(wù)上的快速進(jìn)步復(fù)制到Agent領(lǐng)域。
2017年的Universe已經(jīng)能讓AI完成一些簡單的瀏覽器操作,以及玩Atari游戲等任務(wù)。
圖片
但隨后不久,OpenAI就把主要精力從強(qiáng)化學(xué)習(xí)轉(zhuǎn)向了語言模型GPT系列上。
2021年底,到了GPT-3時(shí)代,OpenAI不忘初心推出WebGPT,使用基于文本的Web瀏覽器更準(zhǔn)確地回答開放式問題。
圖片
這項(xiàng)研究把GPT-3回答開放式問題的真實(shí)性和有用性從20%-30%提升到了40%-80%,但仍未達(dá)到人類平均水平。
圖片
WebGPT的作者中,有4位也出現(xiàn)在最新的Operator貢獻(xiàn)名單里,分別是歐陽龍,Christina Kim,Reiichiro Nakano,Kevin Button。
其中Reiichiro Nakano(中野禮一郎)是Operator項(xiàng)目的研究主管之一,也出現(xiàn)在了發(fā)布直播中。
圖片
△Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano
最新的Operator背后模型命名為CUA(Computer Use Agent),與此前的探索相比,有了幾項(xiàng)重大突破:
- 多模態(tài)理解帶來“感知”能力,由GPT-4o提供。
- 長上下文作為“任務(wù)視野”,讓Agent能連續(xù)執(zhí)行任務(wù)長達(dá)20分鐘。
- o1式的思維鏈推理,這種內(nèi)心獨(dú)白使模型能夠評(píng)估其觀察結(jié)果、跟蹤中間步驟并動(dòng)態(tài)適應(yīng)。
參與、觀察了整個(gè)十年發(fā)展過程的Karpathy總結(jié)到:
Operator之于數(shù)字世界,就像人形機(jī)器人之于物理世界。
在數(shù)字世界的發(fā)展速度要比物理世界更快,因?yàn)榉D(zhuǎn)比特的成本相比移動(dòng)原子只有約1/1000。
……
與其說2025年是Agent年,不如說2025-2035年是Agent的十年。
圖片
World of Bitshttps://proceedings.mlr.press/v70/shi17a/shi17a.pdf
Universehttps://openai.com/index/universe/
WebGPThttps://openai.com/index/webgpt/
Operatorhttps://openai.com/index/openai-gym-beta/
參考鏈接:
[1]https://www.reddit.com/r/singularity/comments/1i8fi3l/openai_operator_finds_me_an_in_network_dentist/[2] https://x.com/omarsar0/status/1882545077219926031[3]https://x.com/liambolling/status/1882565960697282812[4]https://x.com/caseychu9/status/1882507704566235407[5]https://x.com/yilongqin/status/1882507643669123230[6]https://x.com/liambolling/status/1882565960697282812[7]https://x.com/karpathy/status/1882544526033924438