自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

剛剛，OpenAI首個(gè)L3級智能體深夜覺醒！AI自己玩電腦引爆全網(wǎng)，AGI一觸即發(fā)

作者：新智元 2025-01-24 08:13:38

OpenAI首個(gè)智能體Operator，剛剛震撼登場。從此，AI打破API局限，可以像人類一樣直接和界面交互了。L3級智能體達(dá)成，AGI路上一大障礙又被掃清！

剛剛，OpenAI首個(gè)智能體終于亮相了！

奧特曼帶領(lǐng)團(tuán)隊(duì)毫無預(yù)警地開啟半小時(shí)「Operator」在線直播，首次揭秘能像人類一樣使用電腦的AI。

Sam Altman，Yash Kumar，Casey Chu，Reiichiro Nakano

演示中，AI智能體不僅可以精準(zhǔn)理解指令，還能自主完成各類任務(wù)。

而它的獨(dú)特之處在于，可以直接與網(wǎng)頁交互——打字、點(diǎn)擊、滾動，幾乎一氣呵成。

比如，自動填寫繁瑣的在線表單、上網(wǎng)購物、創(chuàng)建表情包、處理重復(fù)性瀏覽器任務(wù)等等。

圖片

「Operator」背后操盤手便是Computer-Using Agent （CUA），打破了特定編程接口的局限，像人類一場直接與GUI進(jìn)行交互。

從此，通往AGI道路上的又一大瓶頸被掃除。智能體可以在數(shù)字世界中四處行動了！

OpenAI官博將此稱為，AI與數(shù)字世界的「通用界面」。

圖片

「Operator」究竟有多厲害？

在多個(gè)測試環(huán)境中，CUA成功率令人瞠目：在OSWORLD上完成計(jì)算機(jī)使用任務(wù)成功率高達(dá)38.1%，比此前SOTA提升近16%；在WebArena上完成瀏覽器使用任務(wù)成功率達(dá)到58.1%，性能飆升22%。

不過與人類（72.4%和78.2%）相較之下，AI的能力還是有所差距。

在WebVoyager上，CUA更是達(dá)到了驚人的87%。

圖片

好消息是，「Operator」終于上線。而壞消息是，目前只有Pro美國用戶才能體驗(yàn)。

為了彌補(bǔ)這一遺憾，奧特曼提前劇透了，o3-mini直接在ChatGPT中「開源」，Plus用戶會有更多用量。

雖然但是，我們其實(shí)也可以用國產(chǎn)「Operator」替代一波（手動狗頭）

隨著Operator的正式發(fā)布，總裁Greg也再一次強(qiáng)調(diào)，「2025年，就是智能體之年」。

圖片

話不多說，直接上演示。

AI接管PC訂餐，但直播小翻車

我們可以在Operator中選擇OpenTable，讓它訂一張今晚7點(diǎn)在Beretta的兩人位子。

可以看到，輸入查詢后，Operator會實(shí)例化指令，創(chuàng)建在云端運(yùn)行的瀏覽器操作。

圖片

隨后，Operator轉(zhuǎn)到了搜索Beretta的URL。非常令人驚喜的是，OpenTable默認(rèn)的地址是弗吉尼亞，但它自動更正為舊金山。

再比如，我們做飯需要雞蛋、菠菜、雞大腿和辣椒。在紙上寫下這些食材后，就可以直接傳給Operator，同時(shí)告訴他我們偏好的商店是Gus。

圖片

在這種情況下，Operator很快就根據(jù)GPT-4o的視覺功能理解了圖中的意思，還明白Gus商店是哪里。

接下來，就像OpenTable一樣，它實(shí)例化了一個(gè)瀏覽器，然后開始了購買環(huán)節(jié)。

圖片

如果在以前，如果我們想用智能體執(zhí)行類似操作，就必須確定特定網(wǎng)站有API，并且這個(gè)API有一切所需的功能，然而，大部分網(wǎng)站都是沒有API的。

而CUA通過教模型使用我們?nèi)粘Ｊ褂玫幕窘缑?，它就解鎖了一系列以前無法訪問的軟件！

可以看到，在執(zhí)行操作的過程中，Operator進(jìn)行了一些內(nèi)在獨(dú)白，總結(jié)出了思維鏈。

然后它選擇了雞蛋，點(diǎn)擊了添加按鈕。而且每執(zhí)行一個(gè)操作還會給電腦截個(gè)圖，這樣它就知道自己的操作對電腦有什么影響。

接下來，它點(diǎn)擊搜索框，輸入菠菜。這種采取行動、抓取屏幕截圖、創(chuàng)建子計(jì)劃的循環(huán)會一直持續(xù)，直到任務(wù)完成。

圖片

當(dāng)然，人類也可以隨時(shí)接過Operator的控制權(quán)，這就保證了用戶隨時(shí)可以控制Operator，并向它發(fā)出指令。

有趣的是，人類接管之后，Operator并不能看到我們在接管模式下做的事——這就保證了私密性。

接下來，OpenAI的研究者給它下達(dá)了一項(xiàng)新任務(wù)：用StubHub買四張本周末舊金山勇士隊(duì)比賽、票價(jià)500以下的門票。

非常真實(shí)的是，Operator小翻車了一下。

那就讓它試試，買明早圣瑪麗澳網(wǎng)公開賽的門票。Operator立馬打開引擎，展開搜索。

圖片

隨后，研究者們讓Operator定10個(gè)中等披薩，指令發(fā)出后，它會主動向人類確認(rèn)任務(wù)。

圖片

而在實(shí)際購買時(shí)，也會需要人類登錄自己的賬號，才能完成下一步操作。

問題來了：如果Operator買錯(cuò)東西、訂錯(cuò)酒店了怎么辦呢？不用擔(dān)心，這種情況下，人類需要隨時(shí)確認(rèn)，它才能繼續(xù)行動。

如果它遇到詐騙網(wǎng)站，對此還會有一個(gè)提示注入監(jiān)視器，功能跟防病毒軟件一樣，可以觀察和監(jiān)視它的操作，遇到可疑之處立馬停止。

L3級AGI達(dá)成，開啟下一場人機(jī)交互革命

支撐Operator的核心技術(shù)Computer-Using Agent（CUA），被訓(xùn)練用于與圖形用戶界面GUI（在屏幕上看到的按鈕、菜單和文本框）進(jìn)行交互，就像人類一樣。這就讓它具有了很高的靈活性，無需依賴操作系統(tǒng)或特定網(wǎng)頁API，從而能夠完成各種數(shù)字化任務(wù)。

更進(jìn)一步的，通過將高級GUI感知與結(jié)構(gòu)化問題解決能力結(jié)合在一起，CUA還可以將任務(wù)分解為多步驟計(jì)劃，并在遇到挑戰(zhàn)時(shí)自適應(yīng)糾錯(cuò)。

CUA能夠如此之強(qiáng)，是因?yàn)榻⒃贠penAI多年關(guān)鍵研究——多模態(tài)、推理和安全性領(lǐng)域基礎(chǔ)之上。通過融合GPT-4o的視覺能力、深度推理技術(shù)和創(chuàng)新的強(qiáng)化學(xué)習(xí)方法，研發(fā)團(tuán)隊(duì)攻克了AI操作計(jì)算機(jī)的諸多技術(shù)難關(guān)。

其最大的突破在于，實(shí)現(xiàn)了通用界面。

傳統(tǒng)AI往往被局限于專門的API，而CUA可以像人類一樣操作任何軟件工具。這意味著，AI能適應(yīng)幾乎所有的計(jì)算機(jī)環(huán)境，解決AI長期以來難以觸及的「長尾」數(shù)字使用場景。

還記得此前，彭博爆料的OpenAI內(nèi)部AGI路線圖嗎？Operator的出世，意味著L3級智能體時(shí)代正式開啟！

圖片

下一個(gè)目標(biāo)，OpenAI還將擴(kuò)展智能體的動作空間。接下來幾周/幾個(gè)月，我們還將會看到更多的智能體。

圖片

此外，他們還計(jì)劃開放API接口，讓開發(fā)者能夠基于CUA構(gòu)建自定義的計(jì)算機(jī)智能體。

OpenAI下場智能體Operator，或許將成為下一場人機(jī)交互革命的起點(diǎn)。

計(jì)算機(jī)使用智能體：AI與數(shù)字世界交互的通用界面

那么，CUA具體是如何工作的？

圖片

技術(shù)報(bào)告：https://cdn.openai.com/operator_system_card.pdf

如下是它的工作原理圖，CUA會通過處理「原始像素?cái)?shù)據(jù)」來理解屏幕上顯示的內(nèi)容，并使用虛擬鼠標(biāo)和鍵盤完成操作。

它可以執(zhí)行多步驟任務(wù)、應(yīng)對錯(cuò)誤并適應(yīng)意外變化。

圖片

基于這些優(yōu)勢，使得CUA能夠在各種數(shù)字環(huán)境中發(fā)揮作用，比如填寫表單和瀏覽網(wǎng)站，而無需依賴特定的API。

根據(jù)用戶的指令，CUA通過一個(gè)結(jié)合感知、推理和行動的迭代循環(huán)來運(yùn)行：

感知：從計(jì)算機(jī)截取的屏幕快照被添加到模型的上下文中，為其提供當(dāng)前計(jì)算機(jī)狀態(tài)的視覺參考。
推理：CUA使用思維鏈（CoT）推斷下一步操作，同時(shí)考慮當(dāng)前和過去的屏幕快照及其執(zhí)行的操作。這種內(nèi)在獨(dú)白通過讓模型評估觀察內(nèi)容、跟蹤中間步驟并進(jìn)行動態(tài)調(diào)整來提高任務(wù)完成的效果。
行動：CUA執(zhí)行操作——點(diǎn)擊、滾動或輸入——直到判斷任務(wù)完成或需要用戶輸入。盡管它可以自動完成大多數(shù)步驟，但對于敏感操作（如輸入登錄信息或處理驗(yàn)證碼表單），CUA會尋求用戶確認(rèn)。

刷新SOTA，但與人類差一大截

CUA在計(jì)算機(jī)使用和瀏覽器使用的基準(zhǔn)測試中，通過使用統(tǒng)一的屏幕、鼠標(biāo)和鍵盤界面，刷新了SOTA。

瀏覽器使用

WebArena和WebVoyager專為評估網(wǎng)頁瀏覽AI智能體，在瀏覽器中完成現(xiàn)實(shí)任務(wù)的性能而設(shè)計(jì)。

WebArena利用自托管的開源離線網(wǎng)站，模擬現(xiàn)實(shí)任務(wù)場景，例如電子商務(wù)、在線商店內(nèi)容管理系統(tǒng)（CMS）以及社交論壇平臺等。
WebVoyager則測試模型在亞馬遜、GitHub和Google地圖等在線實(shí)時(shí)網(wǎng)站上的任務(wù)完成表現(xiàn)。

在這些基準(zhǔn)測試中，CUA通過同一個(gè)通用界面設(shè)定了新標(biāo)準(zhǔn)。該界面將瀏覽器屏幕視為「像素」，并通過鼠標(biāo)和鍵盤執(zhí)行操作。

如前所述，在基于網(wǎng)頁的任務(wù)中，CUA在WebArena上的任務(wù)成功率為58.1%，而在WebVoyager上達(dá)到了驚人的87%。

盡管CUA在任務(wù)相對簡單的WebVoyager上表現(xiàn)出較高的成功率，但在更復(fù)雜的基準(zhǔn)測試（如WebArena）中，CUA仍需進(jìn)一步優(yōu)化，以縮小與人類表現(xiàn)之間的差距。

比如，讓CUA去「劍橋詞典的Plus專區(qū)，不用登錄，隨便做一個(gè)語法小測試，然后告訴我你考了多少分」。

只見AI一步一步找到測驗(yàn)，并開始刷題，最終得到滿分12分。

在屏幕左側(cè)，可以清晰看到它每一步操作過程，其中「不斷截圖」（New screenshot）是支撐它完成任務(wù)的重要步驟。

生活中購物常會遇到退款問題，CUA也能算清楚。

給定一個(gè)完整的指令——我應(yīng)該能從2023年2月取消的訂單中得到多少退款，包括運(yùn)費(fèi)？

CUA就會進(jìn)入購物平臺one-stop-shop，打開「我的訂單」，并通過日期、訂單號查找所有可用的信息，然后計(jì)算得出退款總金額：406.53。

再比如，破解一個(gè)復(fù)雜推理題——6階多格骨牌（Polyominoes）組合方式，以及在所有形狀中，只有2行形狀有多少種。

CUA同樣是通過屏幕截圖，計(jì)算找到最終解：「在35種不同的6階多格骨牌組合中，有12種形狀只有兩行?！?/span>

對于程序員們來說非常使用的場景——更新項(xiàng)目的許可，CUA也能做到。

計(jì)算機(jī)使用

OSWorld是一個(gè)評估模型控制完整操作系統(tǒng)（如Ubuntu、Windows和macOS）能力的基準(zhǔn)測試。

在該基準(zhǔn)測試中，CUA成功率達(dá)到了38.1%。

此外，研究人員還觀察到測試時(shí)的性能擴(kuò)展（test-time scaling），即當(dāng)允許更多操作步驟時(shí)，CUA性能會進(jìn)一步提升。

下圖比較了CUA和之前SOTA模型在不同最大允許步驟下的表現(xiàn)。

人類在該基準(zhǔn)測試中的表現(xiàn)為72.4%，因此CUA仍有顯著的改進(jìn)空間。

圖片

以下可視化示例展示了CUA如何完成多種標(biāo)準(zhǔn)化OSWorld任務(wù)。

假設(shè)你想要下載Python在線課程，目前已經(jīng)成功下載Week 0課程講義，剩下幾周PDF文件的下載，完全可以交給AI去做。

這類重復(fù)性任務(wù)，AI最擅長不過了，而且你還會有大把時(shí)間去做別的事。

相比之下，在圖片壓縮的任務(wù)中，CUA似乎非常「糾結(jié)」。

在調(diào)節(jié)圖片質(zhì)量時(shí)，不僅重復(fù)了數(shù)次「設(shè)為60%」，期間還一度出現(xiàn)了160%、360%這種奇怪的設(shè)定。

不過，在一番波折之后，CUA最終還是完成了任務(wù)。

CUA并非100%可靠

目前，OpenAI通過Operator研究預(yù)覽版提供了CUA——一種可以上網(wǎng)為你執(zhí)行任務(wù)的智能體。

前面已經(jīng)提到了，Operator目前也只面向美國的Pro用戶開放，入口是operator.chatgpt.com。

圖片

與任何早期技術(shù)一樣，CUA還只是一個(gè)初出茅廬的AI，并不能在所有場景中穩(wěn)定運(yùn)行。

不過，它已經(jīng)在多種情況下證明了其實(shí)用性，OpenAI希望將這種可靠性拓展到更多任務(wù)場景。

在下表中，他們展示了CUA在Operator中根據(jù)提示詞完成少量試驗(yàn)的表現(xiàn)，以說明其已知的優(yōu)勢和劣勢。

其中，OpenAI明顯指出：對于不同的網(wǎng)站和用戶界面，CUA可靠性會有所不同。

圖片

CUA在執(zhí)行簡單重復(fù)的UI工作比較擅長。

即便是同一個(gè)任務(wù)，CUA的可靠性可能會根據(jù)描述任務(wù)的方式而改變。在這種情況下，可以通過以下方式進(jìn)行改進(jìn)：

提供具體的時(shí)間細(xì)節(jié)（比如，用「上午9點(diǎn)到12點(diǎn)」而不是籠統(tǒng)地說「從上午9點(diǎn)開始的全天」）
提供關(guān)于應(yīng)該使用哪些UI界面元素來查找結(jié)果的提示（比如，提示「查看篩選器部分」）

簡言之，越具體，AI更容易理解你的意圖。

圖片

當(dāng)CUA需要與它在訓(xùn)練過程中很少接觸過的UI界面進(jìn)行交互時(shí)，它很難準(zhǔn)確判斷如何恰當(dāng)?shù)厥褂眠@些UI。

這通常會導(dǎo)致大量的試錯(cuò)過程和低效的操作。

此外，CUA在文本編輯方面并不精確。它經(jīng)常在處理過程中犯很多錯(cuò)誤，或者提供帶有錯(cuò)誤的輸出。

圖片

所以，能自己用電腦的AI，對人類足夠安全嗎？

OpenAI是這么說的：在開發(fā)CUA時(shí)，他們將安全性作為了首要任務(wù)，以應(yīng)對「智能體訪問數(shù)字世界所帶來的挑戰(zhàn)」。比如，它會拒絕「購買武器」之類的有害任務(wù)。

而在以后，通過收集的真實(shí)世界反饋，他們還會不斷改進(jìn)安全措施。

參考資料：https://x.com/sama/status/1882488842290356462

責(zé)任編輯：武曉燕來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="yobgl"></sub>

<blockquote id="yobgl"></blockquote>

<sub id="yobgl"></sub>

<blockquote id="yobgl"><i id="yobgl"><video id="yobgl"></video></i></blockquote>