自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

瀏覽器智能體崛起:Convergence Proxy為何會(huì)碾壓OpenAI Operator?

人工智能 瀏覽器
一股新的AI驅(qū)動(dòng)的瀏覽器智能體浪潮正在興起,有望改變企業(yè)與網(wǎng)絡(luò)的互動(dòng)方式。這些智能體能夠自主瀏覽網(wǎng)站、檢索信息,甚至完成交易——但早期測(cè)試顯示,其承諾的性能與實(shí)際表現(xiàn)之間存在顯著差距。

一股新的AI瀏覽器智能體浪潮正改變企業(yè)與網(wǎng)絡(luò)的互動(dòng)。

一股新的AI驅(qū)動(dòng)的瀏覽器智能體浪潮正在興起,有望改變企業(yè)與網(wǎng)絡(luò)的互動(dòng)方式。這些智能體能夠自主瀏覽網(wǎng)站、檢索信息,甚至完成交易——但早期測(cè)試顯示,其承諾的性能與實(shí)際表現(xiàn)之間存在顯著差距。

雖然OpenAI的新瀏覽器智能體Operator提供的消費(fèi)者示例(如訂購(gòu)披薩或購(gòu)買游戲門票)已搶占新聞?lì)^條,但問題在于,主要的開發(fā)者和企業(yè)用例在哪里?“我們不知道的是,殺手級(jí)應(yīng)用會(huì)是什么,”開發(fā)AI智能體的Red Dragon公司聯(lián)合創(chuàng)始人Sam Witteveen表示,“我猜想,它會(huì)是那些你在網(wǎng)上花費(fèi)時(shí)間但并不真正享受的事情?!边@包括上網(wǎng)搜索某款產(chǎn)品的最低價(jià)或預(yù)訂最佳酒店住宿等。更有可能的是,它將與其他工具(如Deep Research)結(jié)合使用,這樣公司就可以在網(wǎng)上進(jìn)行更復(fù)雜的研究并執(zhí)行任務(wù)。

隨著老牌企業(yè)和初創(chuàng)公司采取不同的方法來解決自主瀏覽挑戰(zhàn),企業(yè)需要謹(jǐn)慎評(píng)估這一快速變化的格局。

瀏覽器智能體領(lǐng)域的關(guān)鍵參與者

這一領(lǐng)域迅速吸引了眾多大型科技公司和創(chuàng)新型初創(chuàng)企業(yè)的加入:

? OpenAI的Operator(2025年1月推出)——ChatGPT Pro訂閱用戶(每月200美元)可用,專注于用戶友好的網(wǎng)絡(luò)自動(dòng)化

? Convergence的Proxy(2024年12月推出)——一家英國(guó)初創(chuàng)公司,提供免費(fèi)有限使用(每天5次會(huì)話)或每月20美元的無限制訪問

? 谷歌的Project Mariner——目前處于預(yù)覽測(cè)試階段,需排隊(duì)等候訪問

? Anthropic的Computer Use(2024年10月推出)——預(yù)計(jì)不久將發(fā)布更新

? 微軟的OmniParser V2(2025年2月)——一個(gè)開源項(xiàng)目,用于將用戶界面截圖轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),使大型語(yǔ)言模型(LLM)能夠解釋并與網(wǎng)站互動(dòng)

? 字節(jié)跳動(dòng)的UI-TARS——需要更深層次的系統(tǒng)訪問權(quán)限,可能引發(fā)安全擔(dān)憂

? Browser-Use——一個(gè)面向開發(fā)者的工具,允許選擇AI模型,包括谷歌的Gemini 2.0 Flash

在消費(fèi)者友好度和即開即用方面,Operator和Proxy是最先進(jìn)的。其他許多智能體似乎更多地定位于開發(fā)者或企業(yè)使用。例如,Y-Combinator初創(chuàng)公司Browser Use允許用戶自定義與智能體一起使用的模型。這讓你能更好地控制智能體的工作方式,包括使用本地機(jī)器上的模型,但這無疑更加復(fù)雜。

上述其他智能體提供了不同程度的功能以及與本地機(jī)器資源的交互能力。我決定暫時(shí)不測(cè)試字節(jié)跳動(dòng)的UI-TARS,因?yàn)樗笤L問我機(jī)器的安全和隱私功能的較低層級(jí)(如果我進(jìn)行測(cè)試,我一定會(huì)使用備用電腦)。

測(cè)試揭示推理挑戰(zhàn)

因此,最容易測(cè)試的是OpenAI的Operator和Convergence的Proxy。在我們的測(cè)試中,結(jié)果突顯了推理能力比原始自動(dòng)化功能更為重要的觀點(diǎn)。特別是Operator,存在更多缺陷。

例如,我要求智能體找到并總結(jié)VentureBeat上最受歡迎的五篇文章。這是一項(xiàng)模糊的任務(wù),因?yàn)閂entureBeat并沒有一個(gè)明確的“最受歡迎”板塊。Operator在此任務(wù)上遇到了困難。它首先在搜索“最受歡迎”文章時(shí)陷入了無限滾動(dòng)循環(huán),需要手動(dòng)干預(yù)。在另一次嘗試中,它找到了一篇三年前的文章,標(biāo)題為“本周五大熱門文章”。相比之下,Proxy通過識(shí)別主頁(yè)上最顯眼的五篇文章作為受歡迎程度的實(shí)際代表,展示了更好的推理能力,并且給出了準(zhǔn)確的總結(jié)。

在實(shí)際任務(wù)中,這種區(qū)別變得更加明顯。我要求智能體在加州納帕的一家浪漫餐廳預(yù)訂中午的座位。Operator線性地處理任務(wù)——先找到一家浪漫餐廳,然后檢查中午是否有空位。當(dāng)沒有空位時(shí),它就陷入了僵局。Proxy則展示了更復(fù)雜的推理能力,它先從OpenTable開始,尋找既浪漫又在所需時(shí)間有空位的餐廳。它甚至找到了一家評(píng)分略高的餐廳。

即使在看似簡(jiǎn)單的任務(wù)中,也揭示了重要的差異。在亞馬遜上搜索“YubiKey 5C NFC價(jià)格”時(shí),Proxy比Operator更快地找到了商品。

OpenAI并未透露太多關(guān)于其用于訓(xùn)練Operator智能體的技術(shù)細(xì)節(jié),只是表示其模型是在瀏覽器使用任務(wù)上進(jìn)行訓(xùn)練的,然而,Convergence提供了更多細(xì)節(jié):其智能體使用了一種稱為生成樹搜索的技術(shù)來“利用網(wǎng)絡(luò)世界模型,預(yù)測(cè)采取擬議行動(dòng)后網(wǎng)絡(luò)的狀態(tài)。這些模型是遞歸生成的,以產(chǎn)生一棵可能的未來之樹,然后在這棵樹上進(jìn)行搜索,以選擇下一個(gè)最優(yōu)行動(dòng),這是由我們的價(jià)值模型排名的。我們的網(wǎng)絡(luò)世界模型還可以用于在假設(shè)情況下訓(xùn)練代理,而無需生成大量昂貴的數(shù)據(jù)。”

基準(zhǔn)測(cè)試目前可能無用

從紙面上看,這些工具似乎勢(shì)均力敵。Convergence的Proxy在WebVoyager基準(zhǔn)測(cè)試中達(dá)到了88%的準(zhǔn)確率,該基準(zhǔn)測(cè)試在亞馬遜和Booking.com等15個(gè)熱門網(wǎng)站上的643項(xiàng)真實(shí)世界任務(wù)中評(píng)估了網(wǎng)絡(luò)智能體。OpenAI的Operator得分為87%,而Browser-Use表示其得分達(dá)到了89%,但承認(rèn)這是在稍微修改了WebVoyager代碼庫(kù)后實(shí)現(xiàn)的,“符合我們的需求”。

然而,這些基準(zhǔn)測(cè)試得分應(yīng)謹(jǐn)慎對(duì)待,因?yàn)樗鼈兛赡鼙徊倏v。真正的測(cè)試在于實(shí)際用例中的實(shí)用效果。目前還處于非常早期的階段,這一領(lǐng)域正在迅速變化,這些產(chǎn)品幾乎每天都在更新。結(jié)果將更多地取決于你試圖完成的具體工作,而你可能更愿意依賴在使用不同產(chǎn)品時(shí)獲得的直觀感受。

對(duì)企業(yè)的影響

對(duì)企業(yè)自動(dòng)化而言,其影響是顯著的。正如Witteveen在我們關(guān)于這一主題的視頻播客對(duì)話中指出的那樣(我們?cè)谄渲猩钊胩接懥藶g覽器使用趨勢(shì)),許多公司目前正在為真人操作的虛擬助手支付費(fèi)用,以處理基本的網(wǎng)絡(luò)研究和數(shù)據(jù)收集任務(wù)。這些瀏覽器智能體可能會(huì)極大地改變這一狀況。

“如果AI接管了這一工作,”Witteveen指出,“那將是最早一批因此失去工作的人。這種情況會(huì)在這些事情中體現(xiàn)出來?!?/p>

這可能會(huì)推動(dòng)機(jī)器人流程自動(dòng)化(RPA)趨勢(shì)的發(fā)展,其中瀏覽器使用只是公司自動(dòng)化更多任務(wù)的另一個(gè)工具。如前所述,更強(qiáng)大的用例將是當(dāng)智能體將瀏覽器使用與其他工具(包括Deep Research等工具)結(jié)合使用時(shí),其中由LLM驅(qū)動(dòng)的代理使用搜索工具加瀏覽器使用來完成更復(fù)雜的工作。

成本動(dòng)態(tài)推動(dòng)創(chuàng)新

推動(dòng)快速發(fā)展的另一個(gè)關(guān)鍵因素是強(qiáng)大開源推理模型(如DeepSeek-R1)的可用性。這使得構(gòu)建這些瀏覽器智能體的公司能夠通過利用這些模型而不是自建模型,來有效地與大型企業(yè)競(jìng)爭(zhēng)。

定價(jià)壓力已經(jīng)顯現(xiàn)。雖然OpenAI要求每月200美元的ChatGPT Pro訂閱才能訪問Operator,但Convergence提供免費(fèi)有限使用(每天最多五次)和每月20美元的無限制計(jì)劃。這種競(jìng)爭(zhēng)態(tài)勢(shì)應(yīng)會(huì)加速企業(yè)的采用,盡管明確的用例仍在涌現(xiàn)。

安全和集成挑戰(zhàn)

在廣泛的企業(yè)采用之前,仍存在幾個(gè)障礙。一些網(wǎng)站積極阻止自動(dòng)化瀏覽,而其他網(wǎng)站則要求進(jìn)行CAPTCHA驗(yàn)證。雖然OpenAI和Convergence都有工具可以繞過CAPTCHA,但它們讓用戶接管任務(wù)來填寫——而不是直接完成,因?yàn)镃APTCHA的整個(gè)目的就是確保另一端是人類。像字節(jié)跳動(dòng)的UI-TARS這樣的工具要求深層次的系統(tǒng)訪問權(quán)限,這給企業(yè)部署帶來了安全擔(dān)憂。

此外,與網(wǎng)站合作的方式各不相同。OpenAI已與Instacart、Priceline、DoorDash和Etsy等特定合作伙伴合作,而其他公司則嘗試瀏覽任何網(wǎng)站。這種不一致性可能會(huì)影響企業(yè)用例的可靠性。當(dāng)然,每當(dāng)智能體訪問需要登錄詳情的網(wǎng)站時(shí),都會(huì)減慢速度——因?yàn)榇頃?huì)將任務(wù)交給你來填寫這些詳情。

展望未來

對(duì)于評(píng)估這些工具的企業(yè)而言,應(yīng)重點(diǎn)關(guān)注自主網(wǎng)絡(luò)交互能夠提供明確價(jià)值的特定用例——無論是在研究、客戶服務(wù)還是流程自動(dòng)化方面。這項(xiàng)技術(shù)正在迅速發(fā)展,但成功將取決于將能力與具體業(yè)務(wù)需求相匹配。

隨著這一領(lǐng)域的不斷發(fā)展,預(yù)計(jì)將會(huì)看到更多以企業(yè)為中心的功能,以及可能針對(duì)特定行業(yè)或任務(wù)的專門智能體。老牌企業(yè)與創(chuàng)新型初創(chuàng)公司之間的競(jìng)爭(zhēng)應(yīng)會(huì)推動(dòng)技術(shù)進(jìn)步和具有競(jìng)爭(zhēng)力的定價(jià),使2025年成為企業(yè)瀏覽器智能體采用的關(guān)鍵一年。

責(zé)任編輯:姜華 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2024-11-14 18:40:57

2025-01-24 08:10:25

2025-02-13 09:09:58

OpenratorAI驅(qū)動(dòng)智能體

2025-01-27 12:21:51

2025-01-24 07:26:07

2010-04-28 10:39:43

Webkit瀏覽器內(nèi)核

2025-04-23 11:52:05

2025-01-24 15:09:43

2025-01-24 13:44:49

2012-03-19 17:25:22

2012-03-20 11:41:18

海豚瀏覽器

2012-03-20 11:31:58

移動(dòng)瀏覽器

2009-04-01 08:52:19

IE8微軟瀏覽器

2012-03-20 11:07:08

2025-04-21 08:35:00

OpenAI智能體編程

2012-06-21 15:38:02

獵豹瀏覽器

2010-04-05 21:57:14

Netscape瀏覽器

2012-03-20 11:22:02

QQ手機(jī)瀏覽器

2012-03-19 17:17:00

移動(dòng)瀏覽器歐朋

2024-10-15 17:28:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)