自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

CMU博士讓智能體在真實世界競技！GPT-4奪冠，但成功率只有一成

作者：新智元 2023-08-07 15:18:55

人工智能新聞

NLP技術(shù)的發(fā)展，使得創(chuàng)建一個在數(shù)字世界中的智能代理成為了當(dāng)下人們關(guān)注的熱點。此時，來自華人主導(dǎo)的團隊推出了WebArena，能夠測試智能代理在網(wǎng)絡(luò)環(huán)境中執(zhí)行任務(wù)的實踐效果，那么具體我們應(yīng)該怎么做呢？

長期以來，我們一直有著在人工智能的發(fā)展下創(chuàng)建自主的智能代理的愿景。

人們希望這些代理能夠與環(huán)境進行智能的交互，并實現(xiàn)人類為其設(shè)定的目標(biāo)。

現(xiàn)有的強化學(xué)習(xí)（RL）框架在模擬的游戲或封閉的領(lǐng)域中取得了巨大的成功，但對于現(xiàn)實中復(fù)雜的物理環(huán)境卻束手無策。

而今的自然語言處理技術(shù)（NLP），為人類和大模型在數(shù)字世界中的智能交互提供了獨特的可擴展環(huán)境和學(xué)習(xí)優(yōu)勢。

例如，WebShop 是一個包含數(shù)百萬種產(chǎn)品的購物網(wǎng)站環(huán)境，代理需要在其中閱讀網(wǎng)頁、鍵入查詢和單擊按鈕，才能像人類一樣購物。

這樣的數(shù)字任務(wù)挑戰(zhàn)了智能的一般方面：包括視覺理解、閱讀理解和決策，并允許擴展到其他程序中使用更多的功能。

諸如此類「數(shù)字世界中的智能代理」，為人工智能的落地應(yīng)用設(shè)想了一個看起來還不錯的前景。

而就在7月26日，一個以華人為主團隊在X（原推特）上推出了測試智能代理在網(wǎng)絡(luò)環(huán)境中執(zhí)行任務(wù)的實踐效果的Web環(huán)境：WebArena。

WebArena是什么？

WebArena是一個獨立的、自托管的 Web 環(huán)境。

開發(fā)者從電子商務(wù)、社交論壇、協(xié)作軟件開發(fā)和內(nèi)容管理這四類現(xiàn)實中的創(chuàng)建了獨立的網(wǎng)站，在功能和數(shù)據(jù)上模仿真實世界的內(nèi)容。

WebArena還將工具和知識資源嵌入為獨立的網(wǎng)站，以此讓智能代理有模擬人類解決問題的能力。

用戶可以對智能代理進行自然語言指令的基準(zhǔn)測試，實現(xiàn)與Web的具體交互。

在WebArena的環(huán)境基礎(chǔ)上，開發(fā)者發(fā)布了一組基準(zhǔn)任務(wù)，重點是評估任務(wù)完成的功能正確性。

其設(shè)置基準(zhǔn)測試中的任務(wù)是多樣化的、長期的，并且旨在模擬人類在互聯(lián)網(wǎng)上經(jīng)常執(zhí)行的任務(wù)。

訂閱OneStopMarket的電子報

告訴我到目前為止，我們商店收到的含有”最佳”一詞的評論數(shù)量

距離緬因州最大的城市最近的國家公園是哪一個?

取消訂單 307

步行測量卡內(nèi)基音樂廳和 UPMC Shadyside 之間的距離

檢查從匹茲堡機場開車一小時是否可以到達匹茲堡的杜肯大學(xué)

Agent on Gitlab Gitlab上的代理

"Set up a new, empty repository with the name awesome_llm_reading" “設(shè)置名為 awesome_llm_reading 的新空存儲庫”

Agent on Shopping Website
"Tell me the status of my latest order and when will it arrive" “告訴我最新訂單的狀態(tài)以及何時到達”

一般來說，要完成路線導(dǎo)航任務(wù)需要智能代理具備復(fù)雜的長期規(guī)劃和推理為了達成任務(wù)目標(biāo)，智能代理需要:

在維基百科上搜索位于匹茲堡的藝術(shù)博物館，并在地圖上確定每家博物館的位置，根據(jù)收集的信息進行優(yōu)化。

在完成路線規(guī)劃后，智能代理需要將結(jié)果更新到相關(guān)代碼倉庫的README文件中，以文本的形式添加規(guī)劃好的博物館游覽路線。

逼真且可重現(xiàn)的網(wǎng)頁環(huán)境

WebArena的目標(biāo)是創(chuàng)建一個逼真且可重現(xiàn)的網(wǎng)頁環(huán)境。

主要通過兩種方式：

首先，要讓環(huán)境獨立自主而不依賴實時網(wǎng)站來實現(xiàn)可重現(xiàn)性。

其次，構(gòu)建許多實際使用網(wǎng)站的開源庫，并從這些網(wǎng)站導(dǎo)入數(shù)據(jù)到我們的環(huán)境中來實現(xiàn)逼真性。

這種方式也幫助WebArena規(guī)避了技術(shù)挑戰(zhàn)。例如機器人需要通過驗證碼、內(nèi)容和配置的不可預(yù)測變化等，這些都會阻礙對不同智能代理在時間跨度上的公平比較。

評價

高度逼真的WebArena可交互環(huán)境為基準(zhǔn)測試的實現(xiàn)提供了條件。

與其他類似的模擬Web環(huán)境相比較，WebArena的基準(zhǔn)測試包含人們?nèi)粘？赡苡龅降母鞣N任務(wù)。

同時，WebArena還設(shè)計了評估指標(biāo)來檢查任務(wù)執(zhí)行的功能準(zhǔn)確性。

也因此，WebArena的基準(zhǔn)測試更貼近真實的環(huán)境，智能代理的任務(wù)實踐效果也更接近現(xiàn)實。

對在WebArena中運行的智能代理執(zhí)行任務(wù)的準(zhǔn)確性，有以下兩種評估方式：

第一種是測量執(zhí)行信息搜索任務(wù)的正確性。它將預(yù)測的答案與注釋的參考答案進行比較，有三種實現(xiàn)方式。

第二種方法是程序化地檢查執(zhí)行過程中的中間狀態(tài)，檢查其是否具有意圖所指定的預(yù)期屬性。

整體而言，WebArena提供了一個功能完備、高度模擬現(xiàn)實的測試環(huán)境和評估體系。能夠衡量智能體執(zhí)行復(fù)雜任務(wù)的全面能力。

GPT-4智能體奪得冠軍

研究者創(chuàng)建了812個用英語編寫的目標(biāo)測試示例，和實現(xiàn)這些目標(biāo)的網(wǎng)絡(luò)交互。

每個任務(wù)都會使用驗證器進行注釋，以編程方式檢查任務(wù)是否真正按預(yù)期完成。

在這些任務(wù)中，表現(xiàn)最好的GPT-4 Agent實現(xiàn)了10.59%的有限端到端任務(wù)成功率。

才不到一成，顯然有足夠的改進空間。

WebArena的試驗這也預(yù)示著這樣一個未來：

隨著越來越多的API被整合到環(huán)境中，一個由極其多樣化和開放式的數(shù)字工具和任務(wù)組成的生態(tài)系統(tǒng)將出現(xiàn)。我們將會培養(yǎng)出更通用和有能力的自主智能代理。

這將為通用人工智能(AGI)的道路帶來新的方向。

責(zé)任編輯：張燕妮來源：新智元

NLP 技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="2fwer"><p id="2fwer"></p></sub>

<style id="2fwer"><rp id="2fwer"></rp></style>