自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

續(xù)命Scaling Law?世界模型GPT-4o讓智能體超級(jí)規(guī)劃,OSU華人一作

人工智能 新聞
Scaling Law撞墻,擴(kuò)展語(yǔ)言智能體的推理時(shí)計(jì)算實(shí)在太難了!破局之道,竟是使用LLM作為世界模型?OSU華人團(tuán)隊(duì)發(fā)現(xiàn),使用GPT-4o作為世界模型來(lái)支持復(fù)雜環(huán)境中的規(guī)劃,潛力巨大。

Scaling Law又能續(xù)命了?

如何通過(guò)語(yǔ)言智能體的高級(jí)規(guī)劃來(lái)Scaling推理時(shí)計(jì)算?

答案就是——使用LLM作為世界模型。

也就是說(shuō),使用GPT-4o來(lái)預(yù)測(cè)網(wǎng)站上操作的結(jié)果,可以提供強(qiáng)大的性能,同時(shí)還能提高安全性和效率。

近日,來(lái)自俄亥俄州立大學(xué)等機(jī)構(gòu)的研究人員提出了一種全新的WebDreamer框架,它可以利用LLM作為世界模型,來(lái)預(yù)測(cè)網(wǎng)站上的交互結(jié)果。

圖片

論文地址:https://arxiv.org/abs/2411.06559

幾天前,微軟Ignite大會(huì)上,納德拉曾表示,AI發(fā)展并沒(méi)觸及天花板,我們正見(jiàn)證推理時(shí)計(jì)算Scaling law的崛起。

圖片

沒(méi)錯(cuò),這項(xiàng)新研究便是朝著這個(gè)方向前進(jìn)的一步。

語(yǔ)言智能體和數(shù)學(xué)推理的關(guān)鍵區(qū)別,就是交互

一作Yu Gu表示,自從o1發(fā)布以來(lái),這個(gè)問(wèn)題就一直困擾著自己——

圖片

為什么擴(kuò)展語(yǔ)言智能體的推理時(shí)計(jì)算,會(huì)如此困難呢?語(yǔ)言智能體,到底有何特別之處?

為此,他將這個(gè)問(wèn)題進(jìn)行了分解。

與數(shù)學(xué)推理等任務(wù)不同,語(yǔ)言智能體的一個(gè)關(guān)鍵區(qū)別在于交互:它們采取的每個(gè)動(dòng)作,都會(huì)觸發(fā)對(duì)環(huán)境的新觀察,從而為自己的下一個(gè)決策提供信息。

而交互使得搜索空間探索變得復(fù)雜,原因在于——

1. 與環(huán)境的交換是昂貴的

2. 許多操作是狀態(tài)改變且不可逆轉(zhuǎn)的(比如在購(gòu)物網(wǎng)站上確認(rèn)購(gòu)買(mǎi)),這就使得樹(shù)搜索中的回溯,在現(xiàn)實(shí)世界的網(wǎng)站中不可行。

圖片

那么,是否可以使用LLM作為世界模型,來(lái)預(yù)測(cè)網(wǎng)站上交互的結(jié)果呢?(比如「如果單擊此按鈕,會(huì)發(fā)生什么」)

這樣,就可以實(shí)現(xiàn)有效的搜索空間探索,減少實(shí)際交互的開(kāi)銷。

答案是肯定的!

Yu Gu等人發(fā)現(xiàn),GPT-4o有效地編碼了關(guān)于網(wǎng)站的廣泛知識(shí),并且充當(dāng)了基于模型的規(guī)劃框架WebDreamer的基礎(chǔ)。

圖片

因?yàn)榕鋫淞薒LMs模擬的世界模型,WebDreamer展示了良好的有效性和效率。

首先,它有著強(qiáng)大的性能:在VisualWebArena和Mind2Web-live上遠(yuǎn)遠(yuǎn)優(yōu)于反應(yīng)性基線。

圖片

在效率上,跟樹(shù)搜索相比,它只需要一半的交互次數(shù)。

圖片

此外,由于基于LLM的世界模型模擬,它還具有兩個(gè)額外的優(yōu)勢(shì)。

一個(gè)是更好的安全性,因?yàn)槟芡ㄟ^(guò)最大限度地減少現(xiàn)實(shí)世界的互動(dòng),來(lái)降低安全風(fēng)險(xiǎn)。

另一個(gè)就是多功能集成:它可以作為各種智能體的插件無(wú)縫工作,并且對(duì)樹(shù)搜索智能體有所補(bǔ)充。

WebDreamer的核心,就是「做夢(mèng)」

智能體也需要做夢(mèng)嗎?

與數(shù)學(xué)推理等任務(wù)不同,語(yǔ)言智能體(language agents)的一個(gè)關(guān)鍵區(qū)別在于交互:他們采取的每一個(gè)行動(dòng)都會(huì)觸發(fā)環(huán)境的新變動(dòng),而這又為它進(jìn)行進(jìn)一步的決策帶來(lái)了挑戰(zhàn)。

不斷地交互使得解空間搜索變得異常艱難,因?yàn)榕c環(huán)境交互的計(jì)算成本很高;許多改變狀態(tài)的操作是不可逆的;而且利用智能體來(lái)為自己與網(wǎng)站進(jìn)行實(shí)際交互有一定的安全風(fēng)險(xiǎn),例如信息泄露與個(gè)人財(cái)產(chǎn)在意外交易中損失。

如何有效的進(jìn)行解空間搜索,同時(shí)減少實(shí)際交互的開(kāi)銷并保證智能體的安全可靠性成了一個(gè)亟待解決的問(wèn)題。

簡(jiǎn)要來(lái)講,WebDreamer的核心是「做夢(mèng)」的概念:在承諾采取任何行動(dòng)之前,智能體使用LLM去想象預(yù)測(cè)每個(gè)可能步驟的結(jié)果,并以自然語(yǔ)言描述狀態(tài)將如何變化。

然后,依據(jù)和實(shí)現(xiàn)目標(biāo)任務(wù)的距離來(lái)對(duì)這些模擬結(jié)果進(jìn)行評(píng)估。最后執(zhí)行最有可能實(shí)現(xiàn)目標(biāo)任務(wù)的模擬行動(dòng)。這個(gè)過(guò)程會(huì)反復(fù)進(jìn)行,直到LLM確定目標(biāo)已經(jīng)實(shí)現(xiàn)為止。

圖1為網(wǎng)頁(yè)智能體以搜索問(wèn)題形式表現(xiàn)的不同策略示意圖,其中每個(gè)節(jié)點(diǎn)代表一個(gè)網(wǎng)頁(yè)。

為清晰起見(jiàn),僅描述了一步模擬結(jié)果。褪色節(jié)點(diǎn)表示未瀏覽的網(wǎng)頁(yè),綠色對(duì)號(hào)和紅色叉號(hào)分別表示成功和不成功的結(jié)果。

圖片

圖1(a)反應(yīng)式:由于智能體總是選擇局部最優(yōu),沒(méi)有前瞻性規(guī)劃,往往導(dǎo)致次優(yōu)結(jié)果。

圖1(b)結(jié)合真實(shí)交互的樹(shù)搜索:智能體通過(guò)主動(dòng)網(wǎng)站導(dǎo)航探索多條路徑,并允許回溯(用虛線箭頭表示)。然而,在現(xiàn)實(shí)世界的網(wǎng)站中,由于不可逆操作的普遍存在,回溯往往不可行。

圖1(c)基于模型的規(guī)劃:在實(shí)際執(zhí)行之前,智能體會(huì)模擬潛在的結(jié)果(如云狀節(jié)點(diǎn)所示),以確定最佳行動(dòng),從而在保持有效性的同時(shí)盡量減少實(shí)際的網(wǎng)站交互。

總結(jié)來(lái)說(shuō),在LLM模擬的世界模型加持下,WebDreamer展現(xiàn)出了卓越的性能與效率,以及強(qiáng)大的擴(kuò)展能力:

  • 性能:在 VisualWebArena 和 Mind2Web-live 上表現(xiàn)遠(yuǎn)超反應(yīng)式基線模型。
  • 效率:與樹(shù)搜索相比,僅需一半的交互次數(shù)。
  • 安全:通過(guò)減少現(xiàn)實(shí)世界的交互,有效降低安全風(fēng)險(xiǎn)。
  • 集成:可無(wú)縫作為多種智能體的插件運(yùn)行,并補(bǔ)充樹(shù)搜索智能體的功能。

圖片

準(zhǔn)備

任務(wù)制定

對(duì)于在網(wǎng)站上進(jìn)行實(shí)時(shí)自動(dòng)化交互這一目標(biāo)任務(wù)來(lái)講,網(wǎng)頁(yè)智能體面臨著龐大且復(fù)雜的搜索解空間。

形式上,每個(gè)帶有任務(wù)指令I(lǐng)的任務(wù)可以被視為一個(gè)部分可觀測(cè)的馬爾可夫決策過(guò)程(POMDP):(S, A, O, T, R, Ω)。

其中,S代表環(huán)境中所有可能狀態(tài)的集合,A代表智能體可以采取的所有可能動(dòng)作,O代表環(huán)境中所有可能的觀測(cè)值組成的集合,T : S × A → S代表狀態(tài)轉(zhuǎn)移函數(shù),R是一個(gè)二值reward,表示任務(wù)I是否已完成,Ω : S → O是一個(gè)可將狀態(tài)投射到觀測(cè)值的確定性函數(shù)。

任務(wù)的目標(biāo)是執(zhí)行一系列動(dòng)作以獲得1的獎(jiǎng)勵(lì)。

在實(shí)際場(chǎng)景中,由于網(wǎng)絡(luò)環(huán)境的復(fù)雜性,其包括服務(wù)器端變量、動(dòng)態(tài)加載的內(nèi)容、隱藏的UI元素,并受網(wǎng)絡(luò)條件和瀏覽器限制的影響,智能體只能通過(guò)有限的視角(即o ∈ O)來(lái)感知網(wǎng)絡(luò)環(huán)境。

這種受限的觀測(cè)視角也形成了相應(yīng)的動(dòng)作空間A,其包括可在o中可執(zhí)行的交互操作,如點(diǎn)擊、文本輸入和URL跳轉(zhuǎn)。

圖片

表1 在VisualWebArena中定義的網(wǎng)絡(luò)導(dǎo)航動(dòng)作空間

通過(guò)模擬進(jìn)行規(guī)劃

通過(guò)使用由狀態(tài)轉(zhuǎn)移函數(shù)「T」控制的真實(shí)交互進(jìn)行樹(shù)搜索來(lái)規(guī)劃最優(yōu)動(dòng)作序列代價(jià)高昂,并且存在不可逆風(fēng)險(xiǎn)?;谀P偷囊?guī)劃通過(guò)使用環(huán)境的計(jì)算表征來(lái)模擬交互結(jié)果,從而解決這些挑戰(zhàn)。

一種顯著的方法是模型預(yù)測(cè)控制(Model Predictive Control,MPC),它通過(guò)迭代模擬未來(lái)軌跡來(lái)選擇動(dòng)作。

對(duì)于每個(gè)狀態(tài)s,MPC使用模擬器函數(shù)sim(s, a)在有限的預(yù)測(cè)范圍H內(nèi)模擬每個(gè)可能動(dòng)作a ∈ A的軌跡,并使用評(píng)分函數(shù)score(τ)進(jìn)行評(píng)估。然后執(zhí)行最有前景的軌跡相應(yīng)的動(dòng)作:

圖片

此過(guò)程在觀察到新?tīng)顟B(tài)后重復(fù)進(jìn)行,從而使智能體能夠根據(jù)實(shí)際結(jié)果調(diào)整其計(jì)劃,同時(shí)避免代價(jià)高昂的真實(shí)世界探索。實(shí)際上,由于部分可觀察性,我們無(wú)法訪問(wèn)真實(shí)狀態(tài),因此我們使用o = Ω(s)進(jìn)行sim(o, a)的計(jì)算。

基于模型規(guī)劃的網(wǎng)絡(luò)智能體

作者利用LLM作為世界模型,提出了一種開(kāi)創(chuàng)性方法:WebDreamer,以實(shí)現(xiàn)復(fù)雜網(wǎng)絡(luò)環(huán)境中的高效規(guī)劃。

該方法受到這樣一個(gè)現(xiàn)象的啟發(fā):盡管網(wǎng)絡(luò)界面復(fù)雜,但其設(shè)計(jì)對(duì)于人類用戶來(lái)說(shuō)是可預(yù)測(cè)的。

當(dāng)瀏覽網(wǎng)站時(shí),人類可以根據(jù)視覺(jué)提示和常見(jiàn)設(shè)計(jì)模式有效地預(yù)測(cè)動(dòng)作結(jié)果——點(diǎn)擊「提交」按鈕即可提交表單,選擇產(chǎn)品圖片會(huì)導(dǎo)航到其詳情頁(yè)面。

鑒于LLMs是在大量Web相關(guān)數(shù)據(jù)上訓(xùn)練的,作者假設(shè)它們已經(jīng)獲得了足夠的知識(shí)來(lái)模擬用戶行為的后果,足以作為世界模型勝任有效規(guī)劃。

核心設(shè)計(jì)

WebDreamer的核心,是利用LLM來(lái)實(shí)現(xiàn)模擬函數(shù)sim和評(píng)分函數(shù)score。

下圖為WebDreamer使用LLM模擬三個(gè)候選動(dòng)作的結(jié)果圖示,其中WebDreamer模擬每個(gè)動(dòng)作的兩步軌跡,選擇得分最高的軌跡,并執(zhí)行相應(yīng)的初始動(dòng)作。

圖片

圖中說(shuō)明了LLM模擬自然語(yǔ)言描述中三個(gè)候選操作的軌跡:

(1)單擊「Office Products」

(2)單擊「Electronics」

(3)在文本框中鍵入「Disk」

通過(guò)這些模擬,對(duì)每個(gè)結(jié)果軌跡進(jìn)行評(píng)分,以確定最有可能成功的動(dòng)作。

在這種情況下,LLM選擇單擊「Electronics」作為最佳步驟并執(zhí)行它。每個(gè)虛線框表示每個(gè)模擬操作后LLM生成的狀態(tài)描述。

sim的實(shí)現(xiàn)

模擬函數(shù)sim的實(shí)現(xiàn)由兩個(gè)模塊組成:一個(gè)模塊預(yù)測(cè)動(dòng)作執(zhí)行后的狀態(tài)變化,近似狀態(tài)轉(zhuǎn)移函數(shù)「T」;而另一個(gè)根據(jù)預(yù)測(cè)的狀態(tài)想象可能的動(dòng)作。

這兩個(gè)模塊共同生成長(zhǎng)度為H的軌跡,其中H是一個(gè)可配置的模擬深度參數(shù)。

具體來(lái)說(shuō),為了表示狀態(tài)變化,研究者會(huì)提示LLM生成一個(gè)簡(jiǎn)明的自然語(yǔ)言描述,僅關(guān)注動(dòng)作的效果。

例如,在圖2中,當(dāng)提示預(yù)測(cè)執(zhí)行動(dòng)作單擊「Electronics」的效果時(shí),LLM將輸出如下簡(jiǎn)短描述:

圖片

基于這個(gè)預(yù)測(cè)的狀態(tài),LLM會(huì)隨后想象下一個(gè)動(dòng)作(例如,點(diǎn)擊「電腦及配件」),這將導(dǎo)致另一個(gè)狀態(tài)改變進(jìn)一步的預(yù)測(cè)。

這個(gè)過(guò)程生成了一個(gè)模擬深度為H=2的軌跡。

score的實(shí)現(xiàn)

在使用sim從每個(gè)候選動(dòng)作ai模擬出一個(gè)軌跡τi后,研究者進(jìn)一步使用LLM作為每個(gè)模擬軌跡的評(píng)分函數(shù)。

他們提示LLM以三種評(píng)分標(biāo)準(zhǔn),來(lái)評(píng)估每個(gè)模擬軌跡——完成(1.0)、進(jìn)行中(0.5)或不正確(0),以指示其任務(wù)完成的進(jìn)度。

最終得分通過(guò)對(duì)這些評(píng)估的多次采樣進(jìn)行平均計(jì)算。除了sim和score,規(guī)劃的一個(gè)前提是候選動(dòng)作生成。

研究者采用了兩階段方法:首先采樣出前k個(gè)動(dòng)作,然后使用LLM自我優(yōu)化,去除不必要的動(dòng)作以進(jìn)行模擬。

這個(gè)自我優(yōu)化步驟的動(dòng)機(jī),是研究者觀察到在不同步驟中,相同的k可以引入不同程度的不相關(guān)動(dòng)作——某些步驟本身就比其他步驟可以用更少的有效動(dòng)作進(jìn)行實(shí)現(xiàn)。

在算法1中,他們展示了WebDreamer整體設(shè)計(jì)的偽代碼。termination check用于驗(yàn)證模型是否輸出停止動(dòng)作,其規(guī)則為當(dāng)算法達(dá)到最大步驟或連續(xù)3次重復(fù)一個(gè)動(dòng)作時(shí),則停止繼續(xù)執(zhí)行算法。

圖片

完整system prompts如下:

圖片

圖片

圖片

圖片

實(shí)驗(yàn)結(jié)果

有效性

如表2所示,WebDreamer在VWA和Mind2Web-live數(shù)據(jù)集上相較于反應(yīng)式智能體表現(xiàn)出顯著的改進(jìn):

  • 在VWA數(shù)據(jù)集上,實(shí)現(xiàn)了33.3%的相對(duì)性能提升
  • 在Mind2Web-live數(shù)據(jù)集上,相較于Reactive范式提升了2.9%(相對(duì)增益為13.1%)

雖然在總體成功率方面,還是基于樹(shù)搜索的方案更高,但它實(shí)際上并不適用于真實(shí)的網(wǎng)絡(luò)場(chǎng)景。而WebDreamer則可以提供一種更靈活且適應(yīng)性更強(qiáng)的替代方案。

圖片

表2:VisualWebArena和Mind2Web-live的結(jié)果

更進(jìn)一步,研究人員將WebDreamer與Reactive范式在VWA數(shù)據(jù)集上的多維度表現(xiàn)進(jìn)行了比較。

表3顯示,基于模型的規(guī)劃方法在所有網(wǎng)站和任務(wù)難度級(jí)別上都始終優(yōu)于基于Reactive范式的方法 。

在根據(jù)VWA官方標(biāo)注的中等難度任務(wù)中,基于模型的規(guī)劃甚至超過(guò)了樹(shù)搜索方案的表現(xiàn)(24.1% VS 22.2%)。

指標(biāo)圖片用于衡量基于模型的規(guī)劃與樹(shù)搜索方案的相對(duì)性能表現(xiàn)。

圖片

表3:不同維度對(duì)應(yīng)的成功率

效率

基于模型的規(guī)劃的另一個(gè)關(guān)鍵優(yōu)勢(shì)是其相對(duì)于樹(shù)搜索,執(zhí)行任務(wù)時(shí)效率很高。

如表4所示,樹(shù)搜索在所有環(huán)境中所需的步驟大約是baseline的三倍,而WebDreamer的相應(yīng)動(dòng)作步驟數(shù)與baseline則相仿。

值得注意的是,由于額外的動(dòng)作和回溯,樹(shù)搜索會(huì)引入大約十倍的實(shí)際時(shí)間延遲,而WebDreamer的模擬開(kāi)銷很小,并且可以通過(guò)增強(qiáng)并行化進(jìn)一步減少。

圖片

表4:VWA上的動(dòng)作步驟和總耗時(shí)

案例研究

為了闡明模擬在規(guī)劃中的作用,研究者提出了包含正面和反面例子的案例研究,說(shuō)明了模擬如何幫助智能體探索環(huán)境,以及模擬的不準(zhǔn)確性會(huì)如何導(dǎo)致錯(cuò)誤的預(yù)測(cè)。

由建構(gòu)不充分的世界模型進(jìn)行模擬引起的錯(cuò)誤如下:

研究者給智能體的指令是:給我找一臺(tái)與圖片中產(chǎn)品相同品牌的打印機(jī)。它必須是白色的,并且至少有11條評(píng)論,平均評(píng)分大于4分。

圖片

受益于世界模型模擬的正面案例如下:

在這個(gè)案例中,智能體正確找到了兩種前面有鳥(niǎo)的襯衫。

圖片

作者介紹

Yu Gu(谷雨)

圖片

Yu Gu是俄亥俄州立大學(xué)的博士生,此前在南京大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士和碩士學(xué)位。

圖片

Boyuan Zheng

圖片

Boyuan Zheng目前是俄亥俄州立大學(xué)的一年級(jí)博士生,由Yu Su教授指導(dǎo)。

在此之前,他獲得了東北大學(xué)的軟件工程學(xué)士學(xué)位,以及約翰霍普金斯大學(xué)的計(jì)算機(jī)科學(xué)碩士學(xué)位,在那里他與Benjamin Van Durme教授合作。

圖片

他的主要研究方向是開(kāi)發(fā)能夠解放人類從繁瑣任務(wù)中并輔助決策的語(yǔ)言智能體,尤其是在網(wǎng)絡(luò)環(huán)境中。其他還有多模態(tài),基礎(chǔ)、規(guī)劃與推理,合成數(shù)據(jù)和智能體安全。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2024-09-29 13:07:16

2024-08-15 15:45:00

AI訓(xùn)練

2024-05-21 12:23:17

2025-04-28 09:10:00

2024-11-14 18:40:57

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-11-11 09:47:00

AI開(kāi)源

2024-06-05 08:29:35

2024-07-04 15:30:07

2024-09-03 14:30:00

機(jī)器人模型

2024-06-05 13:09:26

2024-05-15 17:34:15

2024-04-07 00:45:00

開(kāi)源模型

2024-05-14 11:29:15

2024-12-26 07:10:00

2024-11-28 15:51:19

GPT-4o微軟

2024-05-24 14:04:04

2023-06-30 13:01:26

2025-04-08 02:26:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)