自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Agent Q:具備自我學(xué)習(xí)、評估的智能體

發(fā)布于 2024-8-30 10:25
瀏覽
0收藏

GPT-4、Gemini等大模型在自然語言處理任務(wù)中取得了進(jìn)步,但在交互式、多步驟環(huán)境中的泛化能力仍有欠缺。例如,當(dāng)我們在網(wǎng)上購買一件特定的商品時,需要在眾多網(wǎng)頁中進(jìn)行搜索、比較和選擇。


AGI平臺MultiOn和斯坦福的研究人員聯(lián)合開發(fā)了一種智能體Agent Q,能自主規(guī)劃、推理一些任務(wù)。Agent Q與其他智能體最大差別的是,它能從失敗和成功的任務(wù)中自動學(xué)習(xí)、評估,從而提高在復(fù)雜多步驟推理任務(wù)中的泛化能力。


論文地址:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

Agent Q:具備自我學(xué)習(xí)、評估的智能體-AI.x社區(qū)

Agent Q:具備自我學(xué)習(xí)、評估的智能體-AI.x社區(qū)

Agent Q框架采用了蒙特卡洛樹搜索(MCTS)算法來指導(dǎo)智能體的探索和決策過程。

MCTS是一種啟發(fā)式搜索算法,廣泛應(yīng)用于游戲和決策領(lǐng)域,通過模擬可能的未來路徑來評估和選擇最優(yōu)的行動策略。

Agent Q:具備自我學(xué)習(xí)、評估的智能體-AI.x社區(qū)

在Agent Q中,MCTS用于在網(wǎng)頁環(huán)境中導(dǎo)航,幫助智能體在每一步選擇最有希望的動作。這一過程涉及選擇、擴(kuò)展、模擬和反向傳播四個階段,通過迭代地優(yōu)化搜索樹來提高策略的性能。


MCTS算法在復(fù)雜環(huán)境中面臨的一大挑戰(zhàn)是環(huán)境獎勵的稀疏性,可能會導(dǎo)致智能體在長期任務(wù)中遇到困難。


為了解決這個難題,Agent Q引入了自我批評機(jī)制,這是一種自我評估過程,智能體在每個決策節(jié)點上使用自身的評估來提供中間獎勵。這不僅幫助智能體在搜索過程中進(jìn)行自我監(jiān)督,而且通過提供即時反饋能指導(dǎo)智能體學(xué)習(xí)正確的規(guī)劃路徑。

Agent Q:具備自我學(xué)習(xí)、評估的智能體-AI.x社區(qū)

Agent Q的自我批評機(jī)制依賴于一個反饋語言模型,該模型對智能體在每個節(jié)點上可能采取的動作進(jìn)行評分,從而形成一個加權(quán)分?jǐn)?shù)。


這個分?jǐn)?shù)結(jié)合了MCTS的平均Q值和反饋語言模型生成的分?jǐn)?shù),用于構(gòu)建直接偏好優(yōu)化(DPO)算法中的對比對。DPO算法是一種離線強(qiáng)化學(xué)習(xí)算法,通過比較不同動作的偏好來優(yōu)化策略,使得智能體能夠從成功的和不成功的軌跡中學(xué)習(xí)。

Agent Q:具備自我學(xué)習(xí)、評估的智能體-AI.x社區(qū)

Agent Q框架的另一個特色模塊是“迭代式微調(diào)”,也是實現(xiàn)自我學(xué)習(xí)的關(guān)鍵所在。在迭代中,智能體通過與環(huán)境的交互不斷學(xué)習(xí)和改進(jìn)。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,迭代式微調(diào)允許智能體在沒有明確標(biāo)簽的環(huán)境下進(jìn)行學(xué)習(xí),通過自我生成的數(shù)據(jù)和偏好對來指導(dǎo)優(yōu)化過程。


此外,Agent Q框架還考慮了智能體的狀態(tài)表示問題。在網(wǎng)絡(luò)交互中,智能體的狀態(tài)可能部分不可觀察,因此構(gòu)建一個有效的狀態(tài)表示對于智能體的性能至關(guān)重要。Agent Q采用了一種緊湊的歷史表示方法,將智能體迄今為止生成的動作和當(dāng)前瀏覽器狀態(tài)結(jié)合起來,形成了一個高效的內(nèi)存組件。


為了測試Agent Q的性能,研究人員在一種模擬電子商務(wù)平臺WebShop進(jìn)行了綜合測試。實驗結(jié)果顯示,Agent Q的表現(xiàn)顯著優(yōu)于行為克隆和強(qiáng)化學(xué)習(xí)微調(diào)的基線模型,在某些任務(wù)中甚至超過了平均人類表現(xiàn)。

Agent Q:具備自我學(xué)習(xí)、評估的智能體-AI.x社區(qū)

尤其是在真實世界的預(yù)訂場景中,Agent Q將Llama-3 70B模型的零樣本成功率從18.6%提升至81.7%,相對提升了340%,并在配備在線搜索功能后,成功率進(jìn)一步提高到了95.4%。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Ku7OOWCzEXq8fA_y8M5KcQ??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦