自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互

發(fā)布于 2024-3-28 13:48
瀏覽
0收藏

向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)

通用計(jì)算機(jī)控制

信息革命產(chǎn)生了數(shù)字世界,數(shù)字世界為大模型的誕生提供了數(shù)據(jù),也最容易實(shí)現(xiàn)通用人工智能(AGI)。

向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)

向數(shù)字世界AGI邁進(jìn),北京智源人工智能研究院、新加坡南洋理工大學(xué)、北京大學(xué)攜手提出通用計(jì)算機(jī)控制General Computer Control (GCC),即智能體需要像人一樣看屏幕,通過(guò)鍵盤、鼠標(biāo)完成計(jì)算機(jī)上的所有任務(wù)。在過(guò)去很長(zhǎng)一段時(shí)間里,人工智能研究以游戲?yàn)閳?chǎng)景,而GCC將為通用人工智能研究提供場(chǎng)景,也將進(jìn)一步促進(jìn)大模型和AI Agents的落地與產(chǎn)業(yè)化。


為此,研究團(tuán)隊(duì)提出通用計(jì)算機(jī)控制智能體框架Cradle,使智能體不依賴任何內(nèi)部API直接控制鍵盤、鼠標(biāo)和任何軟件交互,無(wú)論開源還是閉源,甚至能玩《荒野大鏢客2》這樣的商業(yè)3A游戲大作!


向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)

↓  論文標(biāo)題:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study


隨著大模型的發(fā)展,越來(lái)越多的智能體(AI Agents)研究關(guān)注計(jì)算機(jī)控制,包括瀏覽網(wǎng)頁(yè)、操作智能手機(jī)、玩游戲等。然而,已有研究依賴內(nèi)部API獲取輸入,并輸出預(yù)先定義好的動(dòng)作。要構(gòu)建能完成計(jì)算機(jī)上一切任務(wù)的通用智能體,必須使用最通用和最標(biāo)準(zhǔn)的輸入輸出與計(jì)算機(jī)進(jìn)行交互。因此,通用計(jì)算機(jī)控制使用統(tǒng)一的輸入和輸出,從而讓智能體的通用性變?yōu)榭赡堋?/p>


但通用性帶來(lái)了操作上的難度:


(1)使用計(jì)算機(jī)屏幕作為輸入對(duì)智能體的視頻理解能力提出了更高的要求,例如由于沒(méi)有內(nèi)部API,需要通過(guò)視覺(jué)信息判斷動(dòng)作是否執(zhí)行成功;


(2)使用鍵盤和鼠標(biāo)操作作為輸出使得智能體需要更高的時(shí)空操作精度,比如鍵盤按鍵和鼠標(biāo)點(diǎn)擊通常額外涉及時(shí)間維度。如何解決這些難題是構(gòu)建通用計(jì)算機(jī)控制智能體(GCC Agents)的挑戰(zhàn)!


Cradle:操控一切軟件

向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)


「計(jì)算機(jī)指任何以用戶為中心的計(jì)算設(shè)備,包括PC、智能手機(jī)和平板電腦等。盡管Cradle著重于鍵盤和鼠標(biāo)操作,但可以很容易擴(kuò)展到控制手柄和觸摸屏等」


通用計(jì)算機(jī)控制智能體框架Cradle主要由6個(gè)模塊組成:信息收集、自我反思、任務(wù)推斷、技能管理、行動(dòng)計(jì)劃以及記憶模塊。Cradle高度的通用性來(lái)源于其對(duì)和計(jì)算機(jī)交互過(guò)程中的原始輸入輸出的合理封裝和抽象。以從屏幕中顯示的視頻作為輸入,提取其中的文本和視覺(jué)信息進(jìn)行決策,并且輸出底層操作系統(tǒng)中控制鍵盤和鼠標(biāo)的信號(hào)去和計(jì)算機(jī)交互,使得其可以不依賴于任何假設(shè)與所有軟件進(jìn)行交互。


向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)


「Cradle主要由信息收集、自我反思、任務(wù)推斷、技能管理、行動(dòng)計(jì)劃以及記憶模塊等6個(gè)模塊組成,其強(qiáng)大的決策推理來(lái)自于“反思過(guò)去,總結(jié)現(xiàn)在,規(guī)劃未來(lái)”」


同時(shí)Cradle強(qiáng)大的決策推理模塊讓其得以自發(fā)和軟件進(jìn)行交互并且完成任務(wù),這個(gè)過(guò)程可以被簡(jiǎn)單地總結(jié)為:反思過(guò)去,總結(jié)現(xiàn)在,規(guī)劃未來(lái)


反思過(guò)去:使用執(zhí)行過(guò)往動(dòng)作過(guò)程的視頻作為輸入,分別提取出其中關(guān)鍵的文本和視覺(jué)信息,通過(guò)反思來(lái)判斷上一步動(dòng)作是否執(zhí)行成功、任務(wù)是否完成以及如何改進(jìn)。


總結(jié)現(xiàn)在:反思完之后,總結(jié)當(dāng)前情況,并且以此為依據(jù)來(lái)決定是否更換任務(wù)目標(biāo)或是修改任務(wù)內(nèi)容。


規(guī)劃未來(lái):最后根據(jù)當(dāng)前任務(wù)和現(xiàn)狀生成或者更新技能,并且從已學(xué)會(huì)的技能中檢索與當(dāng)前任務(wù)相關(guān)的技能作為備選,然后從中選取合適的技能實(shí)例化為動(dòng)作去執(zhí)行。


在決策推理的同時(shí),Cradle會(huì)周期性地總結(jié)和維護(hù)儲(chǔ)存在情境記憶中的歷史信息以及儲(chǔ)存在長(zhǎng)期記憶中的技能。這一過(guò)程的大腦是多模態(tài)大模型,如GPT-4V,但是Cradle為其添加了總結(jié)、反思以及記憶等功能,形成了完整的面向通用計(jì)算機(jī)控制的智能體框架,有效解決了通用性所帶來(lái)的難題。


Cradle:帶你從頭開始探索《荒野大鏢客2》

?

為了證明框架的通用性和強(qiáng)大的決策能力,研究團(tuán)隊(duì)選擇將Cradle部署到最為困難以及鮮有人探索的的商業(yè)3A游戲大作《荒野大鏢客2》。他們認(rèn)為作為操作最為困難的軟件,假如Cradle能夠在3A游戲上自由探索甚至完成主線劇情,那么說(shuō)明該框架有巨大潛力泛化到其他游戲和軟件上。


向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)


「與Minecraft這樣的開源游戲不同,大多數(shù)商業(yè)游戲特別是3A游戲并不提供內(nèi)部API接口,使得類似Voyager這樣的依賴內(nèi)部API獲取輸入并輸出預(yù)定義動(dòng)作的框架無(wú)法遷移到其他游戲中」


以GPT-4V為基礎(chǔ),Cradle能直接根據(jù)游戲內(nèi)的提示和教程生成對(duì)應(yīng)的可執(zhí)行代碼作為技能,一步步豐富自己的技能庫(kù), 并在之后的游戲中重復(fù)使用這些技能。


向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)


在執(zhí)行了錯(cuò)誤動(dòng)作之后,Cradle能夠有效地通過(guò)反思來(lái)發(fā)現(xiàn)并且糾正錯(cuò)誤。

向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)


Cradle不僅能從頭開始跟隨游戲指引生成相應(yīng)技能,完成長(zhǎng)達(dá)40分鐘時(shí)的主線劇情,還能在開放世界自由探索,騎馬,打獵,戰(zhàn)斗,與NPC對(duì)話,使用道具,操作地圖,甚至商店購(gòu)物,均不在話下。這是首個(gè)能長(zhǎng)時(shí)間游玩商業(yè)3A游戲的智能體。


向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)

向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)


向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)

向數(shù)字世界AGI邁進(jìn)!讓智能體直接控制鍵盤、鼠標(biāo),與一切軟件交互-AI.x社區(qū)

?

結(jié)束語(yǔ)

開源的Cradle代碼可以很容易擴(kuò)展到其他軟件和游戲。研究團(tuán)隊(duì)表示,為了能夠?qū)崿F(xiàn)真正的通用計(jì)算機(jī)控制,后續(xù)Cradle還將移植到更多軟件和游戲上,也鼓勵(lì)相關(guān)研究團(tuán)隊(duì)/工業(yè)界開展進(jìn)一步研究與探索。目標(biāo)是讓智能體可以與無(wú)論是開源還是閉源的所有軟件進(jìn)行交互并持續(xù)自我提升,實(shí)現(xiàn)通用性,最終成為通用人工智能誕生的搖籃。


本文轉(zhuǎn)自 PaperWeekly ,作者:智源研究院


原文鏈接:??https://mp.weixin.qq.com/s/F0diR1E5inyj72VeiZ_daw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦