自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta最新!PARTNR:具身多智能體任務(wù)中規(guī)劃與推理的基準(zhǔn)測(cè)試框架

人工智能 新聞
PARTNR是一個(gè)針對(duì)多智能體實(shí)體任務(wù)中的推理與規(guī)劃基準(zhǔn),其特點(diǎn)是在60個(gè)模擬的多房間房屋中實(shí)例化了100,000項(xiàng)自然語(yǔ)言任務(wù),這些房屋中包含5,819個(gè)獨(dú)特物體。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面&出發(fā)點(diǎn)

本文提出了一個(gè)人機(jī)協(xié)作中的規(guī)劃與推理任務(wù)基準(zhǔn)(PARTNR),旨在研究家庭活動(dòng)中的人機(jī)協(xié)調(diào)。PARTNR任務(wù)展現(xiàn)了日常任務(wù)的特點(diǎn),如空間、時(shí)間和異構(gòu)agent能力約束。我們采用大型語(yǔ)言模型(LLMs)構(gòu)建了一個(gè)半自動(dòng)化的任務(wù)生成流程,并融入了循環(huán)中的模擬以進(jìn)行實(shí)現(xiàn)和驗(yàn)證。PARTNR是同類(lèi)基準(zhǔn)中規(guī)模最大的,包含10萬(wàn)個(gè)自然語(yǔ)言任務(wù),涉及60棟房屋和5819個(gè)獨(dú)特物品。圍繞規(guī)劃、感知和技能執(zhí)行等維度,對(duì)PARTNR任務(wù)上的最新大語(yǔ)言模型(SoTA)進(jìn)行了分析。分析結(jié)果顯示,SoTA模型存在顯著局限性,如協(xié)調(diào)性差、任務(wù)跟蹤失敗以及錯(cuò)誤恢復(fù)能力不足。當(dāng)大型語(yǔ)言模型與人類(lèi)真實(shí)用戶(hù)配對(duì)時(shí),它們所需的步驟數(shù)是兩人協(xié)作的1.5倍,比單個(gè)人類(lèi)多1.1倍,這凸顯了這些模型有待提升的潛力。論文還進(jìn)一步表明,使用規(guī)劃數(shù)據(jù)對(duì)較小的大型語(yǔ)言模型進(jìn)行微調(diào),可以實(shí)現(xiàn)與體積為其9倍的大型模型相當(dāng)?shù)男阅?,同時(shí)在推理速度上快8.6倍。PARTNR凸顯了協(xié)作式實(shí)體agents面臨的重大挑戰(zhàn),并旨在推動(dòng)該領(lǐng)域的研究發(fā)展。

Code: https://github.com/facebookresearch/partnr-planner

Website: https://aihabitat.org/partnr

內(nèi)容出自國(guó)內(nèi)首個(gè)具身智能全棧學(xué)習(xí)社區(qū):具身智能之心知識(shí)星球,這里包含所有你想要的。

一些介紹

想象這樣一個(gè)家用機(jī)器人:它能像人與人之間的互動(dòng)那樣,使用自然語(yǔ)言與人類(lèi)在日常活動(dòng)中協(xié)作。這種場(chǎng)景需要兩個(gè)關(guān)鍵特性:機(jī)器人與人類(lèi)之間的動(dòng)態(tài)協(xié)作,以及使用自然語(yǔ)言進(jìn)行交流。當(dāng)前具身人工智能(embodied AI)的基準(zhǔn)測(cè)試通常只滿(mǎn)足其中一個(gè)條件;要么機(jī)器人是獨(dú)立運(yùn)作的,要么任務(wù)不是用自然語(yǔ)言指定的。盡管具身人工智能領(lǐng)域取得了顯著進(jìn)展,但在評(píng)估機(jī)器人在協(xié)作環(huán)境中的表現(xiàn)的現(xiàn)實(shí)基準(zhǔn)測(cè)試方面仍存在空白。為了彌補(bǔ)這一空白,我們推出了人機(jī)協(xié)作中的規(guī)劃與推理任務(wù)基準(zhǔn)(PARTNR),這是一個(gè)新穎的基準(zhǔn)測(cè)試,用于評(píng)估具身人工智能agent在模擬室內(nèi)環(huán)境中與人類(lèi)在各種家庭活動(dòng)上的協(xié)作能力。

PARTNR由10萬(wàn)個(gè)自然語(yǔ)言指令和與之配套的評(píng)價(jià)函數(shù)組成,重點(diǎn)關(guān)注四種任務(wù)類(lèi)型:(1)無(wú)約束任務(wù),其中子任務(wù)可以由任一agent以任何方式完成,(2)包含空間約束的空間任務(wù),(3)需要按順序執(zhí)行的時(shí)間任務(wù),以及(4)包含無(wú)法由其中一個(gè)agent完成的動(dòng)作的異構(gòu)任務(wù)。除了長(zhǎng)時(shí)規(guī)劃、新型部分可觀(guān)察環(huán)境以及大狀態(tài)和動(dòng)作空間等傳統(tǒng)挑戰(zhàn)外,PARTNR還強(qiáng)調(diào)了有效協(xié)作動(dòng)態(tài)(如任務(wù)分配和跟蹤合作伙伴的進(jìn)度)的必要性。

創(chuàng)建這樣一個(gè)具有大規(guī)模自然語(yǔ)言任務(wù)和定制評(píng)價(jià)函數(shù)的基準(zhǔn)測(cè)試面臨著重大挑戰(zhàn)。當(dāng)前的基準(zhǔn)測(cè)試通常依賴(lài)于模板化任務(wù)或由人類(lèi)設(shè)計(jì)的任務(wù)和評(píng)價(jià),這可能限制了數(shù)據(jù)集的多樣性或規(guī)模。為了克服這一問(wèn)題,本文提出了一種使用大型語(yǔ)言模型(LLMs)并結(jié)合循環(huán)模擬接地(simulation-in-the-loop grounding)的半自動(dòng)化生成方法。首先,大型語(yǔ)言模型生成任務(wù)和評(píng)價(jià)函數(shù),這些函數(shù)與模擬房屋中的物品和家具相關(guān)聯(lián)。接下來(lái),采用循環(huán)模擬來(lái)過(guò)濾掉幻覺(jué)和不可行的指令,并通過(guò)人工標(biāo)注來(lái)增強(qiáng)多樣性和準(zhǔn)確性。然后,利用一套經(jīng)過(guò)驗(yàn)證的1000條指令和評(píng)價(jià)函數(shù)以及多樣化的模擬房屋,通過(guò)上下文提示引導(dǎo)大型語(yǔ)言模型創(chuàng)建10萬(wàn)個(gè)任務(wù)。

由于PARTNR包含自然語(yǔ)言任務(wù),且大型語(yǔ)言模型(LLMs)在規(guī)劃方面已展現(xiàn)出顯著成效,我們探索了如何提示和微調(diào)LLMs,以評(píng)估它們?cè)趨f(xié)作場(chǎng)景中的有效性。我們研究了環(huán)境可觀(guān)性(即完全可觀(guān)或部分可觀(guān))、集中式與分散式多智能體控制、學(xué)習(xí)到的或特權(quán)機(jī)器人技能、以及基于LLMs的規(guī)劃中對(duì)3D世界信息進(jìn)行接地的不同方式的影響。除了這些使用合成人類(lèi)伙伴進(jìn)行的自動(dòng)化評(píng)估外,還進(jìn)行了包含真實(shí)人類(lèi)參與的評(píng)估,讓人們單獨(dú)執(zhí)行任務(wù)、與人類(lèi)伙伴一起執(zhí)行任務(wù)或與LLMs指導(dǎo)的機(jī)器人伙伴一起執(zhí)行任務(wù)??傮w而言,發(fā)現(xiàn)LLMs在協(xié)調(diào)、任務(wù)跟蹤以及處理感知和技能錯(cuò)誤方面存在困難。雖然人類(lèi)能夠解決93%的PARTNR任務(wù),但在非特權(quán)條件下,當(dāng)前最先進(jìn)(SoTA)的LLMs僅能成功完成30%的任務(wù)。此外,在分散式多智能體設(shè)置中,由于跟蹤伙伴動(dòng)作的能力較差,導(dǎo)致出現(xiàn)了多余動(dòng)作,完成任務(wù)所需的步驟比單智能體多1.3倍。相比之下,在我們的包含真實(shí)人類(lèi)參與的實(shí)驗(yàn)中,人類(lèi)搭檔的表現(xiàn)優(yōu)于單獨(dú)的人類(lèi),這凸顯了改進(jìn)LLMs協(xié)作策略的潛力。LLMs還難以從技能失敗和感知接地錯(cuò)誤中恢復(fù),當(dāng)移除特權(quán)技能和特權(quán)感知時(shí),其性能會(huì)降低。在比較模型大小時(shí),我們發(fā)現(xiàn)經(jīng)過(guò)微調(diào)的較小模型Llama3.1-8B的性能與未經(jīng)微調(diào)的Llama3.1-70B相當(dāng),但推理速度卻快了8.6倍。在與真實(shí)人類(lèi)共同參與的評(píng)估中,這一更快的推理速度發(fā)揮了重要作用,因?yàn)榻?jīng)過(guò)微調(diào)的模型所需步驟更少,為人類(lèi)分擔(dān)了更多任務(wù)。

PARTNR能夠在各種協(xié)作場(chǎng)景中實(shí)現(xiàn)對(duì)具身智能體的可重復(fù)、大規(guī)模和系統(tǒng)性的評(píng)估。通過(guò)系統(tǒng)性的評(píng)估,我們揭示了當(dāng)前基于LLM的規(guī)劃器的關(guān)鍵局限性,為未來(lái)的研究指明了有趣的方向。

相關(guān)工作一覽

基于語(yǔ)言的具身人工智能基準(zhǔn)測(cè)試。大量關(guān)于具身人工智能中語(yǔ)言基準(zhǔn)測(cè)試的工作都集中在導(dǎo)航或具身問(wèn)答上,這些任務(wù)涉及導(dǎo)航和信息收集,但不需要智能體修改其環(huán)境。與本文的工作更為接近的是指令遵循基準(zhǔn)測(cè)試,在這些基準(zhǔn)測(cè)試中,智能體通過(guò)與環(huán)境的交互來(lái)完成通過(guò)語(yǔ)言描述的任務(wù),盡管任務(wù)的多樣性有限。相比之下,我們利用大型語(yǔ)言模型(LLMs)生成多樣化的任務(wù)定義和場(chǎng)景初始化,并將其擴(kuò)展到多智能體設(shè)置中。使用LLMs擴(kuò)大任務(wù)生成的規(guī)模這一想法在最近的一些工作中得到了探索。然而,這些工作往往側(cè)重于相對(duì)短期內(nèi)的單智能體任務(wù),而本文考慮的是長(zhǎng)期的多智能體問(wèn)題。表1將相關(guān)基準(zhǔn)測(cè)試與PARTNR進(jìn)行了比較。

圖片

具身多智能體基準(zhǔn)測(cè)試。多項(xiàng)工作已經(jīng)提出了具身多智能體基準(zhǔn)測(cè)試。其中許多基準(zhǔn)測(cè)試都集中在簡(jiǎn)單2D環(huán)境中的協(xié)調(diào)問(wèn)題上,這限制了它們?cè)诂F(xiàn)實(shí)世界場(chǎng)景中的應(yīng)用。最近的工作開(kāi)發(fā)了研究更真實(shí)環(huán)境和活動(dòng)中協(xié)作的基準(zhǔn)測(cè)試,這些基準(zhǔn)測(cè)試關(guān)注在大型、部分可觀(guān)察的3D環(huán)境中重新排列物體或家具,或在柜臺(tái)空間內(nèi)操作物體。然而,這些基準(zhǔn)測(cè)試通常局限于一組預(yù)定義且數(shù)量有限的任務(wù),這些任務(wù)往往不是用自然語(yǔ)言描述的,并且主要涉及物體的重新排列。相比之下,PARTNR涵蓋了一個(gè)開(kāi)放的任務(wù)集,每個(gè)任務(wù)都用自然語(yǔ)言描述,要求智能體在空間和時(shí)間的約束下重新排列物體,并要求執(zhí)行只能由人類(lèi)智能體完成的異構(gòu)動(dòng)作(例如洗碗或打開(kāi)烤箱)。

Benchmark生成

我們推出了PARTNR基準(zhǔn)測(cè)試,旨在訓(xùn)練和評(píng)估機(jī)器人與人類(lèi)合作解決自然語(yǔ)言任務(wù)的能力。PARTNR涵蓋了四種類(lèi)型的任務(wù):(1)無(wú)約束任務(wù),即子任務(wù)可以由任一智能體以任何方式完成。例如,“讓我們把所有臟盤(pán)子移到水槽里?!保?)空間任務(wù),需要推理物體的空間位置。例如,“讓我們把書(shū)放在書(shū)架上,彼此緊挨著?!保?)時(shí)間任務(wù),子任務(wù)的執(zhí)行順序很重要。例如,“讓我們先把餐桌上的蠟燭拿走,再把盤(pán)子端到桌上?!保?)異構(gòu)任務(wù),涉及超出機(jī)器人能力的動(dòng)作。例如,“讓我們?cè)诎驯P(pán)子放到架子上之前先把它們洗干凈?!痹跈C(jī)器人的技能不支持洗滌的場(chǎng)景中,完成這項(xiàng)任務(wù)需要對(duì)智能體的能力進(jìn)行推理。我們的基準(zhǔn)測(cè)試包括自然語(yǔ)言指令和相應(yīng)的評(píng)估函數(shù),這兩者都是使用大型語(yǔ)言模型(LLMs)大規(guī)模生成的。具體來(lái)說(shuō),我們生成了1000條經(jīng)過(guò)人工驗(yàn)證的指令和相應(yīng)的評(píng)估函數(shù),并將它們作為即時(shí)提示示例,擴(kuò)展到其他具有不同布局和物體的場(chǎng)景中的100000項(xiàng)任務(wù)。我們自動(dòng)生成的一個(gè)獨(dú)特之處在于,在生成循環(huán)中整合了一個(gè)實(shí)體模擬器,這大大減少了大型語(yǔ)言模型可能出現(xiàn)的幻覺(jué)和不可行動(dòng)作等錯(cuò)誤。

圖片

1 基于仿真循環(huán)的任務(wù)指令生成

盡管基于大型語(yǔ)言模型(LLM)的任務(wù)生成在之前的文獻(xiàn)中已有研究,但這些生成的任務(wù)并未超出用戶(hù)創(chuàng)建的 in-context prompts的范圍。在PARTNR中,使用了基于仿真循環(huán)的生成技術(shù),將大語(yǔ)言模型與環(huán)境、智能體和可用動(dòng)作相結(jié)合。具體來(lái)說(shuō),在Habitat 3.0模擬器中實(shí)例化了一個(gè)仿真環(huán)境,該環(huán)境填充了HSSD數(shù)據(jù)集,包含60棟獨(dú)特的房屋和5819個(gè)OVMM對(duì)象。模擬房屋被解析為房間和可用家具的列表,并與所有可用目標(biāo)一起傳遞給大語(yǔ)言模型。利用這些信息,要求大語(yǔ)言模型在場(chǎng)景中生成自由形式、可行的任務(wù),以及初始場(chǎng)景狀態(tài)描述。例如,如果生成的任務(wù)是“清理客廳的餐具”,大型語(yǔ)言模型應(yīng)該生成一個(gè)客廳內(nèi)有多個(gè)餐具的初始場(chǎng)景。在這個(gè)階段,還會(huì)向場(chǎng)景中添加額外的目標(biāo),以在環(huán)境中制造混亂。任務(wù)、初始狀態(tài)和混亂一旦生成,就會(huì)在模擬器中實(shí)例化,并過(guò)濾掉不可行的指令。例如,如果房屋沒(méi)有客廳,“清理客廳的餐具”就是無(wú)效的。同樣,如果生成的任務(wù)需要模擬器不支持的動(dòng)作,如折疊,則該任務(wù)會(huì)被過(guò)濾掉。通常,幻覺(jué)的產(chǎn)生率很高,導(dǎo)致大量情節(jié)被丟棄。我們觀(guān)察到,在過(guò)濾掉不可行的指令后,生成指令的多樣性通常受到限制。例如,大多數(shù)指令都使用相同的對(duì)象(如餐具)或類(lèi)似的房間(如廚房或餐廳)。為了增加生成任務(wù)的多樣性,我們進(jìn)行了手動(dòng)標(biāo)注,以確保任務(wù)和對(duì)象的多樣性,例如,通過(guò)修改指令以激發(fā)特定特征,來(lái)維持無(wú)約束、空間、時(shí)間和異構(gòu)任務(wù)的平衡分布。這一過(guò)程產(chǎn)生了1000個(gè)經(jīng)過(guò)人工標(biāo)注和仿真驗(yàn)證的任務(wù)。

圖片

對(duì)于大規(guī)模生成而言,這種手動(dòng)標(biāo)注并不實(shí)際。相反,我們利用這1000條經(jīng)過(guò)人工標(biāo)注的指令作為提示中的示例,來(lái)擴(kuò)展生成規(guī)模。向大語(yǔ)言模型提供房屋描述和一個(gè)示例任務(wù),并指示它修改任務(wù)以適應(yīng)新的房屋。例如,將任務(wù)“清理客廳里的所有餐具”修改為“清理臥室里的所有玩具”。這樣做可以在保持原始標(biāo)注指令集多樣性的同時(shí),確保在模擬器中成功實(shí)例化的高可能性。從質(zhì)量上看,我們過(guò)濾或編輯了約90%的自由形式生成的指令,而只有約10%的擴(kuò)展指令需要這樣做。使用LLama3-70B-Instruct來(lái)生成所有指令。最后,所有任務(wù)都經(jīng)過(guò)基于人類(lèi)反饋的循環(huán)過(guò)濾。在這一步中,人類(lèi)使用我們的基于人類(lèi)反饋的工具嘗試完成任務(wù),并消除難以檢測(cè)的物理上不可行的指令,比如要求一個(gè)物體同時(shí)出現(xiàn)在兩個(gè)位置。圖2概述了我們的流程。

2 評(píng)價(jià)函數(shù)生成

為了判斷智能體是否成功完成了指令“清理客廳里的所有餐具”,我們需要一個(gè)評(píng)價(jià)函數(shù)來(lái)驗(yàn)證是否已從任何客廳中移除了所有勺子、叉子和其他餐具。然而,手動(dòng)標(biāo)注任務(wù)所需的所有重新排列和狀態(tài)變化既耗時(shí)又由于每個(gè)任務(wù)的獨(dú)特性而在大規(guī)模上難以實(shí)現(xiàn)。與指令生成類(lèi)似,我們采用大型語(yǔ)言模型(LLM)來(lái)創(chuàng)建一個(gè)評(píng)價(jià)函數(shù),該函數(shù)無(wú)需任何手動(dòng)標(biāo)注即可評(píng)估任務(wù)完成情況。具體來(lái)說(shuō),利用大型語(yǔ)言模型生成基于謂詞的Python程序的能力,這需要使用三種類(lèi)型的API:一個(gè)命題列表,指示實(shí)體之間必須滿(mǎn)足的關(guān)系;一組依賴(lài)項(xiàng),指示何時(shí)應(yīng)查詢(xún)命題;以及一組約束,指示命題必須如何滿(mǎn)足。為這些組件中的每一個(gè)定義了一個(gè)富有表達(dá)力的詞匯,以便對(duì)基準(zhǔn)測(cè)試中的所有任務(wù)進(jìn)行評(píng)估(例如,圖3)。密切相關(guān)的評(píng)價(jià)系統(tǒng)包括使用PDDL或BDDL定義任務(wù)。選擇構(gòu)建一個(gè)新的基于Python的評(píng)價(jià)系統(tǒng),因?yàn)檫@兩個(gè)系統(tǒng)都無(wú)法在保持人類(lèi)和大型語(yǔ)言模型可解釋性的同時(shí)評(píng)估PARTNR任務(wù);例如,BDDL不支持隨時(shí)間變化的評(píng)估。由于PARTNR任務(wù)具有時(shí)間依賴(lài)性(例如,多步驟重新排列),因此評(píng)價(jià)函數(shù)的輸入是任務(wù)執(zhí)行期間模擬器狀態(tài)的完整序列。評(píng)價(jià)函數(shù)返回三個(gè)指標(biāo):(1)完成百分比(PC ∈ [0, 1]),即相對(duì)于約束而言已滿(mǎn)足的命題的百分比;(2)成功(S ∈ {True, False}),衡量任務(wù)是否成功完成,定義為S := (PC = 1);以及(3)失敗解釋?zhuān)‵E),一種人類(lèi)和大型語(yǔ)言模型可解釋的語(yǔ)言描述,用于說(shuō)明智能體未能完成任務(wù)的原因。

使用CodeLLama-70B-instruct來(lái)生成評(píng)價(jià)函數(shù)。如圖3所示,生成完美的評(píng)價(jià)函數(shù)并非易事。大型語(yǔ)言模型(LLM)必須根據(jù)自然語(yǔ)言指令和特定的模擬環(huán)境,正確分類(lèi)所有可能的動(dòng)作空間,這可能相當(dāng)復(fù)雜。例如,在圖3中,指令“把植物放在架子上”指的是“架子”,但房間里有兩個(gè)架子。評(píng)價(jià)函數(shù)必須允許選擇任意一個(gè)架子,同時(shí)要求放置所有植物,并最終考慮相鄰關(guān)系。命題或約束中的任何錯(cuò)誤或缺失值都會(huì)導(dǎo)致評(píng)價(jià)函數(shù)失效。因此,我們觀(guān)察到LLM生成的錯(cuò)誤率很高,特別是關(guān)于錯(cuò)誤命題和時(shí)間順序約束的錯(cuò)誤。

為了減輕這些不準(zhǔn)確性,遵循與指令生成相似的半自動(dòng)化程序。首先為1000條人工標(biāo)注的指令生成評(píng)價(jià)函數(shù),并進(jìn)行手動(dòng)標(biāo)注以進(jìn)行修正。這產(chǎn)生了包含1000對(duì)經(jīng)過(guò)人工驗(yàn)證的指令和評(píng)價(jià)函數(shù)的數(shù)據(jù)集。接下來(lái),為擴(kuò)展的100000條指令集生成評(píng)價(jià)。請(qǐng)注意,擴(kuò)展指令是通過(guò)向LLM提供標(biāo)注集中的示例指令來(lái)生成的。我們檢索相應(yīng)的標(biāo)注評(píng)價(jià)函數(shù),并將其提供給LLM。這與檢索增強(qiáng)生成等方法類(lèi)似,并通過(guò)人工檢查發(fā)現(xiàn),將評(píng)價(jià)函數(shù)生成的準(zhǔn)確率從50%提高到92%。最后一步是,要求人類(lèi)用戶(hù)使用我們基于人類(lèi)反饋的評(píng)價(jià)工具解決所有PARTNR任務(wù)。所有在人類(lèi)用戶(hù)6次嘗試(3次單人嘗試,3次多人嘗試)后仍未解決的任務(wù)都被視為不可行,并從數(shù)據(jù)集中刪除。我們發(fā)現(xiàn),自動(dòng)化生成的指令中約有90%準(zhǔn)確,評(píng)價(jià)函數(shù)中約有92%準(zhǔn)確,綜合生成準(zhǔn)確率為90% × 92% = 83%。

3 PARTNR Dataset

PARTNR數(shù)據(jù)集由來(lái)自HSSD數(shù)據(jù)集的37個(gè)訓(xùn)練場(chǎng)景中的100,000個(gè)片段、13個(gè)驗(yàn)證場(chǎng)景中的1,000個(gè)片段和10個(gè)測(cè)試場(chǎng)景中的1,000個(gè)片段組成。在擴(kuò)展生成后,所有驗(yàn)證集和測(cè)試集的片段都經(jīng)過(guò)了人工標(biāo)注以確保正確性,同時(shí)訓(xùn)練集的一個(gè)包含2,000個(gè)片段的子集也進(jìn)行了人工標(biāo)注。關(guān)于擴(kuò)展生成片段的正確性分析。下面分析下該數(shù)據(jù)集的特點(diǎn)和多樣性。

特點(diǎn):如前所述,PARTNR數(shù)據(jù)集側(cè)重于四種任務(wù)類(lèi)型:無(wú)約束、空間、時(shí)間和異構(gòu)。在圖4中展示了這些任務(wù)類(lèi)型在測(cè)試集中的分布情況;驗(yàn)證集的分布情況與之相似。PARTNR數(shù)據(jù)集在這些維度上獨(dú)立且聯(lián)合地評(píng)估協(xié)作。其他值得關(guān)注的特性包括依賴(lài)重排(例如,“把它們放在同一張桌子上”)和同一對(duì)象的多步重排(例如,“把杯子拿到水槽邊,洗干凈,然后放進(jìn)櫥柜里”)。7%的任務(wù)包含依賴(lài)重排,6%的任務(wù)包含多步重排。任務(wù)平均需要滿(mǎn)足4.7個(gè)命題(表明完成任務(wù)所需的步驟數(shù)量)。

圖片

多樣性:PARTNR數(shù)據(jù)集中任務(wù)的多樣性在很大程度上得益于循環(huán)模擬生成,該生成方法利用了豐富的HSSD場(chǎng)景和OVMM對(duì)象集。因此,PARTNR數(shù)據(jù)集中的任務(wù)涉及并需要對(duì)155種獨(dú)特對(duì)象類(lèi)型、20類(lèi)家具和13種房型進(jìn)行推理。請(qǐng)注意,每條指令在每個(gè)房屋中的實(shí)例化都帶來(lái)了其自身的多樣性。例如,“把筆記本電腦搬到辦公桌上”,這條指令在每個(gè)房屋中都獨(dú)特地指定了辦公室和桌子的位置,以及不同指令中不同的筆記本電腦實(shí)例。

實(shí)驗(yàn)和分析

我們利用PARTNR探究了最先進(jìn)的規(guī)劃和感知方法如何在新環(huán)境中處理自然語(yǔ)言任務(wù),以及如何與未見(jiàn)過(guò)的伙伴進(jìn)行協(xié)調(diào)。由于PARTNR包含由語(yǔ)言指定的各種時(shí)空任務(wù),這里主要在基線(xiàn)中使用大型語(yǔ)言模型(LLMs)進(jìn)行規(guī)劃,并研究了以下變體:(1)零樣本提示、檢索增強(qiáng)生成或微調(diào),(2)集中式規(guī)劃與分散式規(guī)劃,(3)部分可觀(guān)察環(huán)境與完全可觀(guān)察環(huán)境,(4)學(xué)習(xí)得到的低級(jí)機(jī)器人技能與理想的低級(jí)機(jī)器人技能,以及(5)特權(quán)感知與非特權(quán)感知。

圖片

實(shí)驗(yàn)是在Habitat 3.0模擬器中進(jìn)行的,使用了模擬的Spot機(jī)器人。我們?yōu)闄C(jī)器人和模擬人類(lèi)采用了一種兩層分級(jí)控制架構(gòu),如圖5所示。在高層級(jí)上,規(guī)劃器從預(yù)定義的技能庫(kù)(例如,導(dǎo)航、拾取、放置、打開(kāi)、關(guān)閉)中選擇技能。我們還使用了一個(gè)具有三層層次結(jié)構(gòu)的文本世界圖,分別表示房間、家具和可移動(dòng)物體。圖中的每個(gè)節(jié)點(diǎn)都存儲(chǔ)了一個(gè)語(yǔ)義類(lèi)別(例如,廚房、桌子或杯子)、三維信息(例如,位置或邊界框)和狀態(tài)(例如,干凈、已通電)。

1 Baselines

我們按照以下維度對(duì)基線(xiàn)進(jìn)行評(píng)估:

1.高級(jí)規(guī)劃器的變體:

  • 啟發(fā)式專(zhuān)家:這種方法利用專(zhuān)家設(shè)計(jì)的啟發(fā)式方法和關(guān)于任務(wù)、環(huán)境和評(píng)估函數(shù)的特權(quán)信息,基于人類(lèi)和機(jī)器人的能力預(yù)先規(guī)劃所有步驟。例如,兩個(gè)agent都可能重新排列物體,但只有人類(lèi)執(zhí)行清潔、填充和開(kāi)關(guān)任務(wù)。
  • 零樣本ReAct(ReAct):使用ReAct及其API函數(shù)庫(kù)或工具庫(kù),使大語(yǔ)言模型(LLM)能夠執(zhí)行動(dòng)作。作為觀(guān)察,向LLM提供簡(jiǎn)潔、當(dāng)前的世界圖描述以及動(dòng)作歷史。LLM利用這些信息從[探索房間、導(dǎo)航、打開(kāi)家具、關(guān)閉家具、拾取物體、放置物體、等待、完成]中為機(jī)器人選擇一個(gè)動(dòng)作。
  • 帶有檢索增強(qiáng)生成(RAG)的ReAct(ReAct-RAG):還評(píng)估了帶有RAG的ReAct,以研究在類(lèi)似任務(wù)上的規(guī)劃示例是否能提高ReAct的性能。通過(guò)從ReAct在2000個(gè)任務(wù)訓(xùn)練子集中的成功軌跡中收集數(shù)據(jù),構(gòu)建了一個(gè)規(guī)劃示例數(shù)據(jù)庫(kù)。在測(cè)試時(shí),基于句子相似性從訓(xùn)練數(shù)據(jù)集中選擇最相關(guān)的規(guī)劃軌跡,并將其添加到LLM的提示中。
  • 微調(diào)后的LLM(Finetuned):本文還研究了使用ReAct基線(xiàn)中成功的軌跡來(lái)微調(diào)一個(gè)較小的LLM(Llama3.1-8B)作為高級(jí)規(guī)劃器,這些基線(xiàn)使用Llama3.1-70B。這里使用React-RAG數(shù)據(jù)集,將每個(gè)片段拆分為一系列高級(jí)規(guī)劃動(dòng)作,僅篩選成功執(zhí)行的動(dòng)作。對(duì)于每個(gè)動(dòng)作,構(gòu)建一個(gè)包含世界圖和動(dòng)作歷史的輸入,類(lèi)似于ReAct。然后使用低秩適配器微調(diào)一個(gè)LLM,以在給定此輸入的情況下從ReAct片段中預(yù)測(cè)動(dòng)作。該模型降低了延遲和計(jì)算需求,適合現(xiàn)實(shí)世界中的部署。

所有模型生成都受到約束生成的限制,僅輸出對(duì)觀(guān)察到的對(duì)象有效的動(dòng)作。約束生成極大地減少了LLM典型的幻覺(jué)和“語(yǔ)法”錯(cuò)誤。當(dāng)兩個(gè)agent都調(diào)用Done或達(dá)到最大模擬步驟或LLM調(diào)用時(shí),一個(gè)片段即結(jié)束。

  1. 集中式與分散式規(guī)劃:

為了研究多agent PARTNR任務(wù)中協(xié)調(diào)的開(kāi)銷(xiāo),這里比較了集中式規(guī)劃器和分散式規(guī)劃器。在集中式規(guī)劃中,單個(gè)大型語(yǔ)言模型(LLM)根據(jù)兩個(gè)agent的完整狀態(tài)信息為它們決定動(dòng)作,從而有效地消除了agent之間的任何協(xié)調(diào)需求。在分散式規(guī)劃中,每個(gè)agent由不同的LLM控制,每個(gè)LLM都需要推斷另一個(gè)agent的動(dòng)作。

  1. 部分可觀(guān)察與完全可觀(guān)察:

為了評(píng)估當(dāng)前最先進(jìn)(SoTA)的語(yǔ)言模型是否能夠探索新環(huán)境并識(shí)別與任務(wù)相關(guān)的對(duì)象,考慮了一個(gè)部分可觀(guān)察的設(shè)置,其中規(guī)劃器知道房屋的布局但不知道目標(biāo)的位置,因此需要探索。這與完全可觀(guān)察的設(shè)置形成對(duì)比,在完全可觀(guān)察的設(shè)置中,所有目標(biāo)的位置都是事先已知的。

  1. 學(xué)習(xí)到的與先知低級(jí)別機(jī)器人技能:

本文研究了學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)技能與先知技能(具有特權(quán)模擬信息)對(duì)PARTNR任務(wù)整體性能的影響。這里為拾取、放置、導(dǎo)航、打開(kāi)和關(guān)閉動(dòng)作創(chuàng)建了一個(gè)學(xué)習(xí)到的技能庫(kù),并與先知技能進(jìn)行了性能比較。

  1. 特權(quán)與非特權(quán)感知:

為了研究諸如檢測(cè)不準(zhǔn)確和定位近似等感知挑戰(zhàn),使用了帶有修改后的ConceptGraphs的非特權(quán)世界圖,該圖僅根據(jù)agent的RGBD觀(guān)測(cè)結(jié)果構(gòu)建。隨著agent的探索和動(dòng)作,這個(gè)世界圖將使用機(jī)載傳感器進(jìn)行更新。相比之下,在特權(quán)感知下,這些信息可以直接從模擬中獲取。

2 Results and Analysis

指標(biāo)。使用四個(gè)關(guān)鍵指標(biāo)來(lái)評(píng)估不同設(shè)置下的性能。首先,模擬步數(shù)指標(biāo)衡量了agent在模擬環(huán)境中完成任務(wù)所需的步數(shù),作為效率的一個(gè)指標(biāo)。其次,成功率反映了任務(wù)的完成情況,即是否滿(mǎn)足“所有”任務(wù)約束。鑒于PARTNR任務(wù)的復(fù)雜性和長(zhǎng)期性,agent通常只能部分完成任務(wù)。為了考慮這一點(diǎn),還報(bào)告了完成百分比,它量化了已完成任務(wù)“命題”的比例(對(duì)于成功的任務(wù),完成百分比為1)。最后,我們通過(guò)規(guī)劃周期指標(biāo)來(lái)評(píng)估規(guī)劃器的推理效率,該指標(biāo)計(jì)算每個(gè)規(guī)劃器在一個(gè)情節(jié)過(guò)程中進(jìn)行的高級(jí)大型語(yǔ)言模型(LLM)調(diào)用的次數(shù)。在所有實(shí)驗(yàn)中,將規(guī)劃器的最大調(diào)用次數(shù)限制在50次以?xún)?nèi)。

任務(wù)性能分析

表2展示了使用Llama3.1-70B-Instruct模型作為ReAct基線(xiàn),以及使用微調(diào)后的Llama3.1-8B基礎(chǔ)模型作為微調(diào)基線(xiàn)。由于PARTNR任務(wù)是多agent任務(wù),還需要一個(gè)模擬的人類(lèi)伙伴,使用Llama3.1-70B-Instruct模型并通過(guò)ReAct方法對(duì)其進(jìn)行控制。主要發(fā)現(xiàn)如下所述。

圖片

基于LLM的規(guī)劃器在處理PARTNR任務(wù)時(shí)面臨挑戰(zhàn)。在所有可觀(guān)察性和可控性條件下,基于LLM的基線(xiàn)性能均不如具有特權(quán)的啟發(fā)式專(zhuān)家,原因是任務(wù)跟蹤中出現(xiàn)錯(cuò)誤(未完成所有步驟、步驟順序錯(cuò)誤或撤銷(xiāo)已完成的步驟),以及語(yǔ)義錯(cuò)誤(將對(duì)象放置在錯(cuò)誤的家具上或移動(dòng)錯(cuò)誤的對(duì)象),這表明LLM在任務(wù)規(guī)劃方面存在差距。

LLM在分散式設(shè)置中的協(xié)調(diào)方面表現(xiàn)不佳。沒(méi)有特權(quán)訪(fǎng)問(wèn)伙伴意圖的分散式ReAct基線(xiàn)在任務(wù)完成速度上顯著慢于集中式ReAct。這表明,對(duì)伙伴進(jìn)行推理(例如,了解或推斷伙伴的意圖)可以提高PARTNR任務(wù)的效率,而當(dāng)前最先進(jìn)的LLM在這方面表現(xiàn)不佳。此外,有兩個(gè)agent的分散式ReAct甚至慢于單個(gè)agent的ReAct(行(e)中的多agent需要3295步,而行(a)中的單agent需要2519步),這表明LLM在協(xié)調(diào)方面承受著巨大的“負(fù)擔(dān)”。在4.2.2節(jié)關(guān)于額外努力的分析中,我們進(jìn)一步強(qiáng)調(diào)了這種協(xié)調(diào)負(fù)擔(dān),我們發(fā)現(xiàn),在分散式設(shè)置中,agent最終會(huì)更高頻率地重復(fù)任務(wù)的部分內(nèi)容或執(zhí)行不相關(guān)的動(dòng)作。

LLM(大型語(yǔ)言模型)無(wú)法從已學(xué)習(xí)技能的失敗中恢復(fù)。當(dāng)用已學(xué)習(xí)技能替換Oracle技能時(shí),成功率從0.73下降到0.57(行(e)對(duì)比行(h))。這種下降可以歸因于,與具有特權(quán)的Oracle技能相比,已學(xué)習(xí)技能的失敗率更高,且所需的模擬步驟更多。LLM在應(yīng)對(duì)技能錯(cuò)誤(如未能拾取物體或執(zhí)行不完整的探索)時(shí)難以恢復(fù),從而導(dǎo)致成功率降低。未來(lái)的研究可以探索訓(xùn)練包含低級(jí)技能循環(huán)的大型模型,使它們能夠在面對(duì)此類(lèi)失敗時(shí)學(xué)習(xí)恢復(fù)和重新規(guī)劃策略。

LLM對(duì)感知錯(cuò)誤表現(xiàn)出高度敏感性。當(dāng)用現(xiàn)成的感知模塊替換具有特權(quán)的感知時(shí),成功率顯著下降(從行(h)中具有特權(quán)、部分世界圖的0.57下降到行(i)中使用Concept-Graphs的0.30)。LLM嚴(yán)重依賴(lài)世界圖提供的準(zhǔn)確世界描述,并且難以糾正諸如誤分類(lèi)(例如,將架子誤認(rèn)為是桌子)或房間分配錯(cuò)誤(例如,將客廳的桌子錯(cuò)誤地標(biāo)記為在臥室)等錯(cuò)誤。像VLM(視覺(jué)語(yǔ)言模型)這樣的多模態(tài)模型可能在從這類(lèi)失敗中恢復(fù)方面更強(qiáng)大,這留待未來(lái)的工作來(lái)研究。

微調(diào)后的8B模型在性能上與使用70B模型的ReAct相當(dāng),但推理速度卻快了8.6倍。我們發(fā)現(xiàn),使用較小8B模型的微調(diào)規(guī)劃器與使用更大70B模型的ReAct性能相當(dāng)(在行(e)中,70B模型的成功率為0.73,而在行(g)中,微調(diào)后的8B模型的成功率為0.70)。同時(shí)發(fā)現(xiàn)微調(diào)模型在推理速度上快了8.6倍。這表明微調(diào)有效地從訓(xùn)練集中提取了與任務(wù)相關(guān)的信息,并將其泛化到新的測(cè)試任務(wù)中。當(dāng)與人類(lèi)共同部署時(shí),微調(diào)模型所需的步驟更少,并且能夠分擔(dān)比70B模型更多的子任務(wù)(見(jiàn)表3)。

圖片

協(xié)作行為與效率分析

表2中的分析揭示了大型語(yǔ)言模型(LLM)在協(xié)作中面臨的挑戰(zhàn),這促使我們更深入地研究具體的協(xié)作行為。

機(jī)器人承擔(dān)了高達(dá)60%的任務(wù)。我們?cè)u(píng)估了機(jī)器人在從人類(lèi)那里分擔(dān)任務(wù)方面的能力,具體方法是測(cè)量在成功的PARTNR任務(wù)中,機(jī)器人執(zhí)行的子任務(wù)占總子任務(wù)的比例。盡管單智能體和多智能體的成功率相似(0.73對(duì)比0.74),但在去中心化的多智能體環(huán)境中,機(jī)器人承擔(dān)了約60%的子任務(wù),從而減輕了人類(lèi)的負(fù)擔(dān)。

去中心化的智能體容易執(zhí)行多余的任務(wù)。智能體有時(shí)會(huì)執(zhí)行對(duì)任務(wù)無(wú)用的子任務(wù),如重新排列任務(wù)中不需要的物體或重復(fù)另一個(gè)智能體已經(jīng)完成的子任務(wù)。為了衡量這種多余的努力,我們計(jì)算了在一次任務(wù)中,智能體的無(wú)效動(dòng)作(即未增加任務(wù)完成百分比、未對(duì)任務(wù)進(jìn)展做出貢獻(xiàn)的動(dòng)作)占總成功動(dòng)作的比例。我們發(fā)現(xiàn),與單智能體相比,在去中心化的多智能體環(huán)境中,無(wú)效努力增加了300%(見(jiàn)表12),這表明協(xié)調(diào)負(fù)擔(dān)顯著增加。

時(shí)間和異構(gòu)任務(wù)對(duì)LLM來(lái)說(shuō)具有挑戰(zhàn)性。LLM在時(shí)間和異構(gòu)任務(wù)上表現(xiàn)困難。與ReAct的無(wú)約束任務(wù)相比,時(shí)間任務(wù)的成功率下降了27%,異構(gòu)任務(wù)的成功率下降了20%(見(jiàn)表13)。這凸顯了LLM在推理智能體能力和遵循嚴(yán)格順序約束方面的局限性。

人機(jī)交互評(píng)估

我們基于Habitat 3.0中的Human-in-the-loop基礎(chǔ)設(shè)施進(jìn)行了構(gòu)建,并將其調(diào)整為服務(wù)器-客戶(hù)端架構(gòu),其中服務(wù)器托管在AWS上,能夠支持多個(gè)客戶(hù)端。這使我們能夠使用129名非專(zhuān)業(yè)人類(lèi)參與者對(duì)任務(wù)進(jìn)行大規(guī)模評(píng)估。使用該工具從驗(yàn)證集和測(cè)試集中收集了1000個(gè)任務(wù)的單用戶(hù)和多用戶(hù)數(shù)據(jù)。在單用戶(hù)設(shè)置中,一名參與者通過(guò)鍵盤(pán)/鼠標(biāo)控制在模擬器中的人類(lèi)角色來(lái)完成整個(gè)任務(wù)(附錄中的圖14展示了我們的HITL界面)。在多用戶(hù)設(shè)置中,兩名參與者分別控制一個(gè)人類(lèi)角色和一個(gè)機(jī)器人角色來(lái)共同完成任務(wù)。這些實(shí)驗(yàn)的目的是研究PARTNR任務(wù)中的多用戶(hù)動(dòng)態(tài),并觀(guān)察多名人類(lèi)協(xié)作是否比單個(gè)人類(lèi)更高效。最后,我們進(jìn)行了一項(xiàng)人機(jī)實(shí)驗(yàn),其中一名人類(lèi)參與者與由大型語(yǔ)言模型(LLM)控制的機(jī)器人協(xié)作。該實(shí)驗(yàn)旨在評(píng)估LLM控制的智能體在與未見(jiàn)過(guò)的真實(shí)人類(lèi)協(xié)作時(shí)的表現(xiàn)。表3顯示了驗(yàn)證集中任務(wù)在單用戶(hù)、多用戶(hù)、人類(lèi)-ReAct和人類(lèi)-微調(diào)設(shè)置下的成功率(SR)和完成百分比(PC)。此外,我們還測(cè)量了每種方法完成任務(wù)所需的步數(shù),以及機(jī)器人完成的工作量比例(即任務(wù)分擔(dān))。我們還通過(guò)測(cè)量選擇第一個(gè)對(duì)象所需的步數(shù)和無(wú)用努力(指對(duì)任務(wù)完成沒(méi)有幫助的動(dòng)作)來(lái)衡量人在回路中的探索效率。這些結(jié)果總結(jié)在表3中。

人類(lèi)在PARTNR任務(wù)上的表現(xiàn)明顯優(yōu)于LLM。在單人和多人環(huán)境中,人類(lèi)在PARTNR基準(zhǔn)上的成功率均為0.93。相比之下,沒(méi)有任何特權(quán)信息的ReAct模型的成功率顯著降低至0.30(表2的第(i)行)。這凸顯了LLM在規(guī)劃任務(wù)性能上的巨大差距。值得注意的是,當(dāng)與真實(shí)人類(lèi)一起評(píng)估時(shí),像ReAct和微調(diào)這樣的LLM基線(xiàn)模型的成功率分別為0.92和0.91(表3),因?yàn)槿祟?lèi)能夠適應(yīng)LLM的錯(cuò)誤。另一方面,表2中的模擬人類(lèi)是一個(gè)LLM,它無(wú)法從合作伙伴的錯(cuò)誤中恢復(fù)。

在與真實(shí)人類(lèi)協(xié)作時(shí),微調(diào)后的LLM表現(xiàn)優(yōu)于ReAct。當(dāng)與真實(shí)人類(lèi)在回路中一起部署時(shí),微調(diào)模型在任務(wù)完成上比ReAct更快(微調(diào)模型3443步,ReAct 4267步)。它還能從人類(lèi)那里分擔(dān)更多任務(wù)(微調(diào)模型26%,ReAct 16%)。這表明具有更快推理速度的小型模型可以改善真實(shí)世界部署中的人類(lèi)體驗(yàn)。

LLM在協(xié)調(diào)方面存在困難,阻礙了人類(lèi)的表現(xiàn)。盡管在與人類(lèi)協(xié)作時(shí)微調(diào)模型比ReAct更快,但兩種方法都比人類(lèi)單獨(dú)完成任務(wù)要慢。相比之下,兩名人類(lèi)一起工作比單個(gè)人類(lèi)完成任務(wù)更快(多人2369步,單人3046步)。這一結(jié)果與我們?cè)诒?中觀(guān)察到的自動(dòng)化評(píng)估結(jié)果一致,其中多智能體LLM也比單智能體LLM更慢。這一結(jié)果進(jìn)一步證實(shí),LLM在協(xié)調(diào)方面存在問(wèn)題;而人類(lèi)能夠相互協(xié)調(diào)并分配任務(wù),但去中心化的LLM卻無(wú)法做到這一點(diǎn)。

LLM能夠從人類(lèi)那里分擔(dān)任務(wù)。盡管上述任務(wù)完成步數(shù)有所增加,但由微調(diào)模型指導(dǎo)的機(jī)器人成功地從人類(lèi)那里分擔(dān)了26%的任務(wù)。這表明,在與真實(shí)人類(lèi)合作伙伴協(xié)作時(shí),LLM仍然能夠提供幫助。盡管如此,仍有很大的改進(jìn)空間。

一些結(jié)論

PARTNR是一個(gè)針對(duì)多智能體實(shí)體任務(wù)中的推理與規(guī)劃基準(zhǔn),其特點(diǎn)是在60個(gè)模擬的多房間房屋中實(shí)例化了100,000項(xiàng)自然語(yǔ)言任務(wù),這些房屋中包含5,819個(gè)獨(dú)特物體。我們采用半自動(dòng)化的基于大型語(yǔ)言模型(LLM)的pipeline,用于大規(guī)模指令和評(píng)估功能的生成,該過(guò)程使用了基于模擬的循環(huán)接地技術(shù)。PARTNR展現(xiàn)了日常任務(wù)的特點(diǎn),如時(shí)間和空間的限制,并允許對(duì)規(guī)劃方法進(jìn)行系統(tǒng)評(píng)估。我們發(fā)現(xiàn),在PARTNR任務(wù)上,當(dāng)前最先進(jìn)的LLM與人類(lèi)水平的性能之間存在顯著差距。盡管我們最佳的LLM基線(xiàn)在沒(méi)有特權(quán)信息的情況下僅成功完成了30%的任務(wù),但人類(lèi)卻能解決93%的任務(wù)。此外,LLM在與基于LLM的智能體以及真實(shí)人類(lèi)伙伴的協(xié)調(diào)中都面臨著挑戰(zhàn)。人類(lèi)參與的評(píng)估(即真實(shí)人類(lèi)與LLM指導(dǎo)的機(jī)器人合作)表明,與單獨(dú)工作相比,LLM指導(dǎo)的伙伴會(huì)降低人類(lèi)的工作效率。這表明,基于LLM的智能體需要顯著改進(jìn),才能在實(shí)體任務(wù)中成為有效的合作伙伴。PARTNR作為一個(gè)具有挑戰(zhàn)性的基準(zhǔn),凸顯了當(dāng)前模型的重大局限性。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-12-08 13:17:00

數(shù)據(jù)模型

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2024-10-12 14:10:00

智能應(yīng)用

2024-06-04 09:25:51

2024-08-02 10:00:00

2024-03-11 00:40:00

AI研究

2024-03-25 08:00:00

3DAI

2025-03-31 09:10:00

開(kāi)源模型智能體

2025-03-07 10:24:43

2022-11-23 13:43:06

AI智能體

2024-12-19 14:44:22

2024-10-15 17:28:05

2022-04-11 11:37:13

AI研究NLP

2024-08-09 09:10:33

2024-02-20 09:42:36

自動(dòng)駕駛預(yù)測(cè)

2022-06-29 14:49:43

計(jì)算機(jī)視覺(jué)智能

2025-04-14 00:10:00

人工智能AIAI 模型

2024-08-07 10:17:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)