谷歌科學(xué)家親講:具身推理如何實(shí)現(xiàn)?讓大模型「說(shuō)」機(jī)器人的語(yǔ)言
隨著大規(guī)模語(yǔ)言模型的發(fā)展,是否能夠借助它的能力,引導(dǎo)機(jī)器人理解復(fù)雜指令,完成更高級(jí)的任務(wù)?而在這一過(guò)程中,又會(huì)面臨哪些挑戰(zhàn)?近日,智源社區(qū)邀請(qǐng)谷歌研究科學(xué)家夏斐博士做“基于語(yǔ)言和視覺(jué)的具身推理”報(bào)告,詳細(xì)介紹了團(tuán)隊(duì)在這一新興領(lǐng)域的前沿工作。
作者介紹:夏斐,目前在谷歌大腦的機(jī)器人團(tuán)隊(duì)任職研究科學(xué)家。他的主要研究方向是將機(jī)器人應(yīng)用到非結(jié)構(gòu)化的復(fù)雜環(huán)境中。他的代表工作有GibsonEnv, iGibson, SayCan等。他的研究曾被WIRED,華盛頓郵報(bào),紐約時(shí)報(bào)等媒體報(bào)道。夏斐博士畢業(yè)于斯坦福大學(xué),師從Silvio Savarese和Leonidas Guibas。他曾在CVPR, CoRL, IROS, ICRA, Neurips, RA-L, Nature Communications等會(huì)議和期刊發(fā)表過(guò)多篇文章。他最近的研究方向是將基礎(chǔ)模型(Foundation Models)用于智能體的決策過(guò)程中。他的團(tuán)隊(duì)近期提出了PaLM-SayCan模型。
01 背景?
機(jī)器學(xué)習(xí)用于機(jī)器人在近年來(lái)取得了很大的進(jìn)展,但依然存在比較大的問(wèn)題。機(jī)器學(xué)習(xí)需要大量的數(shù)據(jù)訓(xùn)練,但機(jī)器人產(chǎn)生的數(shù)據(jù)非常昂貴,且機(jī)器人本身也會(huì)有損耗。
人類在孩童時(shí)期,通過(guò)玩耍和物理世界進(jìn)行交互,從中學(xué)習(xí)到了很多物理規(guī)律。受此啟發(fā),是不是也可以讓機(jī)器人和環(huán)境進(jìn)行交互,來(lái)獲得這些物理的信息,從而完成各種各樣的任務(wù)?將機(jī)器學(xué)習(xí)用于機(jī)器人,很大程度上依賴于模擬環(huán)境。
對(duì)此,夏斐博士和他的同事們?cè)岢鯣ibson Env(Environment)和iGibson等工作,前者注重于視覺(jué)環(huán)境的重建,后者則注重物理模擬。通過(guò)對(duì)真實(shí)世界進(jìn)行三維掃描和重建,并通過(guò)神經(jīng)網(wǎng)絡(luò)渲染視覺(jué)信號(hào),創(chuàng)造模擬環(huán)境,讓各種各樣的機(jī)器人進(jìn)行物理模擬,學(xué)習(xí)從時(shí)間傳感器到驅(qū)動(dòng)器的控制等。在iGibson環(huán)境中,機(jī)器人可以學(xué)習(xí)與環(huán)境更為豐富的交互,如學(xué)習(xí)使用洗碗機(jī)等。
夏斐博士認(rèn)為,上述工作表現(xiàn)的是從互聯(lián)網(wǎng)AI到具身AI的轉(zhuǎn)變。過(guò)去AI的訓(xùn)練主要基于ImageNet、MS COCO等數(shù)據(jù)集,屬于互聯(lián)網(wǎng)任務(wù)。而具身AI要求AI的感知和動(dòng)作形成閉環(huán)——AI要根據(jù)感知到的結(jié)果決定下一步的動(dòng)作。夏斐的博士論文“l(fā)arge scale simulation for embodied perception and robot learning”就是關(guān)于將機(jī)器人模擬規(guī)?;筮M(jìn)行學(xué)習(xí)、感知和推理的。
近年來(lái),基礎(chǔ)模型在人工智能領(lǐng)域的快速發(fā)展。有研究者認(rèn)為,可以不依賴模擬環(huán)境,而是從基礎(chǔ)模型中提取信息,幫助機(jī)器人進(jìn)行決策。夏斐博士稱這個(gè)新的方向?yàn)椤癋oundation Model for Decision Making”,并和團(tuán)隊(duì)提出了PaLM-SayCan等工作。
02 PaLM-SayCan:讓語(yǔ)言模型指導(dǎo)機(jī)器人?
1. 機(jī)器人為什么很難處理復(fù)雜長(zhǎng)程的任務(wù)??
PaLM-SayCan團(tuán)隊(duì)共有45名作者,是谷歌機(jī)器人團(tuán)隊(duì)和Everyday Robots的合作項(xiàng)目,目的是探索用機(jī)器學(xué)習(xí)改變機(jī)器人領(lǐng)域,并讓機(jī)器人提供數(shù)據(jù),提升機(jī)器學(xué)習(xí)的能力。研究主要關(guān)注兩個(gè)問(wèn)題:非結(jié)構(gòu)化的復(fù)雜環(huán)境,以及讓機(jī)器人能夠在日常生活中更有用。
雖然人們已經(jīng)有了類似Siri或Alexa這樣的個(gè)人助理,但機(jī)器人領(lǐng)域卻沒(méi)有這樣的存在。夏博士舉了這樣一個(gè)例子:在飲料灑了的時(shí)候,我們希望跟機(jī)器人說(shuō)明情況,請(qǐng)它幫忙?;蛘哌\(yùn)動(dòng)后疲累,請(qǐng)它提供飲料和零食等。研究希望機(jī)器人能夠理解并執(zhí)行這些任務(wù)。
目前的難點(diǎn)在于,機(jī)器人做長(zhǎng)線或長(zhǎng)程的任務(wù)還比較難,對(duì)于需要復(fù)雜規(guī)劃、常識(shí)和推理的任務(wù)依然無(wú)能為力,原因在于兩方面。第一個(gè)是機(jī)器人領(lǐng)域缺乏好的用戶交互界面。傳統(tǒng)的機(jī)器人執(zhí)行抓取-放置(Pick&Place)任務(wù)的時(shí)候,通常使用的是Goal-conditioning(目標(biāo)條件)或獨(dú)熱條件(One-hot Conditioning)方法。Goal-conditioning需要告訴機(jī)器人目標(biāo)是什么,讓機(jī)器人執(zhí)行將初始條件改變?yōu)槟繕?biāo)條件的任務(wù),這需要首先給機(jī)器人示范一下,完成后的任務(wù)條件是什么樣的。
?而One-hot Conditioning采用的是One-hot編碼,對(duì)機(jī)器人可以完成的所有任務(wù)(如100個(gè)任務(wù))用0~99來(lái)進(jìn)行編號(hào)。每次需要執(zhí)行的時(shí)候,提供給機(jī)器人一個(gè)編號(hào),它就知道要去完成什么任務(wù)。但獨(dú)熱條件的問(wèn)題在于需要用戶記住每一個(gè)任務(wù)對(duì)應(yīng)的編碼,且獨(dú)熱編碼并沒(méi)有獲得各個(gè)任務(wù)之間的依賴信息(如完成一個(gè)目標(biāo)對(duì)應(yīng)的任務(wù)編碼序列)。
這些就導(dǎo)致目前機(jī)器人只能完成短程的任務(wù),通常是抓取和擺放,且機(jī)器人本身是靜態(tài)而非移動(dòng)的。此外,環(huán)境也局限在實(shí)驗(yàn)室這樣的場(chǎng)景中,往往沒(méi)有人類。
2.語(yǔ)言模型用于機(jī)器人:如何讓它能“說(shuō)”機(jī)器人的語(yǔ)言??
為了解決這些問(wèn)題,團(tuán)隊(duì)想到通過(guò)使用基礎(chǔ)模型。語(yǔ)言模型可以取代Goal-conditioning,通過(guò)語(yǔ)言來(lái)清晰、無(wú)歧義地描述任務(wù)。同時(shí),語(yǔ)言也包含了任務(wù)步驟之間的依賴信息,如菜譜上的第一步、第二步等,為機(jī)器人學(xué)習(xí)提供幫助。此外,語(yǔ)言也可以去定義長(zhǎng)程任務(wù),解決采用模仿學(xué)習(xí)方法的局限性。
將大模型用在機(jī)器人上,可能面臨一些挑戰(zhàn)。最重要的是要確定面向機(jī)器人輸出的語(yǔ)言。大模型是根據(jù)人類的自然語(yǔ)言進(jìn)行的訓(xùn)練,其輸出的任務(wù),機(jī)器人不一定能做。而且語(yǔ)言模型沒(méi)有在機(jī)器人的數(shù)據(jù)上進(jìn)行訓(xùn)練,所以它并不知道機(jī)器人的能力范圍。第二個(gè)是Grounding問(wèn)題,大模型并沒(méi)有親身經(jīng)歷物理世界,缺少具身信息。第三個(gè)則是在大模型引導(dǎo)下機(jī)器人本身的安全性和可解釋性問(wèn)題。語(yǔ)言模型的偏見(jiàn)可能會(huì)因?yàn)榕c物理系統(tǒng)相聯(lián)系而被放大,對(duì)真實(shí)世界造成影響。
???
有關(guān)可信性方面有這樣一個(gè)例子:當(dāng)人類用戶和谷歌的LaMDA模型交流的時(shí)候,用戶問(wèn)模型“最喜歡的島”,模型回答的是希臘的克里特島,而且還能答出一些原因。但是這個(gè)結(jié)果并不是可信的,因?yàn)锳I應(yīng)該給出的結(jié)果是“不知道最喜歡哪個(gè)島,因?yàn)槟膫€(gè)島都沒(méi)去過(guò)”。語(yǔ)言模型的問(wèn)題便是它沒(méi)有和真實(shí)世界交互過(guò),只是根據(jù)統(tǒng)計(jì)規(guī)律去輸出最有可能出現(xiàn)的下一句話。
如果將語(yǔ)言模型用于機(jī)器人上,不同的模型會(huì)給出不同的結(jié)果,其中一些對(duì)于驅(qū)動(dòng)機(jī)器人執(zhí)行任務(wù)沒(méi)有用處。例如,用戶提出需要讓機(jī)器人“將灑出的飲料清理掉”,GPT-3可能會(huì)說(shuō)“你可以用一個(gè)吸塵器”。這個(gè)結(jié)果不完全正確,因?yàn)槲鼔m器并不能清理液體。
如果是LaMDA模型,LaMDA可能會(huì)說(shuō)“想不想讓我?guī)湍阏乙粋€(gè)清潔工?”這個(gè)回答是正常的,但并沒(méi)有實(shí)際用處,因?yàn)長(zhǎng)aMDA在對(duì)話語(yǔ)料上進(jìn)行的微調(diào),其目標(biāo)函數(shù)是盡可能延長(zhǎng)對(duì)話長(zhǎng)度,并非幫助完成任務(wù)。如果是FLAN模型,它會(huì)回復(fù)“對(duì)不起,我不是故意的?!辈](méi)有理解用戶的意圖:究竟是對(duì)話?還是需要解決問(wèn)題?因此將大語(yǔ)言模型用于機(jī)器人上存在一系列問(wèn)題。
PaLM-SayCan工作就是要解決這些挑戰(zhàn)。首先是讓大模型能夠說(shuō)機(jī)器人的語(yǔ)言,方法是Few-shot Prompting(少樣本學(xué)習(xí))。例如,構(gòu)造諸如“將咖啡拿到櫥柜上”、“給我一個(gè)橙子”等任務(wù),并給出相應(yīng)的步驟(如1-5和1-3)。然后,用戶給出模型一個(gè)指示:“將一個(gè)蘋果放在桌子上”。在有了之前的步驟提示后,模型會(huì)自行尋找和組合出合適的任務(wù)步驟,一步一步生成完成任務(wù)的計(jì)劃。
?需要注意的是,大模型主要有兩種交互方式,一種是生成式(Generative Interface),根據(jù)輸入生成下一個(gè)Token;另一種是打分式(Scoring Interface),對(duì)給定的Token計(jì)算似然函數(shù)。PaLM-SayCan使用的是打分式的方式,語(yǔ)言模型會(huì)更穩(wěn)定,容易輸出想要的結(jié)果。在放置蘋果的任務(wù)中,模型會(huì)對(duì)各種步驟進(jìn)行打分,并選出合適的結(jié)果。
3.彌補(bǔ)語(yǔ)言模型和真實(shí)世界的鴻溝:讓機(jī)器人探索環(huán)境的可供性?
還有一個(gè)問(wèn)題需要解決:語(yǔ)言模型生成任務(wù)步驟時(shí)并不知道機(jī)器人目前能做什么。如果機(jī)器人跟前并沒(méi)有蘋果,機(jī)器人就無(wú)法完成放置蘋果的任務(wù)。因此,這需要讓語(yǔ)言模型知道機(jī)器人在當(dāng)前的環(huán)境和狀態(tài)下可以做什么任務(wù)。這里需要引入一個(gè)新的概念,叫做Robotic Affordances(機(jī)器人可供性),也是這篇工作的核心。
?Affordances翻譯成中文被稱為可供性,是美國(guó)心理學(xué)家詹姆斯·吉布森 (James J. Gibson)在1977年左右提出的一個(gè)概念,定義為一個(gè)智能體在一個(gè)環(huán)境中,在當(dāng)前的狀態(tài)下可以做什么任務(wù),就代表它的可供性。可供性可以采用監(jiān)督學(xué)習(xí)去獲得,但是這樣需要大量的數(shù)據(jù)和標(biāo)注。
對(duì)此,團(tuán)隊(duì)采用了強(qiáng)化學(xué)習(xí)的方法,利用Policy的值函數(shù)近似可供性。例如在環(huán)境中訓(xùn)練機(jī)器人抓取各種東西,訓(xùn)練后讓機(jī)器人在房間中進(jìn)行探索,當(dāng)它看到面前有物品的時(shí)候,撿起該物品的值函數(shù)就會(huì)變得很高,從而代替可供性的預(yù)測(cè)。
?將可供性和語(yǔ)言模型結(jié)合,就得到了PaLM-SayCan算法。如上圖所示,左側(cè)為語(yǔ)言模型,對(duì)用戶提出的指令,對(duì)機(jī)器人可以完成的任務(wù)進(jìn)行打分,計(jì)算出完成子任務(wù)對(duì)完成總?cè)蝿?wù)有幫助的概率。右側(cè)是值函數(shù),代表在當(dāng)前狀態(tài)下完成每一項(xiàng)任務(wù)的概率。兩者的乘積代表機(jī)器人成功完成一個(gè)對(duì)總?cè)蝿?wù)有幫助的子任務(wù)的概率。在蘋果的例子中,當(dāng)前狀態(tài)下機(jī)器人面前沒(méi)有蘋果,要完成這個(gè)任務(wù),第一件事情就是要找到蘋果,所以找到蘋果的可供性分?jǐn)?shù)比較高,抓取蘋果的分?jǐn)?shù)較低。找到蘋果后,抓取蘋果的可供性分?jǐn)?shù)提高,則執(zhí)行抓取蘋果的任務(wù)。不斷重復(fù)這個(gè)過(guò)程,直到總?cè)蝿?wù)被完成。
?
03 更多具身智能工作:提升模型推理能力,利用環(huán)境反饋形成閉環(huán)
1.Chain of Thought Prompting:理解復(fù)雜常識(shí)?
除了PaLM-SayCan之外,夏博士和同事們也完成了其他一些相關(guān)工作。在Prompt方面,團(tuán)隊(duì)提出了Chain of Thought Prompting(可以理解為解題思路)工作,目的是為了讓語(yǔ)言模型有更多的推理能力。
?標(biāo)準(zhǔn)的Prompt模式是設(shè)計(jì)問(wèn)題模板,并給出答案。模型推理時(shí)輸出答案,但有時(shí)候模型給出的回答是錯(cuò)誤的。因此,Chain of Thought Prompting的目標(biāo)就是在提供問(wèn)題的同時(shí)給模型一段解釋,這樣可以顯著提升模型的結(jié)果,甚至在一些任務(wù)上超過(guò)人類水平。
模型在處理否定句的時(shí)候容易出錯(cuò)。例如,人類用戶提出“給我一個(gè)水果,但不要蘋果”。模型往往會(huì)提供一個(gè)蘋果,因?yàn)閱?wèn)題和可執(zhí)行的選項(xiàng)中都有蘋果。利用Chain of Thought Prompting,可以提供一些解釋。例如,模型會(huì)輸出“用戶想要水果,但不是蘋果,香蕉是一種水果,不是蘋果。我可以給用戶一根香蕉”。
Chain of Thought Prompting還可以解決更為微妙的否定要求。例如,用戶表示對(duì)咖啡因過(guò)敏,要求機(jī)器人拿一個(gè)飲料。過(guò)敏是否定的另一種微妙形式,如果用傳統(tǒng)的方法,機(jī)器人可能會(huì)拿一個(gè)含咖啡因的飲料(沒(méi)有理解過(guò)敏所代表的否定含義)。而Chain of Thought Prompting可以對(duì)過(guò)敏等進(jìn)行解釋,提升推理效果。
2.Inner Monologue:糾正錯(cuò)誤,回到正確的執(zhí)行軌道上?
將大模型做機(jī)器人決策和環(huán)境交互相結(jié)合也是研究的重要方向。團(tuán)隊(duì)提出了Inner Monologue的工作,目的是讓語(yǔ)言模型可以根據(jù)環(huán)境的變化來(lái)回溯以往的決策,從錯(cuò)誤的指令或環(huán)境帶來(lái)的意外中恢復(fù)。?
?例如,人類回家的時(shí)候,發(fā)現(xiàn)選擇的鑰匙打不開門,這時(shí)候人們會(huì)選擇換另一把鑰匙試試,或者換個(gè)轉(zhuǎn)動(dòng)的方向。這體現(xiàn)的就是根據(jù)環(huán)境的反饋來(lái)糾正錯(cuò)誤,更新出新的動(dòng)作。Inner Monologue工作就是這樣的思路。例如,機(jī)器人抓取可樂(lè)的過(guò)程中,如果可樂(lè)掉下去,后續(xù)的任務(wù)無(wú)法完成,就需Inner Monologue這樣的工作,檢測(cè)任務(wù)是否完成成功,并將反饋放入決策過(guò)程中,根據(jù)反饋信息來(lái)作出新的決策。
如圖所示,Inner Monologue工作包含了主動(dòng)情景描述(Active Scene Description)和任務(wù)成功檢測(cè)器(Success Detector)。當(dāng)人類下達(dá)指令的時(shí)候,模型可以執(zhí)行指令,并激活情景描述,用于輔助機(jī)器人的決策。訓(xùn)練過(guò)程依然使用Few-shot Prompt的方式,使其能夠舉一反三。例如,當(dāng)機(jī)器人接到指令去取飲料的時(shí)候,它會(huì)詢問(wèn)人類究竟是取可樂(lè)還是蘇打水。
?另一個(gè)案例是語(yǔ)言模型對(duì)歷史信息進(jìn)行的推理,在很多時(shí)候人類會(huì)在下達(dá)命令后改變主意,或者改變多次指令后要求機(jī)器人完成“剛才的任務(wù)”。在這里,“剛才的任務(wù)”沒(méi)有具體指定,這就需要模型回溯歷史,看一下之前的任務(wù)是什么。除了英文之外,目前Inner Monologue還可以在中文等語(yǔ)言上使用。經(jīng)過(guò)在其他領(lǐng)域的實(shí)驗(yàn),團(tuán)隊(duì)發(fā)現(xiàn)這種環(huán)境反饋的方法能夠完成一些非常復(fù)雜和閉環(huán)的規(guī)劃任務(wù)。
04 Q&A
Q:PaLM-SayCan的大語(yǔ)言模型是從頭訓(xùn)練的嗎?還是只用了模型。?
A:大預(yù)言模型不需要做Fine-tune,本身已經(jīng)包含了很多決策的信息。例如用1750億參數(shù)的GPT-3,或者PaLM都可以,其本身已經(jīng)包含了足夠多的任務(wù)規(guī)劃的、序列的信息。
Q:在Inner Monologue工作中,Agent也會(huì)主動(dòng)提問(wèn)嗎?這是怎么是吸納的??
A:我們用語(yǔ)言模型和Prompt的方法,在機(jī)器人完成一個(gè)任務(wù)的時(shí)候,會(huì)出現(xiàn)兩個(gè)選項(xiàng)“and ask”和“and continue”。究竟是提問(wèn)還是繼續(xù),取決于上下文語(yǔ)義中是否有歧義。
Q:機(jī)器人怎樣知道一件物品在什么地方(比如薯片在抽屜里)?如果將來(lái)機(jī)器人具備的能力逐漸增加,是否會(huì)造成在探索的過(guò)程中搜索空間過(guò)大??
A:機(jī)器人對(duì)于物品的存放位置的知識(shí),目前是硬編碼的,不是一個(gè)自動(dòng)的過(guò)程。但大語(yǔ)言模型也包含了一定的語(yǔ)義知識(shí),比如物品在哪里。這種語(yǔ)義知識(shí)可以減少搜索空間。同時(shí),也可以根據(jù)找到物品的概率去做探索。目前,夏斐團(tuán)隊(duì)發(fā)表了一篇新的工作來(lái)解決這個(gè)問(wèn)題,其核心思想是建立一個(gè)自然語(yǔ)言索引的場(chǎng)景表示。參考網(wǎng)站 nlmap-saycan.github.io?
Q: 另外,近年來(lái)興起的分層強(qiáng)化學(xué)習(xí),是否對(duì)復(fù)雜任務(wù)規(guī)劃有一定的啟發(fā)??
PaLM-SayCan和分層強(qiáng)化學(xué)習(xí)有異曲同工之處,有著底層技能和上層任務(wù)的規(guī)劃,可以說(shuō)是一個(gè)分層的方法,但并不是分層強(qiáng)化學(xué)習(xí)。我個(gè)人比較看好這種分層方法,因?yàn)樽鋈蝿?wù)規(guī)劃的時(shí)候,不一定要去做每一個(gè)細(xì)節(jié)的步驟,這樣會(huì)很浪費(fèi)時(shí)間。任務(wù)規(guī)劃可以使用海量的互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練,但底層的技能需要物理數(shù)據(jù),所以要和環(huán)境進(jìn)行交互,學(xué)習(xí)。
Q:PaLM-SayCan真正用于機(jī)器人,是否還有原理性的問(wèn)題沒(méi)有解決?如果作為日常保姆的替代等應(yīng)用,還需要多久能夠?qū)崿F(xiàn)??
A:目前還有一些原理性的問(wèn)題沒(méi)有解決,并不是簡(jiǎn)單的工程問(wèn)題。在原理性方面,機(jī)器人的底層的運(yùn)動(dòng)控制和抓取是一個(gè)很大的挑戰(zhàn),我們還無(wú)法做到100%的抓取成功,這是一個(gè)很大的問(wèn)題。
當(dāng)然,目前已經(jīng)能夠?yàn)樾袆?dòng)不便的人提供一些價(jià)值。但如果真正做到商業(yè)化產(chǎn)品,目前還不行,任務(wù)成功率在大約百分之九十,沒(méi)有達(dá)到商業(yè)上的要求。
Q:機(jī)器人規(guī)劃的成功率受限于訓(xùn)練數(shù)據(jù)集嗎??
A:機(jī)器人的規(guī)劃能力是受限于訓(xùn)練語(yǔ)料的。語(yǔ)料中很容易可以找到一些指令,如“將垃圾扔掉”等。但語(yǔ)料中幾乎沒(méi)有“把機(jī)器人二指爪往右移10厘米”這樣的語(yǔ)料,因?yàn)槿藗儾粫?huì)將這樣的信息留在互聯(lián)網(wǎng)上。這就涉及到粒度信息的問(wèn)題,目前受限于語(yǔ)料,機(jī)器人只能完成粗粒度的任務(wù)。
另一方面,細(xì)粒度的規(guī)劃本身也不該由語(yǔ)言模型來(lái)做,因?yàn)樗颂嗟奈锢硇畔?,很可能無(wú)法用人類的語(yǔ)言來(lái)描述。一個(gè)思路是細(xì)粒度的操作可以用模仿學(xué)習(xí)(參考BC-Z工作),或者代碼生成來(lái)實(shí)現(xiàn)(參考團(tuán)隊(duì)最新工作 https://code-as-policies.github.io/)。大模型更大的作用是作為用戶的交互界面,根據(jù)人類給機(jī)器人的指令,進(jìn)行解釋,并分解為機(jī)器可以執(zhí)行的步驟。
此外,語(yǔ)言可以做高級(jí)語(yǔ)義規(guī)劃,不需要做更物理的規(guī)劃。如果要實(shí)現(xiàn)細(xì)粒度的規(guī)劃任務(wù),還是要依靠模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)。