Yann LeCun不看好強(qiáng)化學(xué)習(xí):「我確實(shí)更喜歡 MPC」
「相比于強(qiáng)化學(xué)習(xí)(RL),我確實(shí)更喜歡模型預(yù)測(cè)控制(MPC)。至少?gòu)?2016 年起,我就一直在強(qiáng)調(diào)這一點(diǎn)。強(qiáng)化學(xué)習(xí)在學(xué)習(xí)任何新任務(wù)時(shí)都需要進(jìn)行極其大量的嘗試。相比之下,模型預(yù)測(cè)控制是零樣本的:如果你有一個(gè)良好的世界模型和一個(gè)良好的任務(wù)目標(biāo),模型預(yù)測(cè)控制就可以在不需要任何特定任務(wù)學(xué)習(xí)的情況下解決新任務(wù)。這就是規(guī)劃的魔力。這并不意味著強(qiáng)化學(xué)習(xí)是無(wú)用的,但它的使用應(yīng)該是最后的手段?!?/span>
在最近發(fā)布的一個(gè)帖子中,Meta 首席人工智能科學(xué)家 Yann LeCun 發(fā)表了這樣一番看法。
一直以來(lái),Yann LeCun 都是強(qiáng)化學(xué)習(xí)的批評(píng)者。他認(rèn)為,強(qiáng)化學(xué)習(xí)這種方法需要大量的試驗(yàn),非常低效。這和人類的學(xué)習(xí)方式大相徑庭 —— 嬰兒不是通過(guò)觀察一百萬(wàn)個(gè)相同物體的樣本來(lái)識(shí)別物體,或者嘗試危險(xiǎn)的東西并從中學(xué)習(xí),而是通過(guò)觀察、預(yù)測(cè)和與它們互動(dòng),即使沒(méi)有監(jiān)督。
在半年前的一次演講中,他甚至主張「放棄強(qiáng)化學(xué)習(xí)」(參見(jiàn)《GPT-4 的研究路徑?jīng)]有前途?Yann LeCun 給自回歸判了死刑》)。但在隨后的一次采訪中,他又解釋說(shuō),他的意思并不是完全放棄,而是最小化強(qiáng)化學(xué)習(xí)的使用,訓(xùn)練系統(tǒng)的正確方法是首先讓它從主要觀察(也許還有一點(diǎn)交互)中學(xué)習(xí)世界和世界模型的良好表示。
同時(shí),LeCun 也指出,相比于強(qiáng)化學(xué)習(xí),他更傾向于 MPC(模型預(yù)測(cè)控制)。
MPC 是一種使用數(shù)學(xué)模型在有限時(shí)間內(nèi)實(shí)時(shí)優(yōu)化控制系統(tǒng)的技術(shù),自二十世紀(jì)六七十年代問(wèn)世以來(lái),已廣泛應(yīng)用于化學(xué)工程、煉油、先進(jìn)制造、機(jī)器人和航空航天等各個(gè)領(lǐng)域。比如,前段時(shí)間,波士頓動(dòng)力就分享了他們利用 MPC 進(jìn)行機(jī)器人控制的多年經(jīng)驗(yàn)(參見(jiàn)《波士頓動(dòng)力技術(shù)揭秘:后空翻、俯臥撐與翻車(chē),6 年經(jīng)驗(yàn)、教訓(xùn)總結(jié)》)。
MPC 的最新發(fā)展之一是與機(jī)器學(xué)習(xí)技術(shù)的集成,即 ML-MPC。在這種方法中,機(jī)器學(xué)習(xí)算法用于估計(jì)系統(tǒng)模型、進(jìn)行預(yù)測(cè)和優(yōu)化控制動(dòng)作。機(jī)器學(xué)習(xí)和 MPC 的這種結(jié)合有可能在控制性能和效率方面提供顯著的改進(jìn)。
LeCun 的世界模型相關(guān)研究也用到了 MPC 相關(guān)理論。
最近,LeCun 對(duì)于 MPC 的偏愛(ài)又在 AI 社區(qū)引發(fā)了一些關(guān)注。
有人說(shuō),如果我們的問(wèn)題能夠很好地建模,并且具有可預(yù)測(cè)的 dynamics,MPC 就會(huì)很好地發(fā)揮作用。
或許對(duì)于計(jì)算機(jī)科學(xué)家來(lái)說(shuō),信號(hào)處理和控制領(lǐng)域還有很多值得挖掘的東西。
不過(guò),也有人指出,求解精確的 MPC 模型是個(gè)很難的問(wèn)題,LeCun 觀點(diǎn)中的前提 ——「如果你有一個(gè)良好的世界模型」本身就難以實(shí)現(xiàn)。
還有人說(shuō),強(qiáng)化學(xué)習(xí)和 MPC 未必是二選一的關(guān)系,二者可能有各自的適用場(chǎng)景。
之前已經(jīng)有一些研究將二者結(jié)合起來(lái)使用,效果很好。
強(qiáng)化學(xué)習(xí) vs MPC
在前面的討論中,有網(wǎng)友推薦了一篇 Medium 文章,分析對(duì)比了強(qiáng)化學(xué)習(xí)與 MPC。
接下來(lái),就讓我們根據(jù)這篇技術(shù)博客,具體分析下兩者的優(yōu)缺點(diǎn)。
強(qiáng)化學(xué)習(xí)(RL)和模型預(yù)測(cè)控制(MPC)是優(yōu)化控制系統(tǒng)的兩種強(qiáng)大技術(shù)。兩種方法都有其優(yōu)點(diǎn)和缺點(diǎn),解決問(wèn)題的最佳方法取決于特定問(wèn)題的具體要求。
那么,兩種方法的優(yōu)缺點(diǎn)分別有哪些,又適用于解決哪些問(wèn)題呢?
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是一種通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。它特別適合解決復(fù)雜動(dòng)力學(xué)或未知系統(tǒng)模型的問(wèn)題。在強(qiáng)化學(xué)習(xí)中,智能體學(xué)習(xí)在環(huán)境中采取行動(dòng)以最大化獎(jiǎng)勵(lì)信號(hào)。智能體與環(huán)境交互,觀察結(jié)果狀態(tài)并采取行動(dòng)。然后根據(jù)結(jié)果給予智能體獎(jiǎng)勵(lì)或懲罰。隨著時(shí)間的推移,智能體將學(xué)會(huì)采取能夠帶來(lái)更積極獎(jiǎng)勵(lì)的行動(dòng)。強(qiáng)化學(xué)習(xí)在控制系統(tǒng)中有多種應(yīng)用,旨在提供動(dòng)態(tài)自適應(yīng)方法來(lái)優(yōu)化系統(tǒng)行為。一些常見(jiàn)的應(yīng)用包括:
- 自主系統(tǒng):強(qiáng)化學(xué)習(xí)用于自主控制系統(tǒng),例如自動(dòng)駕駛、無(wú)人機(jī)和機(jī)器人,以學(xué)習(xí)導(dǎo)航和決策的最佳控制策略。
- 機(jī)器人技術(shù):強(qiáng)化學(xué)習(xí)使機(jī)器人能夠?qū)W習(xí)并調(diào)整其控制策略,以完成復(fù)雜動(dòng)態(tài)環(huán)境中抓取物體、操縱和運(yùn)動(dòng)等任務(wù)。
- ......
強(qiáng)化學(xué)習(xí)(RL)工作流。
- 智能體:學(xué)習(xí)者和決策者。
- 環(huán)境:智能體與之交互的環(huán)境或?qū)嶓w。智能體觀察并采取行動(dòng),影響環(huán)境。
- 狀態(tài):對(duì)世界狀態(tài)的完整描述。智能體可以完全觀察或部分觀察狀態(tài)。
- 獎(jiǎng)勵(lì):指示智能體績(jī)效的標(biāo)量反饋。智能體的目標(biāo)是最大化長(zhǎng)期總獎(jiǎng)勵(lì)。智能體會(huì)基于獎(jiǎng)勵(lì)改變策略。
- 動(dòng)作空間:智能體可以在給定環(huán)境中執(zhí)行的一組有效動(dòng)作。有限的動(dòng)作構(gòu)成離散的動(dòng)作空間;無(wú)限的動(dòng)作構(gòu)成連續(xù)的動(dòng)作空間。
模型預(yù)測(cè)控制
模型預(yù)測(cè)控制(Model Predictive Control,MPC)是一種廣泛使用的控制策略,已應(yīng)用于許多領(lǐng)域,包括過(guò)程控制、機(jī)器人、自主系統(tǒng)等等。
MPC 的核心宗旨是使用系統(tǒng)的數(shù)學(xué)模型來(lái)預(yù)測(cè)未來(lái)的行為,然后利用該知識(shí)來(lái)產(chǎn)生控制操作,以最大化某些性能目標(biāo)。
經(jīng)過(guò)多年的不斷改進(jìn)和完善,MPC 現(xiàn)在可以處理日益復(fù)雜的系統(tǒng)和困難的控制問(wèn)題。如下圖所示,在每個(gè)控制間隔,MPC 算法計(jì)算控制范圍的開(kāi)環(huán)序列,以優(yōu)化預(yù)測(cè)范圍內(nèi)受控體(plant)的行為。
離散 MPC 方案。
MPC 在控制系統(tǒng)中的應(yīng)用包括:
- 過(guò)程工業(yè)
- 電力系統(tǒng)
- 汽車(chē)控制
- 機(jī)器人技術(shù)
其中,MPC 在機(jī)器人系統(tǒng)中用于規(guī)劃和優(yōu)化運(yùn)動(dòng)軌跡,確保機(jī)械臂和機(jī)器人平臺(tái)在各種應(yīng)用(包括制造和物流)中平穩(wěn)高效地運(yùn)動(dòng)。
下表列出了強(qiáng)化學(xué)習(xí)和 MPC 在模型、學(xué)習(xí)方法、速度、穩(wěn)健性、樣本效率、適用場(chǎng)景等方面的區(qū)別。一般來(lái)說(shuō),對(duì)于難以建?;蚓哂袕?fù)雜動(dòng)態(tài)的問(wèn)題,強(qiáng)化學(xué)習(xí)是合適的選擇。對(duì)于建模良好且動(dòng)態(tài)可預(yù)測(cè)的問(wèn)題,MPC 是一個(gè)不錯(cuò)的選擇。
MPC 的最新進(jìn)展之一是與機(jī)器學(xué)習(xí)技術(shù)的集成,即 ML-MPC。ML-MPC 采用和傳統(tǒng) MPC 不同的方法來(lái)進(jìn)行控制,使用機(jī)器學(xué)習(xí)算法來(lái)估計(jì)系統(tǒng)模型、進(jìn)行預(yù)測(cè)和生成控制動(dòng)作。它背后的主要思想是使用數(shù)據(jù)驅(qū)動(dòng)模型來(lái)克服傳統(tǒng) MPC 的局限性。
基于機(jī)器學(xué)習(xí)的 MPC 可以實(shí)時(shí)適應(yīng)不斷變化的條件,使其適用于動(dòng)態(tài)和不可預(yù)測(cè)的系統(tǒng)。與基于模型的 MPC 相比,基于機(jī)器學(xué)習(xí)的 MPC 可以提供更高的準(zhǔn)確性,尤其是在復(fù)雜且難以建模的系統(tǒng)中。
此外,基于機(jī)器學(xué)習(xí)的 MPC 可以降低模型的復(fù)雜性,使其更易于部署和維護(hù)。不過(guò),與傳統(tǒng) MPC 相比,ML-MPC 也有一些局限性,比如需要大量數(shù)據(jù)來(lái)訓(xùn)練模型、可解釋性差等等。
看來(lái),要想真正將 MPC 引入 AI 領(lǐng)域,計(jì)算機(jī)科學(xué)家們還有很長(zhǎng)的路要走。