從觀察、思考到行動,深度強(qiáng)化學(xué)習(xí)大牛Pieter Abbeel談如何馴服機(jī)器人
人類的大腦具有學(xué)習(xí)新事物的能力,而且學(xué)習(xí)方式多種多樣,從模仿他人到觀看在線解說視頻,不一而足。如果機(jī)器人也能這樣做呢?2021 年 ACM 計算獎獲得者 Pieter Abbeel 的職業(yè)生涯一直在研究這個問題。
Pieter Abbeel 是 Covariant 的創(chuàng)始人之一。Covariant 是一家人工智能機(jī)器人公司,致力于構(gòu)建一個通用的人工智能,使機(jī)器人能夠在現(xiàn)實(shí)世界中學(xué)習(xí)和操作,以協(xié)助人類完成繁重和勞累的任務(wù),尤其是在倉儲和物流行業(yè)中。
Covariant 的創(chuàng)始人陳曦、Pieter Abbeel、段巖、張?zhí)旌疲◤淖蟮接遥?/span>
通過與倉儲公司的合作,Covariant 的核心技術(shù)「Covariant Brain」能夠接觸到大量現(xiàn)實(shí)生活中物體,從數(shù)百萬次的拾取任務(wù)中學(xué)習(xí)。Covariant Brain 能夠使機(jī)器人看、思考并行動。在學(xué)習(xí)過程中不僅學(xué)習(xí)既有動作,還通過學(xué)會如何學(xué)習(xí)(元學(xué)習(xí))來抓取任何不熟悉的物品,無論形狀、大小或包裝如何。
最近,ACM 邀請到 Pieter Abbeel,聊一聊有關(guān)他的工作,以及那些他為更輕松「教」機(jī)器人學(xué)習(xí)而開發(fā)的技術(shù)。以下為機(jī)器之心對本次訪談進(jìn)行了不改變原意的編譯與整理。
ACM:讓我們從深度強(qiáng)化學(xué)習(xí)和你開發(fā)的名為 「信賴域策略優(yōu)化 」的方法開始。這種方法是如何工作的,你又是如何開發(fā)出來的?
Pieter Abbeel:過去,要把機(jī)器人放在某個地方,比如汽車廠或電子廠。這時你需要把機(jī)器人周圍的環(huán)境布置好,讓一切以完全相同的方式重復(fù)一遍又一遍。然后,用某種固定的動作序列對機(jī)器人進(jìn)行編程,這樣就能完成任務(wù)了。這對于結(jié)構(gòu)化的環(huán)境非常有效,但當(dāng)在可預(yù)測性稍差的環(huán)境中,我們就無能為力了。
我一直認(rèn)為,當(dāng)機(jī)器人能夠適應(yīng)不同環(huán)境時,就會發(fā)生重大變革。而要做到這一點(diǎn),就意味著機(jī)器人必須具備學(xué)習(xí)能力。
ACM:那么如何讓機(jī)器人學(xué)習(xí)呢?
Pieter Abbeel:這是我取得博士學(xué)位之后一直在研究的問題。從根本上說,主要有兩種方法,它們相輔相成:一種是模仿學(xué)習(xí)或?qū)W徒學(xué)習(xí),另一種是強(qiáng)化學(xué)習(xí)。
在模仿學(xué)習(xí)中,你告訴機(jī)器人該做什么,機(jī)器人就會從你的例子中學(xué)會做這件事。這很好,因為當(dāng)你想讓機(jī)器人做某件事時,你通常較為準(zhǔn)確地知道需要它做些什么。但挑戰(zhàn)在于,你需要給機(jī)器人提供大量的示例,這樣它才能在面對新場景時進(jìn)行歸納總結(jié),并完成任務(wù)。這可能會變得非常耗時,并且一旦環(huán)境發(fā)生變化,總會有一些內(nèi)容超出你所給出例子的范圍。
ACM:強(qiáng)化學(xué)習(xí)是什么?
Pieter Abbeel:強(qiáng)化學(xué)習(xí)是關(guān)于試錯的。在這種方法中,不需要向機(jī)器人展示該做什么,機(jī)器人只是不斷嘗試,然后系統(tǒng)會告訴它是否成功。因此原則上,你需要先通過模仿學(xué)習(xí)向機(jī)器人展示該做什么,然后讓機(jī)器人不斷試錯,從而學(xué)習(xí)。
ACM:2012 年,ACM 圖靈獎獲得者 Geoff Hinton 證明,只要有足夠的視覺數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練后就能表現(xiàn)出前所未有的模式識別能力。我想這啟發(fā)了你,使你的強(qiáng)化學(xué)習(xí)框架中的模式識別功能更加強(qiáng)大。
Pieter Abbeel:在強(qiáng)化學(xué)習(xí)中,機(jī)器人會自己做一些事情,但它仍然需要識別好的運(yùn)行模式與差的運(yùn)行模式有何不同。我和我的學(xué)生 John Schulman 開始嘗試使用深度神經(jīng)網(wǎng)絡(luò),看看能否改進(jìn)強(qiáng)化學(xué)習(xí)算法中的模式識別器。但事實(shí)證明,強(qiáng)化學(xué)習(xí)算法比標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)要脆弱得多。在監(jiān)督學(xué)習(xí)中,有一個輸入,輸出是一個標(biāo)簽,你只需要識別模式。而在強(qiáng)化學(xué)習(xí)中,機(jī)器人需要在從未運(yùn)行過的情況下學(xué)會運(yùn)行。在這過程中,信號不多,噪音很大。
ACM:因此,你嘗試既要提高模式識別,又要讓算法更加穩(wěn)定。
Pieter Abbeel:我們需要能夠保證機(jī)器人在持續(xù)改進(jìn)。如果機(jī)器人觀察最近的經(jīng)驗,它將更新模式識別器。而模式識別器是一種神經(jīng)網(wǎng)絡(luò)策略,用于接收當(dāng)前的傳感器輸入并生成電機(jī)指令。我們知道,如果能想出一種方法讓機(jī)器人在每一步都能持續(xù)改進(jìn),那么就有了利用這些龐大神經(jīng)網(wǎng)絡(luò)進(jìn)行強(qiáng)化學(xué)習(xí)的真正基礎(chǔ)。
ACM:這就是信賴域策略優(yōu)化的作用所在了。
Pieter Abbeel:在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,我們會進(jìn)行一系列試驗,然后計算梯度,找出進(jìn)步最大的方向。信賴域策略優(yōu)化定義了一個信賴區(qū)域:一個我們知道可以信賴梯度的區(qū)域。梯度是 landscape 的一階線性近似值。我們知道 landscape 不是線性的,但在局部它能夠以這種方式近似為線性。因此,我和 John Schulman 想出了一種方法,來量化可以信賴這種線性近似的區(qū)域。接下來,我們只需在該區(qū)域內(nèi)邁出一步,就能保證改進(jìn)效果。
ACM:重復(fù)這樣做,你就為強(qiáng)化訓(xùn)練打下了值得信賴的基礎(chǔ)。
Pieter Abbeel:沒錯!我們在 YouTube 上有一段視頻 ,你可以在視頻中看到整個過程。機(jī)器人只是不斷嘗試,不斷摔倒,但隨著時間的推移,它真的開始運(yùn)行了。學(xué)習(xí)的妙處在于,一旦你有了學(xué)習(xí)算法,你就不需要重新編程,只需再次運(yùn)行學(xué)習(xí)算法,它就能學(xué)會在新情況下需要什么。
視頻來源:https://bit.ly/3nZrQhs
ACM:你創(chuàng)立的公司 Covariant 正試圖通過制造一個通用的機(jī)器人大腦來商業(yè)化這個想法。
Pieter Abbeel:我們的目標(biāo)是提出一種方法,使機(jī)器人能夠在學(xué)習(xí)什么以及如何學(xué)習(xí)方面通用。當(dāng)然,機(jī)器人不能通過學(xué)習(xí)過操作堆樂高積木然后學(xué)會飛行,堆積木并不是學(xué)習(xí)飛行的正確數(shù)據(jù)集,但是代碼可以是相同的。就像人類學(xué)習(xí)如何騎自行車或駕駛汽車,在人腦中,思路都是一樣的。
ACM:Covariant 也在為商業(yè)應(yīng)用構(gòu)建機(jī)器人,特別是倉儲取放機(jī)器人。
Pieter Abbeel:我們可以賦予機(jī)器人超越預(yù)先編程的固定動作序列的新技能,即使它們不是完全通用的。從我們的學(xué)術(shù)研究中我們知道這是可能的,我們開始考慮創(chuàng)建 Covariant。我們想到,機(jī)器人現(xiàn)在應(yīng)該具備有用性。另外,我們的產(chǎn)品開發(fā)是數(shù)據(jù)驅(qū)動的,如果想要收集大量的數(shù)據(jù),則需要制造出真正能激發(fā)人們購買需要的機(jī)器人。
ACM:當(dāng)你在 2017 年創(chuàng)建 Covariant 時,自動駕駛汽車獲得了大量的資金。是什么吸引了投入倉儲取放機(jī)器人?
Pieter Abbeel:我們希望找到一個領(lǐng)域,它不需要實(shí)時干預(yù),而是在極少數(shù)情況下才需要人工支持。實(shí)時人工干預(yù)很昂貴,無法體現(xiàn)機(jī)器人做事的價值。使用機(jī)器人操作,你仍然需要非常高的精度,但一旦機(jī)器人沒有像預(yù)期的那樣運(yùn)行,就會有人介入并進(jìn)行快速修復(fù)。
我們研究了許多不同的公司、行業(yè)和應(yīng)用,最后我們把目光集中在倉儲上,因為它似乎是一個自然而然的起點(diǎn),原因有二。首先,取放是機(jī)器人幾乎所有操作的基礎(chǔ)。第二,這是一個快速發(fā)展的行業(yè),真正需要自動化來支持我們所有的在線傳送。在拾取和放置過程中沒有自動化,這種非常重復(fù)的工作是對人類來說是很傷腦筋的。
ACM:你還與人共同教授一門關(guān)于 AI 業(yè)務(wù)的課程。你從向非專業(yè)人士教授 AI 中發(fā)現(xiàn)了什么?
Pieter Abbeel:我決定教授這門課程的原因之一是,我認(rèn)為對 AI 的基本了解對做出商業(yè)決策很重要。許多公司將以某種方式使用 AI 人工智能,無論是在內(nèi)部開發(fā)還是購買某種服務(wù)。商業(yè)專業(yè)的學(xué)生必須能夠理解今天可能發(fā)生的事情,以及在不久的將來可能發(fā)生的事情,以及如何評估不同的系統(tǒng)。
這很有趣,因為對于從未真正研究過 AI 的人來說,這有點(diǎn)像解釋一個魔術(shù)。就其核心而言,AI 是很好解釋的。如果你想把它推向下一個技術(shù)前沿,你需要大量的訓(xùn)練,但理解基本概念并不需要多年的學(xué)習(xí)。