20分鐘學(xué)會裝配電路板!開源SERL框架精密操控成功率100%,速度三倍于人類
近年來,機(jī)器人強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域取得顯著的進(jìn)展,例如四足行走,抓取,靈巧操控等,但大多數(shù)局限于實驗室展示階段。將機(jī)器人強(qiáng)化學(xué)習(xí)技術(shù)廣泛應(yīng)用到實際生產(chǎn)環(huán)境仍面臨眾多挑戰(zhàn),這在一定程度上限制了其在真實場景的應(yīng)用范圍。強(qiáng)化學(xué)習(xí)技術(shù)在實際應(yīng)用的過程中,任需克服包括獎勵機(jī)制設(shè)定、環(huán)境重置、樣本效率提升及動作安全性保障等多重復(fù)雜的問題。業(yè)內(nèi)專家強(qiáng)調(diào),解決強(qiáng)化學(xué)習(xí)技術(shù)實際落地的諸多難題,與算法本身的持續(xù)創(chuàng)新同等重要。
面對這一挑戰(zhàn),來自加州大學(xué)伯克利、斯坦福大學(xué)、華盛頓大學(xué)以及谷歌的學(xué)者們共同開發(fā)了名為高效機(jī)器人強(qiáng)化學(xué)習(xí)套件(SERL)的開源軟件框架,致力于推動強(qiáng)化學(xué)習(xí)技術(shù)在實際機(jī)器人應(yīng)用中的廣泛使用。
- 項目主頁:https://serl-robot.github.io/
- 開源代碼:https://github.com/rail-berkeley/serl
- 論文題目:SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning
SERL 框架主要包含以下幾個組件:
1、高效強(qiáng)化學(xué)習(xí)
在強(qiáng)化學(xué)習(xí)領(lǐng)域,智能體(如機(jī)器人)通過與環(huán)境的互動來掌握執(zhí)行任務(wù)的方法。它通過嘗試各種行為并根據(jù)行為結(jié)果獲得獎勵信號,從而學(xué)習(xí)出一套旨在最大化累積獎勵的策略。SERL 采用 RLPD 算法,賦能機(jī)器人同時從實時互動和之前收集的離線數(shù)據(jù)中學(xué)習(xí),大大縮短機(jī)器人掌握新技能需要的訓(xùn)練時間。
2、多樣的獎勵規(guī)定方法
SERL 提供了多種獎勵規(guī)定方法,允許開發(fā)人員根據(jù)特定任務(wù)的需求定制獎勵結(jié)構(gòu)。例如,固定位置的安裝任務(wù)可以按照機(jī)械手的位置制定獎勵,更復(fù)雜的任務(wù)可以使用分類器或 VICE 學(xué)習(xí)一個準(zhǔn)確的獎勵機(jī)制。這種靈活性有助于精確指導(dǎo)機(jī)器人學(xué)習(xí)特定任務(wù)的最有效策略。
3、無重制功能
傳統(tǒng)的機(jī)器人學(xué)習(xí)算法都需要定期重置環(huán)境,進(jìn)行下一輪交互學(xué)習(xí)。在很多任務(wù)中這無法自動實現(xiàn)。SERL 提供的無重制強(qiáng)化學(xué)習(xí)功能同時訓(xùn)練前向 - 后向兩個策略,為彼此提供環(huán)境重置。
4、機(jī)器人控制接口
SERL 提供了一系列 Franka 機(jī)械手任務(wù)的 Gym 環(huán)境接口作為標(biāo)準(zhǔn)示例,方便用戶可以輕松地將 SERL 拓展到不同的機(jī)械臂上。
5、阻抗控制器
為了確保機(jī)器人可以在復(fù)雜的物理環(huán)境中安全精確地探索與操作,SERL 為 Franka 機(jī)械臂提供了特殊的阻抗控制器,在保證準(zhǔn)確性的同時確保與外界物體接觸后不產(chǎn)生過大的力矩。
通過這些技術(shù)和方法的結(jié)合,SERL 大大縮短了訓(xùn)練時間,同時保持了高成功率和魯棒性,使機(jī)器人能夠在短時間內(nèi)學(xué)習(xí)完成復(fù)雜任務(wù),并在現(xiàn)實世界中有效應(yīng)用。
圖 1、2: SERL 和行為克隆方法在各項任務(wù)中成功率和節(jié)拍數(shù)對比。在相似數(shù)據(jù)量的情況下,SERL 的成功率要比克隆的高出數(shù)倍 (最高 10 倍),節(jié)拍數(shù)也要快上至少兩倍。
應(yīng)用案例
1、PCB 元件組裝:
在 PCB 板上裝配穿孔元件是一項常見卻又充滿挑戰(zhàn)的機(jī)器人任務(wù)。電子元件的引腳極易彎曲,而孔位與引腳之間的公差非常小,要求機(jī)器人在裝配時既要精準(zhǔn)又要輕柔。通過僅僅 21 分鐘的自主學(xué)習(xí),SERL 使機(jī)器人達(dá)到了 100% 的任務(wù)完成率。即便面臨如電路板位置移動或視線部分被遮擋等未知的干擾,機(jī)器人也能穩(wěn)定完成裝配工作。
圖 3、4、5:在執(zhí)行電路板元件安裝任務(wù)時,機(jī)器人能夠應(yīng)對在訓(xùn)練階段未曾遇到的各種干擾,順利完成任務(wù)。
2、電纜布線:
在許多機(jī)械和電子設(shè)備的組裝過程中,我們需要將電纜沿著特定的路徑精確地安裝到位,這一任務(wù)對精度和適應(yīng)性提出了很高的要求。由于柔性電纜在布線過程中容易產(chǎn)生形變,而且布線過程可能會受到各種干擾,比如電纜被意外移動或者夾持器位置的變化,這導(dǎo)致使用傳統(tǒng)的非學(xué)習(xí)型方法難以應(yīng)對。SERL 能夠在短短 30 分鐘內(nèi)實現(xiàn) 100% 的成功率。即便是在夾持器位置與訓(xùn)練期間不同時,機(jī)器人也能夠泛化其學(xué)習(xí)到的技能,適應(yīng)新的布線挑戰(zhàn),確保布線工作的正確執(zhí)行。
圖 6、7、8:機(jī)器人無需更多的專項訓(xùn)練也能直接把線纜穿過與訓(xùn)練時位置不一樣的夾子里。
3、物體抓取擺放操作:
在倉庫管理或零售業(yè)中,機(jī)器人經(jīng)常需要將物品從一個地方移動到另一個地方,這要求機(jī)器人能夠識別并搬運特定的物品。強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,很難對欠驅(qū)動的物體進(jìn)行自動的歸位重置。利用 SERL 的無重置強(qiáng)化學(xué)習(xí)功能,機(jī)器人在 1 小時 45 分鐘內(nèi)同時學(xué)習(xí)兩個 100/100 成功率的策略。用前向策略把物體從 A 箱放到 B 箱,再用后向策略把物體從 B 箱歸為回 A 箱。
圖 9、10、11:SERL 訓(xùn)練了兩套策略,一個把物體從右邊搬運到左邊,一個從左邊放回右邊。機(jī)器人不僅在訓(xùn)練物體上達(dá)到 100% 成功率,就連沒見過的物體也能智能搬運。
主要作者
1. Jianlan Luo
Jianlan Luo 目前是加州大學(xué)伯克利分校電子與計算機(jī)科學(xué)系的一名博士后學(xué)者,他在伯克利人工智能中心 (BAIR) 與 Sergey Levine 教授合作。他的主要研究興趣在于機(jī)器學(xué)習(xí),機(jī)器人學(xué),以及最優(yōu)控制。在回到學(xué)術(shù)界前,他是 Google X 的一名全職研究員,與 Stefan Schaal 教授合作。在此之前,他在加州大學(xué)伯克利分校取得計算機(jī)科學(xué)碩士學(xué)位,機(jī)械工程博士學(xué)位;此間他與 Alice Agogino 教授,Pieter Abbeel 教授一起工作。他也曾在 Deepmind 倫敦總部擔(dān)任訪問研究學(xué)者。
2. Zheyuan Hu
他本科畢業(yè)于加州大學(xué)伯克利的計算機(jī)科學(xué)和應(yīng)用數(shù)學(xué)專業(yè)。目前,他在由 Sergey Levine 教授領(lǐng)導(dǎo)的 RAIL 實驗室進(jìn)行研究。他對機(jī)器人學(xué)習(xí)領(lǐng)域有濃厚的興趣,專注于開發(fā)能夠使機(jī)器人在真實世界中迅速且廣泛地掌握靈巧操作技能的方法。
3. Charles Xu
他是加州大學(xué)伯克利分校的一名電氣工程與計算機(jī)科學(xué)專業(yè)的四年級本科生。目前,他在由 Sergey Levine 教授領(lǐng)導(dǎo)的 RAIL 實驗室進(jìn)行研究。他的研究興趣位于機(jī)器人技術(shù)與機(jī)器學(xué)習(xí)的交匯處,旨在構(gòu)建高魯棒性且具有泛化能力的自主操控系統(tǒng)。
4. You Liang Tan
他是伯克利 RAIL 實驗室的研究員工程師,由 Sergey Levine 教授指導(dǎo)。他先前在新加坡南洋理工大學(xué)獲得了學(xué)士學(xué)位和美國佐治亞理工學(xué)院完成了碩士學(xué)位。在此之前,他曾是開源機(jī)器人基金會(Open Robotics)的一員。他的工作專注于機(jī)器學(xué)習(xí)和機(jī)器人軟件技術(shù)在真實世界應(yīng)用。
5. Stefan Schaal
他于 1991 年在德國慕尼黑的慕尼黑技術(shù)大學(xué)獲得機(jī)械工程和人工智能方面的博士學(xué)位。他是麻省理工學(xué)院大腦與認(rèn)知科學(xué)部及人工智能實驗室的博士后研究員,日本 ATR 人類信息處理研究實驗室的特邀研究員,以及美國佐治亞理工學(xué)院和賓夕法尼亞州立大學(xué)運動學(xué)系的兼職助理教授。在日本 ERATO 項目期間,他還擔(dān)任計算學(xué)習(xí)小組組長,該項目為川人動態(tài)大腦項目(ERATO/JST)。1997 年,他成為南加州大學(xué)計算機(jī)科學(xué)、神經(jīng)科學(xué)和生物醫(yī)學(xué)工程教授,并晉升為終身教授。他的研究興趣包括統(tǒng)計與機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與人工智能、計算神經(jīng)科學(xué)、功能性腦成像、非線性動力學(xué)、非線性控制理論、機(jī)器人學(xué)及仿生機(jī)器人等主題。
他是德國馬克斯?普朗克智能系統(tǒng)研究所的創(chuàng)始董事之一,在那里他多年領(lǐng)導(dǎo)了自主運動部門。他目前是 Alphabet [Google] 的新機(jī)器人子公司 Intrinsic 的首席科學(xué)家。Stefan Schaal 是 IEEE Fellow。
6. Chelsea Finn
她是斯坦福大學(xué)計算機(jī)科學(xué)與電氣工程的助理教授。她的實驗室 IRIS 研究通過大規(guī)模機(jī)器人互動來探索智能,該實驗室隸屬于 SAIL 和 ML Group。她也是 Google Brain 團(tuán)隊的一員。她對機(jī)器人和其他智能體通過學(xué)習(xí)和互動發(fā)展出廣泛智能行為的能力感興趣。此前,她在加州大學(xué)伯克利分校完成了計算機(jī)科學(xué)博士學(xué)位,以及在麻省理工學(xué)院獲得了電氣工程與計算機(jī)科學(xué)學(xué)士學(xué)位。
7. Abhishek Gupta
他是華盛頓大學(xué)保羅?G?艾倫計算機(jī)科學(xué)與工程學(xué)院的助理教授,領(lǐng)導(dǎo) WEIRD 實驗室。此前,他在麻省理工學(xué)院作為博士后學(xué)者,與 Russ Tedrake 和 Pulkit Agarwal 合作。他在加州大學(xué)伯克利分校的 BAIR 完成了關(guān)于機(jī)器學(xué)習(xí)與機(jī)器人學(xué)的博士學(xué)位,期間受到 Sergey Levine 教授和 Pieter Abbeel 教授的指導(dǎo)。在此之前,他也在加州大學(xué)伯克利分校完成了他的學(xué)士學(xué)位。他的主要研究目標(biāo)是開發(fā)算法,使機(jī)器人系統(tǒng)能夠?qū)W會在各種非結(jié)構(gòu)化環(huán)境中執(zhí)行復(fù)雜任務(wù),如辦公室和家庭。
8. Sergey Levine
他是加州大學(xué)伯克利分校電氣工程與計算機(jī)科學(xué)系的副教授。他的研究專注于能夠使自主智能體通過學(xué)習(xí)獲得復(fù)雜行為的算法,特別是那些能夠使任何自主系統(tǒng)學(xué)會解決任何任務(wù)的通用方法。這些方法的應(yīng)用包括機(jī)器人技術(shù),以及需要自主決策的其他一系列領(lǐng)域。