憑借Google新算法,機(jī)器人自學(xué)行走平均只需3.5小時
圖為 Rainbow Dash 在鏤空門墊上運(yùn)動
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
在機(jī)器人領(lǐng)域,讓機(jī)器人保持站立并進(jìn)行平穩(wěn)的運(yùn)動一直是一個棘手的挑戰(zhàn),因為這需要超高的專業(yè)知識和設(shè)計水平。盡管一些傳統(tǒng)的機(jī)器人能在人工控制的情況下完成站立和運(yùn)動,但它們的活動范圍也充滿了各種局限性。
為了解決這個問題,Google 近日和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員聯(lián)合發(fā)表了一篇論文,詳細(xì)介紹了他們?nèi)绾纬晒Φ貥?gòu)建了一個通過 AI 以自學(xué)走路的機(jī)器人。他們給這只四足小機(jī)器人起了個可愛的代號“Rainbow Dash”。
根據(jù)世界紀(jì)錄,嬰兒從爬行到學(xué)會行走的最快速度是 6 個月,而根據(jù)論文中的測試數(shù)據(jù)顯示,Rainbow Dash 平均只需要大約 3.5 小時來學(xué)習(xí)向前、向后和左右轉(zhuǎn)彎等運(yùn)動——在堅硬平坦的地面上,該機(jī)器人學(xué)習(xí)走路需要 1.5 個小時,在由記憶海綿材質(zhì)的床墊上大約需要 5.5 個小時,在鏤空的地毯上大約需要 4.5 個小時。
具體來說,該機(jī)器人使用深度強(qiáng)化學(xué)習(xí),即結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種不同類型的 AI 技術(shù)。通過深度學(xué)習(xí),系統(tǒng)可以處理和評估來自其身處環(huán)境的原始輸入數(shù)據(jù);通過強(qiáng)化學(xué)習(xí),算法可以反復(fù)試驗,以學(xué)習(xí)如何執(zhí)行任務(wù),并根據(jù)完成的程度來獲得獎勵和懲罰。也就是說,通過上述的這種方式,機(jī)器人便可以在其不了解環(huán)境中實現(xiàn)自動控制策略。
在以往的此類實驗中,研究人員最初都會讓機(jī)器人通過模擬來學(xué)習(xí)真實世界的環(huán)境。在仿真環(huán)境中,機(jī)器人的虛擬體首先與虛擬環(huán)境進(jìn)行交互,然后,算法接收這些虛擬數(shù)據(jù),直到系統(tǒng)有能力對這些數(shù)據(jù)“應(yīng)對自如”,一個搭載系統(tǒng)的物理形態(tài)的機(jī)器人才會被放置到現(xiàn)實環(huán)境中進(jìn)行實驗。這種方法有助于避免在試錯過程中對機(jī)器人及其周圍環(huán)境造成損害。
不過,環(huán)境雖然容易建模,但通常耗時長,而且現(xiàn)實環(huán)境中充滿了各種意想不到的情況,因此,在模擬環(huán)境中訓(xùn)練機(jī)器人的意義有限。畢竟,此類研究的最終目標(biāo)恰恰是讓機(jī)器人為現(xiàn)實世界的場景做好準(zhǔn)備。
Google 和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員并沒有“守舊”。在他們的實驗中,從一開始就在真實環(huán)境中對 Rainbow Dash 進(jìn)行訓(xùn)練,這樣一來,機(jī)器人不僅能夠很好地適應(yīng)自己所處的環(huán)境,也能夠更好地適應(yīng)相似的環(huán)境。
盡管 Rainbow Dash 能夠獨立運(yùn)動,這并不代表研究人員可以對其“撒手不管”。在一個環(huán)境中學(xué)習(xí)行走的最開始,研究人員仍需要對 Rainbow Dash 手動干預(yù)上百次。為了解決這個問題,研究人員限定了機(jī)器人運(yùn)動的環(huán)境,讓其一次性進(jìn)行多重動作訓(xùn)練。
在 Rainbow Dash 自學(xué)行走之后,研究人員可以通過連入控制手柄來操控機(jī)器人實現(xiàn)理想的運(yùn)動軌跡,將機(jī)器人控制在設(shè)定的環(huán)境內(nèi)。此外,機(jī)器人在識別到環(huán)境的邊界后,也會自動往回走。在特定的環(huán)境之外,機(jī)器人可能會重復(fù)摔倒導(dǎo)致機(jī)器損壞,那時候就需要另一個硬編碼算法來幫助機(jī)器人站起來。
Google 在該研究中的負(fù)責(zé)人 Jan Tan 告訴媒體,這項研究花費(fèi)了大約一年的時間才完成。他說道:
我們有興趣讓機(jī)器人能夠在各種復(fù)雜的現(xiàn)實世界環(huán)境中運(yùn)動。不過,要設(shè)計出能夠靈活處理多樣性和復(fù)雜性的運(yùn)動控制器十分困難。
雷鋒網(wǎng)了解到,接下來,研究人員希望他們的算法能適用于不同種類的機(jī)器人,或適用于多個機(jī)器人在同一環(huán)境中同時進(jìn)行學(xué)習(xí)。研究人員相信,破解機(jī)器人的運(yùn)動能力將是解鎖更多實用機(jī)器人的關(guān)鍵——人類用腿來走路,如果機(jī)器人不會使用腿,它們就不能在人類世界中行走。
然而,讓機(jī)器人在人類世界中行走是一個至關(guān)重要的課題,它們可以代替人類探索地球上不同的地形或未被人類探索過的地區(qū),比如太空。但由于該機(jī)器人依賴于安裝在其上方的動作捕捉系統(tǒng)來確定位置,該裝置暫時還不能直接用于現(xiàn)實世界。