自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

25分鐘訓(xùn)練機(jī)器人學(xué)會(huì)6個(gè)動(dòng)作,伯克利開發(fā)高效機(jī)器人操縱框架

新聞 人工智能
這是來自加州大學(xué)伯克利分校的一項(xiàng)新研究——高效機(jī)器操作框架Framework for Efficient Robotic Manipulation(FERM),專門對(duì)機(jī)械臂進(jìn)行高效率操作的算法訓(xùn)練。

 本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

這個(gè)機(jī)械臂正在完成夠、拿、移、推、點(diǎn)、開等6個(gè)動(dòng)作。

而且動(dòng)作嫻熟,還不存在失誤。

更令人意外的是,訓(xùn)練這個(gè)機(jī)械臂,只花了短短25分鐘。

即使有人為干擾,它也能夠成功完成抓取動(dòng)作。

還能抓起以前沒有見過的物體形狀。

這就是來自加州大學(xué)伯克利分校的一項(xiàng)新研究——高效機(jī)器操作框架Framework for Efficient Robotic Manipulation(FERM),專門對(duì)機(jī)械臂進(jìn)行高效率操作的算法訓(xùn)練。

FERM為什么比其他方法效率高?

目前來看,大多數(shù)針對(duì)機(jī)器人訓(xùn)練的的RL算法效率都不是很好。

采用稀疏獎(jiǎng)勵(lì)的方法訓(xùn)練Dota5游戲的人機(jī)操作,使之成為達(dá)到人類玩家的高手水平,需要花180年的游戲時(shí)間。

訓(xùn)練一個(gè)機(jī)械臂的手勢(shì),則需要上千萬的模擬學(xué)習(xí)的樣本和兩周的訓(xùn)練時(shí)間。

Sim2Real模擬學(xué)習(xí)這兩個(gè)方法稍微好點(diǎn)。Sim2Real需要接受模擬訓(xùn)練,再將訓(xùn)練結(jié)果運(yùn)用到現(xiàn)實(shí)事例中。

模擬學(xué)習(xí)則需要通過一系列的專業(yè)訓(xùn)練示范案例和監(jiān)督學(xué)習(xí),才能得出最后的訓(xùn)練策略,實(shí)驗(yàn)結(jié)果非常依賴于輸入示范案例的質(zhì)量。

FERM優(yōu)勢(shì)在于,既沒有依靠模擬訓(xùn)練轉(zhuǎn)換到現(xiàn)實(shí),也不用高度依賴于輸入的示范案例的質(zhì)量。

而是基于非監(jiān)督性表征學(xué)習(xí)和數(shù)據(jù)擴(kuò)張技術(shù),使用了pixel-based RL。

因此,它僅僅需要10個(gè)Demo,25分鐘的訓(xùn)練時(shí)間,就可以讓機(jī)器人學(xué)會(huì)六個(gè)動(dòng)作。

FERM具體怎么訓(xùn)練?

FERM采用了基于像素的強(qiáng)化學(xué)習(xí)(pixel-based RL)方法。

具體而言,先收集小部分演示數(shù)據(jù),并且將這些數(shù)據(jù)存放在“回放緩沖區(qū)”上。

然后,用觀察結(jié)果結(jié)合對(duì)比損失量,來對(duì)編碼器進(jìn)行預(yù)訓(xùn)練。

而后,編碼器和“回放緩沖區(qū)”運(yùn)用一種線下的數(shù)據(jù)來加強(qiáng)RL算法,對(duì)RL智能體進(jìn)行訓(xùn)練。

在論文中,研究人員總結(jié)了FERM主要優(yōu)點(diǎn):

1、高效率:FERM可以學(xué)習(xí)6種不同操作任務(wù)的最優(yōu)策略,在15-50分鐘的訓(xùn)練時(shí)間內(nèi)完成每項(xiàng)任務(wù)。

2、簡(jiǎn)單統(tǒng)一的框架:框架結(jié)合現(xiàn)有的組成部分,將無監(jiān)督的預(yù)訓(xùn)練和在線RL與數(shù)據(jù)擴(kuò)充成一個(gè)單一高效的框架。

3、常規(guī)輕量設(shè)置:實(shí)施起來只需要一個(gè)機(jī)器人、一個(gè)GPU、兩個(gè)攝像頭、幾個(gè)演示,以及稀疏獎(jiǎng)勵(lì)函數(shù)等等。

具體的實(shí)驗(yàn)結(jié)果如何?

實(shí)驗(yàn)結(jié)果

這項(xiàng)實(shí)驗(yàn)采用像素觀察的方法執(zhí)行了一系列任務(wù)。下圖的每一欄顯示了初始、中間、結(jié)果等三個(gè)狀態(tài)。只有當(dāng)機(jī)器人完成任務(wù)時(shí),才會(huì)獲得稀疏獎(jiǎng)勵(lì)。

這個(gè)訓(xùn)練算法的效率可謂很高了。具體完成時(shí)間如下圖表格所示,在30分鐘左右,它就可以讓機(jī)器人學(xué)習(xí)操作任務(wù)。而簡(jiǎn)單的“夠”(Reach)動(dòng)作,則只需要三分鐘。

實(shí)驗(yàn)結(jié)果稱,它不需要很多的Demo,也不需要到大量的設(shè)備,首次完成任務(wù)的平均時(shí)間為11分鐘,并且可以在25分鐘內(nèi)訓(xùn)練出6個(gè)機(jī)械動(dòng)作。

所以研究人員驕傲地說:

“據(jù)我們所知,F(xiàn)ERM是第一個(gè)能在不到一小時(shí)的時(shí)間內(nèi),能通過像素點(diǎn)直接完成來自不同組、采用稀疏獎(jiǎng)勵(lì)方法的機(jī)器操作任務(wù)。”

而根據(jù)相關(guān)報(bào)告,未來十年,制造業(yè)將需要460萬個(gè)崗位。許多制造商也都在轉(zhuǎn)向自動(dòng)化生產(chǎn),機(jī)械自動(dòng)化將占比越來越高。FERM這樣的高效訓(xùn)練框架,可謂是制造業(yè)福音。

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-01-15 13:14:03

機(jī)器人算法SAC

2024-08-19 14:05:00

2024-03-26 15:43:00

訓(xùn)練數(shù)據(jù)機(jī)器人

2022-10-28 13:16:07

四足機(jī)器人機(jī)器人人工智能

2017-03-27 09:59:25

機(jī)器人自創(chuàng)語言交流

2019-12-24 09:31:55

機(jī)器人人工智能編程

2023-07-29 13:14:40

谷歌人工智能

2025-04-09 09:34:00

2017-07-24 09:02:27

2024-02-21 12:20:00

AI訓(xùn)練

2022-08-27 15:10:36

Ameca機(jī)器人模仿

2022-10-21 17:30:26

機(jī)器人

2022-03-23 10:52:07

機(jī)器人神經(jīng)網(wǎng)絡(luò)系統(tǒng)

2020-10-15 15:42:00

人工智能

2021-03-30 17:51:25

機(jī)器人系統(tǒng)聊天

2022-06-30 17:53:56

機(jī)器狗智能

2024-10-29 15:20:00

強(qiáng)化學(xué)習(xí)模型

2025-02-08 12:45:08

2021-07-12 13:02:50

機(jī)器人人工智能算法

2024-01-31 13:51:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)