自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="j6nlt"></meter>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

作者：明敏 2022-06-30 17:53:56

人工智能新聞

這是UC伯克利大學(xué)帶來的最新成果，讓機(jī)器人直接在實際環(huán)境中訓(xùn)練學(xué)習(xí)，不再依賴于模擬器。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

現(xiàn)在，讓機(jī)械狗自己打滾一個小時，它就能學(xué)會走路了！

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

步態(tài)看著相當(dāng)有模有樣：

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

還能扛住大棍子的一通狂懟：

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

就算是摔了個四仰八叉，翻個身自己又站起來了：

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

如此看來，訓(xùn)機(jī)械狗和普通訓(xùn)狗真是要沒什么兩樣了啊。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

這就是UC伯克利大學(xué)帶來的最新成果，讓機(jī)器人直接在實際環(huán)境中訓(xùn)練學(xué)習(xí)，不再依賴于模擬器。

應(yīng)用這一方法，研究人員在短時間內(nèi)訓(xùn)練出了4個機(jī)器人。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

比如開頭看到的1小時學(xué)會走路的機(jī)械狗；

還有2個機(jī)械臂，在8-10小時實戰(zhàn)抓取后，表現(xiàn)接近于人類水平；

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

以及一個擁有計算機(jī)視覺的小機(jī)器人，在自己摸索2小時后，能絲滑地滾動到指定位置。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

該研究由Pieter Abbeel等人提出，Pieter Abbeel是吳恩達(dá)的第一位博士生，前不久他剛剛獲得2021 ACM 計算獎（ACM Prize in Computing）。

目前，該方法的所有軟件基礎(chǔ)架構(gòu)已經(jīng)開源。

一個叫做“空想家”的算法

本文方法的pipeline大致可分為4步：

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

第一步，是先把機(jī)器人放在真實環(huán)境里，收集數(shù)據(jù)。

第二步，把這些數(shù)據(jù)傳輸?shù)絉eplay Buffer。這一步驟就是利用歷史數(shù)據(jù)進(jìn)行訓(xùn)練、“總結(jié)經(jīng)驗”，高效利用收集到的樣本。

第三步，World Model會對已有經(jīng)驗進(jìn)行學(xué)習(xí)，然后“腦補(bǔ)”出策略。

第四步，再用演員評論家（Actor Critic）算法來提升策略梯度法的性能。

然后循環(huán)往復(fù)，將已經(jīng)提煉出的辦法再使用到機(jī)器人身上，最后達(dá)到一種“自己摸索學(xué)習(xí)”的感覺。

具體來看，這里的核心環(huán)節(jié)是World Model。

World Models是2018年由DAVID HA等人提出的一種快速無監(jiān)督學(xué)習(xí)方式，獲得了NIPS 2018的Oral Presentation。

它的核心理念是認(rèn)為人類是基于已有經(jīng)驗，形成了一個心理世界模型，我們所做的決定和行動都是基于這個內(nèi)部模型。

比如人類在打棒球時，做出反應(yīng)的速度遠(yuǎn)比視覺信息傳達(dá)到大腦中的快，那么在這種情況下還能正確回球的原因，就是因為大腦已經(jīng)做出了本能的預(yù)測。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

此前，基于World Model這種“腦補(bǔ)”的學(xué)習(xí)方法，谷歌提出了Dreamer這種可擴(kuò)展的強(qiáng)化學(xué)習(xí)方法。

這一次提出的方法是在此基礎(chǔ)上，叫做DayDreamer。

（貌似可以叫做空想家？）

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

具體來看，World Model就是一個智能體模型。

它包括一個視覺感知組件，能將看到的圖像壓縮成一個低維的表征向量作為模型輸入。

同時還有一個記憶組件，可以基于歷史信息，對未來的表征向量做出預(yù)測。

最后，還包括一個決策組件，它能基于視覺感知組件、決策組件的表征向量，決定采取怎樣的動作。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

現(xiàn)在，我們回到本次UC伯克利學(xué)者提出的方法。

不難發(fā)現(xiàn)，其中World Model Learning部分的邏輯就是一個經(jīng)驗積累的過程，Behavior Learning部分則是一個動作輸出的過程。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

本篇論文方法的提出，主要解決了機(jī)器人訓(xùn)練中兩方面的問題：

效率和準(zhǔn)確率。

一般來說，訓(xùn)練機(jī)器人的常規(guī)方法是強(qiáng)化學(xué)習(xí)，通過反復(fù)實驗來調(diào)整機(jī)器人的運(yùn)作。

不過這種方法往往需要非常大量的測試，才能達(dá)到很好的效果。

不僅效率低下，而且訓(xùn)練需要付出的成本也不低。

后來，不少人提出在模擬器中對機(jī)器人進(jìn)行訓(xùn)練，可以很好增效降本。

但是本文作者認(rèn)為，模擬器訓(xùn)練方法在準(zhǔn)確性方面的表現(xiàn)還是不夠好，只有真實的環(huán)境才能讓機(jī)器人達(dá)到最好的效果。

從結(jié)果來看，在訓(xùn)練機(jī)器狗的過程中，只花10分鐘時間，機(jī)器狗就能適應(yīng)自己的行為了。

和SAC方法對比來看，效果有明顯提升。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

在機(jī)械臂訓(xùn)練過程中，這一新方法還克服了視覺定位和稀疏獎勵的挑戰(zhàn)，幾小時內(nèi)的訓(xùn)練成果明顯優(yōu)于其他方法。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

研究團(tuán)隊

值得一提的是，本次帶來新成果的研究團(tuán)隊成員，也非常令人矚目。

其中，Pieter Abbeel是吳恩達(dá)的開山大弟子。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

他現(xiàn)在是UC伯克利電氣工程和計算機(jī)科學(xué)教授，伯克利機(jī)器人學(xué)習(xí)實驗室主任，伯克利AI研究院共同主任，曾加入過OpenAI。

前不久，他還獲得了2021 ACM 計算獎（ACM Prize in Computing），以表彰其在機(jī)器人學(xué)習(xí)方面的貢獻(xiàn)。

與此同時，他還是AI機(jī)器人公司Covariant的聯(lián)合創(chuàng)始人。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

另一位Ken Goldberg，也是AI領(lǐng)域的頂級專家。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

他現(xiàn)在是UC伯克利工程教授，研究方向為強(qiáng)化學(xué)習(xí)、人機(jī)交互等。

2005年，他被評選為IEEE院士。

與此同時，Goldberg還是一位藝術(shù)家，是UC伯克利藝術(shù)、科技文化研討會的奠基人。

此外，Philipp Wu、Alejandro Escontrela、Danijar Hafner三人為共同一作。

其中Philipp Wu還只是UC伯克利一位大四的學(xué)生。

One More Thing

在觀看機(jī)械狗訓(xùn)練的視頻時，我們發(fā)現(xiàn)研究人員使用的是Unitree機(jī)械狗。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

這個品牌來自中國企業(yè)宇樹科技，之前登上過春晚的機(jī)器小牛，也來自它家。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

而且，最近宇樹機(jī)器狗集體進(jìn)行Go1測試的視頻曝光，還在國外火了一波。

新出生的機(jī)器狗，打滾1小時后自己掌握走路，吳恩達(dá)大弟子成果

論文地址：

https://danijar.com/project/daydreamer/

責(zé)任編輯：張燕妮來源：量子位

機(jī)器狗智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="4xstn"><tt id="4xstn"></tt></u>

<ruby id="4xstn"></ruby>