自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

MIT小哥聯(lián)合谷歌訓(xùn)練7個多任務(wù)機(jī)器人，9600個任務(wù)成功率高達(dá)89%！

作者：新智元 2021-04-21 15:22:40

新聞人工智能

Google研究團(tuán)隊率先研發(fā)出了處理大規(guī)模任務(wù)的新型機(jī)器人，這些機(jī)器人竟然具有「學(xué)習(xí)世界」的能力。

隨著任務(wù)數(shù)量的增加，使用當(dāng)前計算方法來構(gòu)建通用的日常機(jī)器人的成本變得過高，人們正在快速尋求一種解決辦法。我們都希望通用機(jī)器人可以執(zhí)行一系列復(fù)雜的任務(wù)，例如清潔，維護(hù)和交付等等。

但是，即使使用脫機(jī)強(qiáng)化學(xué)習(xí)（RL ）來訓(xùn)練單個任務(wù)（例如清潔），也需要大量的工程設(shè)計、花費很長的時間，這看似是件不可能完成的事！

上圖為脫機(jī)和非脫機(jī)強(qiáng)化學(xué)習(xí)的演示動圖

MT-Opt+Actionable Model= 脫機(jī)強(qiáng)化學(xué)習(xí)

但是經(jīng)過科學(xué)家們的不斷努力，機(jī)器人的發(fā)展遇到前所未有的機(jī)遇。

任職于google的幾位優(yōu)秀的計算機(jī)科學(xué)家，率先研發(fā)出了處理大規(guī)模任務(wù)的新型機(jī)器人。

德米特里·卡拉什尼科夫（Dmitry Kalashnikov）是這項研究的第一作者，年紀(jì)輕輕的他于2009年創(chuàng)立了AI Digit公司，2013年加入google，擔(dān)任軟件工程師一職長達(dá)7年多。

杰克·瓦利（Jake Varley）作為第二作者，本科畢業(yè)于麻省理工大學(xué)（MIT）計算機(jī)科學(xué)專業(yè)，2013年順利成為哥倫比亞大學(xué)的博士生，一畢業(yè)就收到google拋來的橄欖枝，現(xiàn)在google任SWE一職已經(jīng)3年了。

卡羅爾·豪斯曼（Karol Hausman）作為第三作者，是南加大計算機(jī)科學(xué)專業(yè)的博士生，也是2018年加入google，目前主要擔(dān)任google機(jī)器人控制和google大腦實驗室的科學(xué)家。

這項研究主要展示了機(jī)器人脫機(jī)強(qiáng)化學(xué)習(xí)（RL）的兩個新進(jìn)展，即MT-Opt（一種用于自動數(shù)據(jù)收集和多任務(wù)RL訓(xùn)練的系統(tǒng)）以及Actionable Models（可動模型），該模型利用獲取的數(shù)據(jù)實現(xiàn)脫機(jī)學(xué)習(xí)的目標(biāo)。

MT-Opt引入了可擴(kuò)展的數(shù)據(jù)收集機(jī)制，該機(jī)制在真實的機(jī)器人上可以收集超過800,000個任務(wù)，相比以往很多多任務(wù)脫機(jī)學(xué)習(xí)的成功應(yīng)用，其平均性能比基線提高了約3倍。

更神奇的是，它還可以使機(jī)器人在不到1天的時間內(nèi)對新任務(wù)進(jìn)行適應(yīng)，接著快速掌握新任務(wù)。

即使在沒有特定任務(wù)和獎勵的情況下該機(jī)器人也可以進(jìn)行學(xué)習(xí)，這不僅極大地增加了機(jī)器人可以執(zhí)行的任務(wù)數(shù)量，并可以更有效地學(xué)習(xí)下游任務(wù)。

所以為了大規(guī)模地收集多樣化的任務(wù)數(shù)據(jù)，他們創(chuàng)建了一個可擴(kuò)展且直觀的多任務(wù)檢測器來指定任務(wù)，目的是為了要收集最終平衡結(jié)果的數(shù)據(jù)集。

具體步驟如下：

為了訓(xùn)練該系統(tǒng)，科學(xué)家們收集了9600個機(jī)器人數(shù)據(jù)（來自七個機(jī)器人連續(xù)57天的數(shù)據(jù)收集），并采用監(jiān)督學(xué)習(xí)（supervised learning）的方式來訓(xùn)練多任務(wù)，甚至允許用戶快速定義新任務(wù)及其獎勵的設(shè)置。

首先當(dāng)收集數(shù)據(jù)時，需要對各種現(xiàn)實因素進(jìn)行監(jiān)察和定期更新。（例如不同的光照條件，多變的背景環(huán)境以及機(jī)器人靈活的狀態(tài)）。

其次，通過使用較為簡單的任務(wù)解決方案，有效地引導(dǎo)機(jī)器人學(xué)習(xí)更復(fù)雜的任務(wù)，這樣在針對不同任務(wù)時，可以同時使用多個機(jī)器人同時操作。

一旦形成針對性訓(xùn)練，每個任務(wù)的數(shù)據(jù)量和成功情節(jié)數(shù)便會隨著時間增長。

為了進(jìn)一步提高性能，科學(xué)家們還重點放在某些表現(xiàn)欠佳的任務(wù)上進(jìn)行調(diào)試和訓(xùn)練，逐一突破！

成功率高達(dá)89%！

盡管這種數(shù)據(jù)收集策略可以有效地收集大量數(shù)據(jù)，但任務(wù)之間的成功率和數(shù)據(jù)量是不平衡的。

所以為了解決這個問題，他們命令機(jī)器人對每個成功或失敗的任務(wù)進(jìn)行標(biāo)記。這一步驟之后再將已經(jīng)達(dá)到均衡的任務(wù)發(fā)送到多任務(wù)RL訓(xùn)練管道。

好消息是，對于具有多數(shù)據(jù)的通用任務(wù)，MT-Opt的成功率是89％（QT-Opt的成功率是88％），罕見任務(wù)MT-Opt的平均成功率是50％。

使用可操作模型（Actionable Model）可以使機(jī)器人系統(tǒng)地學(xué)習(xí)大量的指示技能，例如物體抓握，容器放置和物體重新布置。

除此以外，該模型還能訓(xùn)練數(shù)據(jù)中看不到的物體和視覺目標(biāo)，新的機(jī)器人具有「學(xué)習(xí)世界」的能力！

小結(jié)：

MT-Opt模型和可操作模型的結(jié)果都表明，真實的機(jī)器人可以學(xué)習(xí)許多不同的任務(wù)，并且這些模型有效地分?jǐn)偭藢W(xué)習(xí)技能的成本。

這是邁向通用機(jī)器人學(xué)習(xí)系統(tǒng)很重要的一步，該系統(tǒng)可以進(jìn)一步擴(kuò)展到現(xiàn)實生活中，執(zhí)行許多對人類有幫助的服務(wù)。

如果感興趣的讀者，可以具體參考這兩篇論文：“ MT-Opt：大規(guī)模的連續(xù)多任務(wù)機(jī)器人強(qiáng)化學(xué)習(xí)”和“可行的模型：機(jī)器人技術(shù)的無監(jiān)督離線強(qiáng)化學(xué)習(xí)”，網(wǎng)站上提供了很多有關(guān)MT-Opt的更多信息、視頻和可行的模型。

責(zé)任編輯：張燕妮來源：新智元

機(jī)器人人工智能系統(tǒng)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="0do9p"></cite>