自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

作者：佚名 2021-07-24 10:19:14

新聞人工智能

李飛飛帶領(lǐng)三位英偉達(dá)博士發(fā)表論文，通過魯棒性策略學(xué)習(xí)，對(duì)具有大分布偏移的未見視覺環(huán)境進(jìn)行零樣本泛化，提出視覺策略新模型「SECANT」，實(shí)驗(yàn)結(jié)果顯示，新模型在零樣本泛化方面超過SOTA。

沒錯(cuò)！又是李飛飛！

上次報(bào)道李飛飛是因?yàn)樗秊閷W(xué)界爭(zhēng)取到了亞馬遜谷歌云數(shù)據(jù)中心。

而這次，她和研究團(tuán)隊(duì)帶著一篇論文向我們走來！

走在隊(duì)伍前面的，是來自斯坦福大學(xué)的博士，李飛飛的門生！

（不好意思最近重溫了一下08奧運(yùn)開幕式……）

先來看看李飛飛團(tuán)隊(duì)這次在arXiv上發(fā)表了的論文題目：

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

SECANT：用于視覺策略零樣本泛化的自專家克隆

廢話少說，給大家介紹一下這篇論文的大致內(nèi)容。

論文介紹

簡(jiǎn)要介紹

強(qiáng)化學(xué)習(xí)中的泛化（generalization），是指通過不斷跟環(huán)境交互，產(chǎn)生出一種網(wǎng)絡(luò)的記憶性。

這個(gè)網(wǎng)絡(luò)能夠根據(jù)環(huán)境中特定的信號(hào)完成相應(yīng)的動(dòng)作，經(jīng)過訓(xùn)練的agent能夠記住在什么狀態(tài)下要做什么，還能通過識(shí)別狀態(tài)的細(xì)微差別來采取不同的動(dòng)作。

再通俗一點(diǎn)，就是在未見過的測(cè)試數(shù)據(jù)上也能夠進(jìn)行預(yù)測(cè)。

因此，提升模型的泛化是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要研究。

特別是視覺強(qiáng)化學(xué)習(xí)方面，泛化很容易被高維觀察空間中，一些無關(guān)痛癢的因素分散了注意力。

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

機(jī)器學(xué)習(xí)中的泛化：欠擬合、擬合、過度擬合

針對(duì)這個(gè)問題，團(tuán)隊(duì)通過魯棒性策略學(xué)習(xí)，對(duì)具有大分布偏移的未見視覺環(huán)境進(jìn)行零樣本泛化。

因此，團(tuán)隊(duì)提出「SECANT」模型，一種可以適應(yīng)新測(cè)試環(huán)境的自專家克隆方法（Self Expert Cloning for Adaptation to Novel Test-environments）。

這個(gè)方法能夠在兩個(gè)階段利用圖像增廣，分離魯棒性表征和策略優(yōu)化。

首先，專家策略通過弱增廣從頭開始進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。

而學(xué)生網(wǎng)絡(luò)就是通過強(qiáng)增廣的監(jiān)督學(xué)習(xí)來模仿專家策略，其表征與專家策略相比，對(duì)視覺變化更具魯棒性。

實(shí)驗(yàn)表明，SECANT在DMControl（Deepmind Control）、自動(dòng)駕駛、機(jī)器人操作和室內(nèi)物體導(dǎo)航這四個(gè)具有挑戰(zhàn)性的領(lǐng)域中，在零樣本泛化方面超過了之前的SOTA模型，分別實(shí)現(xiàn)了26.5%、337.8%、47.7%和15.8%的提升。

主要貢獻(xiàn)

提出了SECANT模型，可以依次解決策略學(xué)習(xí)和魯棒性表征學(xué)習(xí)問題，從而實(shí)現(xiàn)了對(duì)未見過的視覺環(huán)境的強(qiáng)大零樣本泛化性能。
在自動(dòng)駕駛、機(jī)器人操作和室內(nèi)物體導(dǎo)航四個(gè)領(lǐng)域中，設(shè)計(jì)并制定了一套多樣化的基準(zhǔn)測(cè)試。除了DMControl外，其它3種環(huán)境都具有代表實(shí)際應(yīng)用程序的測(cè)試時(shí)視覺外觀漂移。
證明了SECANT在以上4個(gè)領(lǐng)域中，大多數(shù)任務(wù)都能達(dá)到SOTA。

SECANT框架

SECANT的主要目標(biāo)是發(fā)展自我專家克隆技術(shù)，通過這種技術(shù)可以實(shí)現(xiàn)零樣本生成不一樣的視覺樣本。

作者研究的SECANT訓(xùn)練模型可以分解為兩步，代碼已公開。

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

專家策略

第一步，作者在原始環(huán)境中通過弱增廣訓(xùn)練了一套高性能的專家策略。在視覺連續(xù)控制任務(wù)中，這套策略通過前饋深度卷積網(wǎng)絡(luò)進(jìn)行參數(shù)化，然后將觀察到的圖像轉(zhuǎn)化為d維連續(xù)動(dòng)作向量。

在實(shí)際應(yīng)用中，作者采用了幀疊加技術(shù)，在時(shí)間信息維度上，連接T個(gè)連續(xù)圖像進(jìn)行觀測(cè)。然后通過語義保持圖像變換來生成數(shù)據(jù)擴(kuò)增的算子。采用隨機(jī)裁剪圖像的方法作為默認(rèn)的弱增廣方法來訓(xùn)練專家策略。

這套專家策略可以通過任何標(biāo)準(zhǔn)的RL算法進(jìn)行優(yōu)化。作者選擇了Soft Actor-Critic (SAC)，因?yàn)樗谶B續(xù)控制任務(wù)中被廣泛采用。然后采用梯度下降法對(duì)專家參數(shù)進(jìn)行優(yōu)化，使專家參數(shù)最小化。

學(xué)生策略

在第二階段，作者訓(xùn)練一個(gè)學(xué)生網(wǎng)絡(luò)來預(yù)測(cè)專家策略采取的最優(yōu)行動(dòng)，在同樣的觀察的條件下，通過劇烈變化的圖像來進(jìn)行測(cè)試。在這個(gè)階段不需要進(jìn)一步接觸獎(jiǎng)勵(lì)信號(hào)。

從形式上來看，學(xué)生策略也是一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)，但與專家策略不同的是它有著不同的架構(gòu)。本質(zhì)上來說，學(xué)生策略是根據(jù)DAgger模仿流程，從專家策略中延伸而來的。

作者使用專家策略來收集軌跡的初始數(shù)據(jù)集D。接下來，在每一次迭代中，選擇一個(gè)強(qiáng)擴(kuò)增算子，并將其應(yīng)用于采樣的一批觀測(cè)數(shù)據(jù)。

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

作者通過將原有視覺元素進(jìn)行插入色塊（Cc）、隨機(jī)卷積（Cv）、補(bǔ)充高斯噪聲（G）以及添線性混合（M）等方式來生成不同的視覺樣本。

作者還研究了以上的組合，并試圖發(fā)現(xiàn)從低頻和高頻結(jié)構(gòu)噪聲中的隨機(jī)抽樣產(chǎn)生最佳的總體結(jié)果。作者注意到，在混合中添加隨機(jī)裁剪略微有利于性能的提升，可能是因?yàn)樗纳屏藢W(xué)生策略表征的空間不變性。

實(shí)驗(yàn)內(nèi)容

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

四種不同場(chǎng)景的視覺策略泛化基準(zhǔn)測(cè)試（從上至下）：DMControl Suite、CARLA、Robosuite和iGibson

首先，作者提出了一個(gè)適用于四種不同領(lǐng)域的基準(zhǔn)測(cè)試，系統(tǒng)地評(píng)估視覺agent的泛化能力。

在每個(gè)領(lǐng)域中，團(tuán)隊(duì)研究了在一個(gè)環(huán)境中訓(xùn)練的算法，在零樣本設(shè)置中的各種未見環(huán)境中的表現(xiàn)如何。此時(shí)沒有獎(jiǎng)勵(lì)信號(hào)和額外的試驗(yàn)。

在每個(gè)任務(wù)中，SECANT以之前的SOTA算法為基準(zhǔn)：SAC、SAC+crop、DR、NetRand、SAC+IDM和PAD。

DMControl

研究團(tuán)隊(duì)依照前人的設(shè)置，使用來自DMControl的8個(gè)任務(wù)進(jìn)行實(shí)驗(yàn)。

測(cè)量泛化能力，隨機(jī)生成背景和機(jī)器人本身的顏色，將真實(shí)的視頻作為動(dòng)態(tài)背景。

除了一項(xiàng)任務(wù)外，SECANT在所有任務(wù)中都顯著優(yōu)于先前的SOTA，通常高出88.3%。

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

所有方法都經(jīng)過50萬步訓(xùn)練，有密集的任務(wù)特定獎(jiǎng)勵(lì)。

Robosuite：機(jī)器人操作模擬器

Robosuite是用于機(jī)器人研究的模塊化模擬器。

作者在4個(gè)具有挑戰(zhàn)性的單臂和雙手操作任務(wù)上對(duì)SECANT和先前方法進(jìn)行了基準(zhǔn)測(cè)試。

使用具有操作空間控制的Franka Panda機(jī)器人模型，并使用特定于任務(wù)的密集獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練。

所有agent都接收一個(gè)168×168以自我為中心的RGB視圖作為輸入。

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

與之前SOTA相比，SECANT有337.8%的提升

實(shí)驗(yàn)表明，與之前的最佳方法相比，SECANT在簡(jiǎn)單設(shè)置中獲得的獎(jiǎng)勵(lì)平均增加了287.5%，在困難設(shè)置中增加了374.3%，在極端設(shè)置中增加了351.6%。

CARLA：自動(dòng)駕駛模擬器

為了進(jìn)一步驗(yàn)證SECANT對(duì)自然變化的泛化能力，作者在CARLA模擬器中構(gòu)建了一個(gè)具有視覺觀察的真實(shí)駕駛場(chǎng)景。

測(cè)試目標(biāo)是在1000個(gè)時(shí)間步長(zhǎng)內(nèi)沿著8字形高速公路（CARLA Town 4）行駛盡可能遠(yuǎn)，不與行人或車輛發(fā)生碰撞。

agent在「晴朗的中午」情景接受訓(xùn)練，并在中午和日落時(shí)對(duì)各種動(dòng)態(tài)天氣和光照條件進(jìn)行評(píng)估。

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

例如，潮濕天氣的特點(diǎn)是道路具有高反射點(diǎn)。經(jīng)過平均每個(gè)天氣超過10集和5次訓(xùn)練運(yùn)行，SECANT在測(cè)試中能夠比之前的SOTA行駛的距離增加47.7%。

iGibson：室內(nèi)物體導(dǎo)航

iGibson是一個(gè)交互式模擬器，有高度逼真的3D房間和家具。

在這個(gè)模擬器中，實(shí)驗(yàn)的目標(biāo)是盡可能接近一盞燈。

獎(jiǎng)勵(lì)函數(shù)激勵(lì)agent使燈在視野中所占的像素比例最大，當(dāng)這個(gè)比例在連續(xù)10個(gè)步驟中超過5%時(shí)就算成功。

李飛飛團(tuán)隊(duì)提出零樣本泛化的自專家克隆技術(shù)，性能超越SOTA

在本測(cè)試中，在未見過的房間里，SECANT的成功率比之前的方法高出15.8%。

作者簡(jiǎn)介

本文一作是李飛飛門下得意弟子Linxi Fan，他畢業(yè)于上海實(shí)驗(yàn)中學(xué)，本科就讀于紐約哥倫比亞大學(xué)，目前在斯坦福大學(xué)攻讀博士，主修計(jì)算機(jī)視覺、強(qiáng)化學(xué)習(xí)以及機(jī)器人技術(shù)。在英偉達(dá)實(shí)習(xí)期間完成了本論文。

本文二作黃德安同樣師從李飛飛，本科畢業(yè)于國(guó)立臺(tái)灣大學(xué)，獲得了卡內(nèi)基梅隆大學(xué)碩士學(xué)位。目前在斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)攻讀博士學(xué)位，在NVIDIA做泛化學(xué)習(xí)類研究。

三作禹之鼎也是來自NVIDIA的科學(xué)家，獲得華南理工大學(xué)電機(jī)工程聯(lián)合班學(xué)士學(xué)位、香港科技大學(xué)電子工程學(xué)士學(xué)位，2017年在卡內(nèi)基梅隆大學(xué)獲得了ECE博士學(xué)位。

2018年加入英偉達(dá)，現(xiàn)在是英偉達(dá)機(jī)器學(xué)習(xí)研究組的高級(jí)研究科學(xué)家。

責(zé)任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)克隆

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="as4t2"></sub>

<p id="as4t2"></p>