自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯隆獎(jiǎng)新晉得主宋舒然:從視覺出發(fā),打造機(jī)器人之「眼」

人工智能 機(jī)器人 新聞
從算法架構(gòu)來看,計(jì)算機(jī)視覺的研究潛力或已「窮途末路」;但在機(jī)器人的應(yīng)用中,人們普遍相信,計(jì)算機(jī)視覺仍大有可為。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

「我一直希望家里有一個(gè)機(jī)器人,可以幫我洗衣服、做飯?!?/p>

宋舒然談道。而要實(shí)現(xiàn)這一設(shè)想,機(jī)器人視覺研究是不可缺少的一環(huán)。

近年來,計(jì)算機(jī)視覺與機(jī)器人的「聯(lián)姻」在人工智能領(lǐng)域如火如荼。單就自動(dòng)駕駛來看,就有許多研究人員擁有計(jì)算機(jī)視覺的學(xué)科背景,比如阿里達(dá)摩院自動(dòng)駕駛實(shí)驗(yàn)室的前負(fù)責(zé)人王剛,中國RoboTaxi領(lǐng)先企業(yè)AutoX(安途)的創(chuàng)始人肖健雄等等。

從算法架構(gòu)來看,計(jì)算機(jī)視覺的研究潛力或已「窮途末路」;但在機(jī)器人的應(yīng)用中,人們普遍相信,計(jì)算機(jī)視覺仍大有可為。設(shè)計(jì)出優(yōu)秀的算法,讓機(jī)器人系統(tǒng)能在與物理世界的交互中學(xué)習(xí)、自主獲得執(zhí)行復(fù)雜任務(wù)和協(xié)助人類的感知和操縱技能,是新一代計(jì)算機(jī)視覺研究者的主要目標(biāo)之一,宋舒然也是該賽道上的一員。

作為一名「CVer」,宋舒然為何會(huì)轉(zhuǎn)向機(jī)器人領(lǐng)域?她在該領(lǐng)域的研究故事又是怎樣的?計(jì)算機(jī)視覺與機(jī)器人系統(tǒng)如何互動(dòng)?針對(duì)這些問題,我們與宋舒然聊了聊。

1、與機(jī)器人視覺的首次「邂逅」

不久前,2022年斯隆研究獎(jiǎng)公布,計(jì)算機(jī)領(lǐng)域有四位華人女性科學(xué)家入選,宋舒然便是其中之一,名噪一時(shí)。

斯隆研究獎(jiǎng)被譽(yù)為「諾貝爾風(fēng)向標(biāo)」,主要授予被認(rèn)為在各自領(lǐng)域最有潛力的青年科學(xué)家,以往獲得該榮譽(yù)的人工智能學(xué)者均非同凡響,如AI科技評(píng)論往期報(bào)道過的鬲融、馬騰宇、方飛等等。宋舒然能成功當(dāng)選,實(shí)力可見一斑。

但這并不是宋舒然第一次被「看見」。此前,她與團(tuán)隊(duì)已在多個(gè)國際機(jī)器人頂會(huì)上獲得最佳論文獎(jiǎng),包括RSS 2019最佳系統(tǒng)論文獎(jiǎng)、CoRL 2021最佳系統(tǒng)論文獎(jiǎng),以及2020年《IEEE Transactions on Robotics》最佳論文獎(jiǎng),是近年來「機(jī)器人視覺」賽道最知名的青年代表人物之一。

更令人欽佩的是,此時(shí)距離她博士畢業(yè)后進(jìn)入學(xué)術(shù)界才不過四年時(shí)間。

目前宋舒然在哥倫比亞大學(xué)計(jì)算機(jī)系擔(dān)任助理教授,主要研究計(jì)算機(jī)視覺與機(jī)器人技術(shù)的交叉領(lǐng)域,如開發(fā)能使機(jī)器人系統(tǒng)在與物理世界的交互中學(xué)習(xí)、并自主獲得執(zhí)行復(fù)雜任務(wù)和協(xié)助人們的感知和操縱技能的算法。

回顧自己的研究經(jīng)歷,宋舒然對(duì)AI科技評(píng)論談道,她第一次對(duì)機(jī)器人感興趣,是在大一時(shí)上的第一門基礎(chǔ)課上:

「那是我第一次接觸到機(jī)器人。這門課沒有教特別多的專業(yè)知識(shí),就是一門動(dòng)手操作的課,做一輛小車、最后讓小車成功地跑起來,過程很簡單,編程也很簡單,但整個(gè)過程中有很多意想不到的驚喜,對(duì)我影響非常大。」

于是后來,在學(xué)校的機(jī)器人社團(tuán)來招新時(shí),宋舒然毫不猶豫就報(bào)名了。也是在參加機(jī)器人社團(tuán)的過程中,她有機(jī)會(huì)在本科階段就接觸到了計(jì)算機(jī)視覺的知識(shí)。

圖注:香港科技大學(xué)

宋舒然的本科就讀于香港科技大學(xué)電子與計(jì)算機(jī)工程專業(yè)(ECE)。

作為一名土生土長的北京人,2008年奧運(yùn)會(huì)加速了北京發(fā)展的國際化,年少的宋舒然對(duì)探索世界有著極高的熱情。所以2009年她在高考前夕填寫大學(xué)志愿時(shí),除了北京大學(xué)的醫(yī)學(xué)院,還報(bào)考了香港科技大學(xué)的計(jì)算機(jī)專業(yè):

「我們那時(shí)候還是在高考前報(bào)志愿。一是報(bào)考香港的大學(xué)不占志愿名額,二是我當(dāng)時(shí)就打算未來要出國走一走。相比直接就去英國、美國讀書,香港是一個(gè)比較折中的選擇?!?/p>

宋舒然自幼是一個(gè)擅長學(xué)習(xí)的學(xué)生,在重要的考試中總能發(fā)揮超常。出于對(duì)自我學(xué)習(xí)能力的自信,在報(bào)考大學(xué)志愿時(shí),她也專門挑選了學(xué)習(xí)難度較高的專業(yè)。即使當(dāng)時(shí)的編程基礎(chǔ)幾乎為零,在填寫計(jì)算機(jī)為志愿專業(yè)時(shí),她也沒有任何猶豫。

也正是這股子無所畏懼的勁,讓宋舒然在一個(gè)男性占大多數(shù)的領(lǐng)域中也能披襟斬棘、所向披靡。

2009年,宋舒然從北京南下,來到香港這座以國際化著稱的城市。剛到港科大不久,她就明顯地感覺到多元化的校園環(huán)境:

「高中時(shí)感覺周圍的同學(xué)想要做的事情都差不多。到了香港后,發(fā)現(xiàn)大家想要實(shí)現(xiàn)的人生都很不一樣。大家學(xué)不同的專業(yè),有些人注重社交,有些人會(huì)提前規(guī)劃職業(yè)發(fā)展,像我這樣喜歡做研究的學(xué)生反而不多,所以我在本科時(shí)的科研機(jī)會(huì)也更多?!?/p>

大學(xué)期間,宋舒然有幸參加香港科技大學(xué)機(jī)器人社團(tuán)(HKUST Robotics Team),還在2011年代表社團(tuán)參加了一年一度的國際性機(jī)器人比賽——ABU Robocon。那一年,宋舒然與團(tuán)隊(duì)贏得了香港地區(qū)的選拔賽,代表香港去泰國參加決賽。

「印象中,當(dāng)時(shí)機(jī)器人的研究里面,最難的也是計(jì)算機(jī)視覺的部分。雖然我的專業(yè)不是計(jì)算機(jī)視覺,但我在那個(gè)過程中也學(xué)到了不少知識(shí),比如視覺追蹤與檢測?!顾问嫒换貞浀馈?/p>

除了參加機(jī)器人社團(tuán),宋舒然還在大三那年(2012年)參加了香港科技大學(xué)與美國麻省理工學(xué)院(MIT)的暑期交換生項(xiàng)目?!改且荒晔堑谝粚茫暾?qǐng)的人并不多,所以我就非常幸運(yùn)地得到了這個(gè)機(jī)會(huì)?!?/p>

雖然只有短短一個(gè)暑假,交換期間參與研究的內(nèi)容也十分基礎(chǔ),但整個(gè)過程給宋舒然留下了深刻的印象。

宋舒然記得,當(dāng)時(shí)她每天都會(huì)去MIT CSAIL的大樓,每天在路上都能遇到形形色色的人。在這棟形狀奇特的大樓里,有很多做機(jī)器人研究的人,她每天都可以在大樓里看到各種各樣奇怪的機(jī)器人,「研究者不停地調(diào)試著什么」,整個(gè)研究氛圍非?;钴S。

當(dāng)時(shí)她的指導(dǎo)老師是圖形學(xué)領(lǐng)域的大神 Frédo Durand。宋舒然記得,雖然 Frédo 是一名非常有名、事物繁多的教授,但還是會(huì)不厭其煩地騰出教研時(shí)間指導(dǎo)交換生們學(xué)習(xí)目標(biāo)課程,與他們固定時(shí)間開會(huì)、解答疑問。在這個(gè)過程中,宋舒然也學(xué)到了許多圖像視覺的知識(shí)。

原先宋舒然只是對(duì)研究感興趣,但這次赴MIT交換的經(jīng)歷使她下定了讀博的決心:

「剛上大學(xué)時(shí)我并沒有想好之后要讀博,或者在學(xué)術(shù)領(lǐng)域有多大的發(fā)展。但到了MIT,認(rèn)識(shí)的學(xué)生都是PhD,他們做的研究非常有意思,做研究的過程感覺非常振奮,讓我開始覺得我好像也很想去做研究。」

2、請(qǐng)回答2015:突破3D視覺

2013年,宋舒然加入普林斯頓大學(xué)的計(jì)算機(jī)視覺與機(jī)器人實(shí)驗(yàn)室(計(jì)算機(jī)視覺領(lǐng)域的知名華人學(xué)者鄧嘉也在共同領(lǐng)導(dǎo)該實(shí)驗(yàn)室)攻讀博士,先后師從肖健雄(2016年離開普林斯頓去創(chuàng)業(yè))與Thomas Funkhouser。據(jù)悉,Thomas Funkhouser每年均只招收1-2名博士生。

圖注:普林斯頓大學(xué)

普林斯頓大學(xué)最吸引宋舒然的一點(diǎn)是它較小的實(shí)驗(yàn)室規(guī)模,和與之帶來的能與教授進(jìn)行更多交流的機(jī)會(huì)。

讀博期間,宋舒然的研究內(nèi)容聚焦在計(jì)算機(jī)視覺。雖然本科時(shí)做過物體追蹤項(xiàng)目,但宋舒然回憶,在剛開始讀博時(shí),她的視覺基礎(chǔ)是相對(duì)薄弱的。

在導(dǎo)師的指導(dǎo)下,她延續(xù)本科時(shí)期的學(xué)習(xí),先是研究3D物體檢測與追蹤。當(dāng)時(shí)恰逢微軟推出一個(gè)新的3D感知相機(jī)(Kinect 3D Camera Sensor-System),他們便思考是否能用這些新設(shè)備,將2D物體檢測延伸到3D物體追蹤。

圖注:微軟在2013年推出的Kinect 3D相機(jī)感知系統(tǒng)

2014年前后,計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向就是2.5D到3D的物體識(shí)別與檢測追蹤。宋舒然從2013年開始研究,恰好趕上了這一熱潮,加上個(gè)人的后天努力,她的博士生涯也因而比大多數(shù)人的成長要迅速得多。

2015年是宋舒然在計(jì)算機(jī)視覺研究上的「豐收年」。那一年,她在計(jì)算機(jī)視覺頂會(huì)上發(fā)表了4篇高引論文,篇篇經(jīng)典,而彼時(shí)距離她入學(xué)博士才不過兩年時(shí)間:

  • 3d shapenets: A deep representation for volumetric shapes(谷歌學(xué)術(shù)引用3500+)
  • Shapenet: An information-rich 3d model repository(谷歌學(xué)術(shù)引用2500+)
  • Sun rgb-d: A rgb-d scene understanding benchmark suite(谷歌學(xué)術(shù)引用1100+)
  • Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop(谷歌學(xué)術(shù)引用1000+)

宋舒然對(duì)AI科技評(píng)論介紹,她第一次接觸深度學(xué)習(xí)是在“3D ShapeNets: A Deep Representation for Volumetric Shapes”這篇工作中,經(jīng)湯曉鷗與吳志榮的帶領(lǐng)入門。當(dāng)時(shí),就讀于香港中文大學(xué)的吳志榮到普林斯頓交換,宋舒然與他由此結(jié)識(shí)。

「那時(shí)候深度學(xué)習(xí)還沒有那么火。2D視覺開始火起來,但把深度學(xué)習(xí)用于3D視覺的研究還幾乎沒有。我當(dāng)時(shí)完全沒有做過深度學(xué)習(xí)的研究,只是做過一些比較傳統(tǒng)的2D識(shí)別與檢測。因?yàn)橹緲s在湯曉鷗的組里做了很多深度學(xué)習(xí)的研究,所以我們就把他拉過來一起合作。」宋舒然回憶道。

開辟性的工作往往艱難重重。宋舒然記得,當(dāng)時(shí)他們?cè)诤献鞯倪^程中遇到了很多困難,其中最大的困難是沒有成熟的機(jī)器學(xué)習(xí)庫或框架去支持深度學(xué)習(xí)系統(tǒng)的搭建,「只有賈揚(yáng)青提出的Caffe,而且比較初期的Caffe并不支持計(jì)算機(jī)視覺的操作」。

所以他們當(dāng)時(shí)的研究重點(diǎn)就放在了如何開發(fā)系統(tǒng)、將2D算法轉(zhuǎn)化為可以接受3D數(shù)據(jù)上。他們當(dāng)時(shí)的想法其實(shí)非常簡單 –從2D pixel 表征方式轉(zhuǎn)化成 3D voxel 的表征方式。雖然現(xiàn)在看來這個(gè)方法有很多明顯的缺陷(需要大量的顯存空間), 但好處是可以沿用很多傳統(tǒng)的2D 算法,比如卷積。

圖注:3D ShapeNets(2015)的轉(zhuǎn)換原理

這是第一個(gè)成功通過深度學(xué)習(xí)方法將2.5D延伸到3D上的視覺工作。在此之前,深度學(xué)習(xí)多用在2D圖像或自然語言處理上?!?D ShapeNets」首次展示了深度學(xué)習(xí)系統(tǒng)如何學(xué)習(xí)形狀表征的過程,且通用性強(qiáng),可以應(yīng)用在多個(gè)不同的任務(wù)上,在計(jì)算機(jī)視覺領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。

對(duì)于宋舒然來說,這個(gè)工作既是她研究生涯中的一個(gè)里程碑,也是啟發(fā)她在研究中采用「簡單而高效」的方法論的起點(diǎn):

「它很簡單,但非常高效,唯一的限制是對(duì)算力的需求加大,因?yàn)閿?shù)據(jù)的維度提升,計(jì)算量也會(huì)隨之增長。此外,這是我第一次研究3D,我之后的許多工作都延續(xù)了這個(gè)項(xiàng)目的idea(觀點(diǎn)),即用3D深度學(xué)習(xí)系統(tǒng)做形狀表征?!?/p>

憑借在計(jì)算機(jī)視覺方向(尤其是數(shù)據(jù)驅(qū)動(dòng)的3D場景理解)的一系列出色工作,宋舒然獲得2015年Facebook博士生獎(jiǎng)學(xué)金。她的工作登上普林斯頓研究校刊,還入選了「普林斯頓25歲以下創(chuàng)新25人」。

圖注:宋舒然在普林斯頓讀博期間

3、從視覺到機(jī)器人

機(jī)器人對(duì)現(xiàn)實(shí)世界的感知準(zhǔn)確率依賴于視覺中的3D語義場景完成技術(shù)。宋舒然在3D視覺上的研究突破奠定了她從事機(jī)器人視覺研究的基礎(chǔ)。

從2016年提出「Deep Sliding Shapes」后,她就開始在研究視覺之余探索如何用3D視覺提高機(jī)器人推理周圍環(huán)境的物體的能力。彼時(shí),計(jì)算機(jī)視覺正越來越多地從分析單個(gè)靜止圖像轉(zhuǎn)向理解視頻和空間數(shù)據(jù),對(duì)機(jī)器人的智能提升是一大利好。

圖注:宋舒然在普林斯頓大學(xué)研究的機(jī)器人(“Robot In a Room: Toward Perfect Object Recognition in Closed Environments”)

想象一下,如果一個(gè)機(jī)器人要打掃房間,那么它既需要有空間導(dǎo)航能力、知道移動(dòng)到哪里,也需要識(shí)別出房間中的不同物體,才可以執(zhí)行掃地、收拾、整理等任務(wù)。

這時(shí),機(jī)器人就需要理解兩個(gè)層級(jí)的信息:第一層級(jí)是幫助機(jī)器人與周圍環(huán)境互動(dòng),可以識(shí)別移動(dòng)的開放空間,并定位要操作的物體對(duì)象;第二層級(jí)及以上的信息則使機(jī)器人了解一個(gè)物體是什么,并使用該物體來執(zhí)行任務(wù)。

在這個(gè)問題上,以往的研究趨于將兩者分開,劃分為「場景完成」與「對(duì)象標(biāo)記」。但2017年,宋舒然與團(tuán)隊(duì)提出了「SSCNet」系統(tǒng),通過從單個(gè)2D圖像生成場景的完整3D表示與場景對(duì)象的標(biāo)記,將兩者結(jié)合起來,取得了更佳的算法效果。

盡管仍是從3D視覺出發(fā),但這項(xiàng)工作預(yù)示了宋舒然之后在研究機(jī)器人視覺上的一個(gè)重要理念:機(jī)器人通過與現(xiàn)實(shí)世界的互動(dòng)中了解世界。比如,即使一個(gè)房間里的椅子視線部分被桌子擋住,但如果機(jī)器人能夠?qū)⑵鋵?duì)椅子形狀的基本識(shí)別與房間布局相結(jié)合,那么它也能判斷桌子旁邊的形狀是椅子。這類預(yù)測的準(zhǔn)確率會(huì)大幅度提升。

圖注:在「SSCNet」中,只需要輸入「桌子」的圖像,就可以預(yù)測桌子周圍的物體擺放

在3D物體檢測與追蹤上做了許多工作后,2017年,宋舒然與MIT的機(jī)器人團(tuán)隊(duì)合作,一起參加了亞馬遜機(jī)器人挑戰(zhàn)賽——Amazon Picking Challenge,開始嘗試視覺與機(jī)器人的「軟硬結(jié)合」。

「我們最開始合作的想法非常簡單。他們是做機(jī)器人的,我們是做視覺的,我們把兩邊的系統(tǒng)合起來就可以去參加比賽。我們第一年也確實(shí)是這么做的?!顾问嫒粚?duì)AI科技評(píng)論講道。

不過,這種「粗魯搭配」的做法并沒有取得很好的效果。

2017年,他們合作的方式是:由宋舒然的計(jì)算機(jī)視覺組先定義一個(gè)要輸出的算法結(jié)果(如物體姿勢),然后再由MIT的機(jī)器人組通過視覺輸出的算法去做動(dòng)作規(guī)劃(motion planning),計(jì)算機(jī)器人如何可以抓取目標(biāo)物體。

但這次的合作并不高效。普林斯頓與MIT位于不同的城市,兩個(gè)團(tuán)隊(duì)之間的交流主要是通過郵件傳代碼,宋舒然團(tuán)隊(duì)的視覺算法過了一個(gè)月后才放在MIT的機(jī)器人上試驗(yàn)。

在試驗(yàn)的過程中,他們也發(fā)現(xiàn)了許多問題,比如:宋舒然團(tuán)隊(duì)所提出的視覺算法非常慢,導(dǎo)致整個(gè)系統(tǒng)也很慢;可用于訓(xùn)練的標(biāo)注數(shù)據(jù)極其有限,模型跑不起來;算法精度不夠,對(duì)于計(jì)算機(jī)視覺來說,誤差在5度5厘米以內(nèi)的算法精度已是效果極佳,但當(dāng)這個(gè)誤差被真正應(yīng)用在機(jī)器人操作上時(shí),卻可能造成整個(gè)機(jī)器人環(huán)境的崩潰。

所以,2017年的比賽中,他們只取得了第三名的成績。但是,這次的合作也激起了宋舒然對(duì)機(jī)器人視覺的研究熱情,他們發(fā)現(xiàn)了許多有意思的問題,激發(fā)了許多提升系統(tǒng)的想法,于是決定繼續(xù)合作參加2018年的比賽。

圖注:MIT-Princeton 團(tuán)隊(duì)在亞馬遜機(jī)器人競賽 (2018)

這一次,宋舒然和整個(gè)團(tuán)隊(duì)對(duì)物體姿態(tài)的算法進(jìn)行了重新整合,不再使用中間的物體姿態(tài)作預(yù)測,而是直接從圖像出發(fā)去預(yù)測機(jī)器人應(yīng)該采取怎樣的動(dòng)作。如此一來,整個(gè)算法系統(tǒng)的速度有了大幅提升,而且更加通用。

亞馬遜挑戰(zhàn)賽的內(nèi)容是:機(jī)器人要從一個(gè)裝了各種物體的盒子里挑選出目標(biāo)物體。這時(shí),盒子里的物體之間可能彼此遮擋,會(huì)擋住機(jī)器人的視線。

針對(duì)這個(gè)問題,宋舒然團(tuán)隊(duì)擯棄了之前「先識(shí)別物體」的步驟,而是設(shè)為「先抓取物體」,把物體先取出來再識(shí)別。這時(shí),機(jī)器人只需要知道物體的哪個(gè)部位更易抓取,而無需判斷物體是什么,系統(tǒng)的魯棒性也大大加強(qiáng)了。

在改進(jìn)算法后,他們的機(jī)器人抓取速度快速提升,獲得了2018年亞馬遜抓取機(jī)器人挑戰(zhàn)賽的冠軍,還獲得2018年亞馬遜最佳操作系統(tǒng)論文獎(jiǎng)。

自此,宋舒然也正式踏上了用計(jì)算機(jī)視覺幫助機(jī)器人感知物理世界、與物理世界交互的研究道路。

4、簡單,但高效

2018年,宋舒然從普林斯頓大學(xué)獲得計(jì)算機(jī)博士學(xué)位,后加入哥倫比亞大學(xué)計(jì)算機(jī)系擔(dān)任助理教授。問及為何選擇哥大,她給出的理由是:

「我選擇哥大的一個(gè)重要原因是地理位置。我還是喜歡待在城市里。我是在北京長大的,然后去了香港讀大學(xué)。去了普林斯頓后,我就發(fā)現(xiàn)我不適合在一個(gè)小鎮(zhèn)子里生活,所以我就想回到大城市,就選了哥大,因?yàn)樗诩~約。」

圖注:哥倫比亞大學(xué)

擔(dān)任教職后,宋舒然在機(jī)器人視覺的研究上屢出成果,三年內(nèi)接連拿下RSS 2019最佳系統(tǒng)論文獎(jiǎng)、T-RO 2020最佳論文獎(jiǎng)、CoRL 2021最佳系統(tǒng)論文獎(jiǎng),相關(guān)工作還獲得了IROS 2018、RSS 2019、CVPR 2019、ICRA 2020等頂級(jí)會(huì)議的最佳論文提名。

2018年,宋舒然團(tuán)隊(duì)延續(xù)亞馬遜挑戰(zhàn)賽的思路,進(jìn)一步研究機(jī)器人在「推」與「抓」兩個(gè)動(dòng)作上的協(xié)同。盡管強(qiáng)化學(xué)習(xí)在當(dāng)時(shí)很火,但宋舒然的這個(gè)工作首次在機(jī)器人視覺研究中直接引入了強(qiáng)化學(xué)習(xí)方法,并獲得了IROS 2018最佳感知機(jī)器人論文獎(jiǎng)提名。

圖注:該感知機(jī)器人先「推開」物體,再「抓取」物體

「當(dāng)時(shí)我們的最終目標(biāo)是能把物體抓起來?!鹤ァ贿@個(gè)動(dòng)作很好評(píng)估,只要能抓起來就是positive reward(正向獎(jiǎng)勵(lì))。但『推』這個(gè)動(dòng)作很難評(píng)估,什么樣的『推』才算是好的『推』?所以我們就采用強(qiáng)化學(xué)習(xí)方法,提供一個(gè)好的評(píng)估函數(shù)去定義『推』,最后只需要編寫一個(gè)最終獎(jiǎng)勵(lì)(即推的動(dòng)作能幫助抓取物體)即可。」宋舒然向AI科技評(píng)論解釋道。

據(jù)宋舒然介紹,在她與團(tuán)隊(duì)「憑直覺」做這個(gè)項(xiàng)目之前,大多數(shù)人都認(rèn)為強(qiáng)化學(xué)習(xí)方法需要大量的數(shù)據(jù),所以很難在真實(shí)的機(jī)器人上直接訓(xùn)練。即使到現(xiàn)在,強(qiáng)化學(xué)習(xí)被應(yīng)用于機(jī)器人的方法也不是主流,宋舒然與團(tuán)隊(duì)也沒想到「真的能跑起來」,可以說打破了不可為的魔咒、給予了該方向的研究者以莫大的信心。

宋舒然在機(jī)器人視覺系統(tǒng)上的第一個(gè)里程碑工作當(dāng)屬獲得RSS 2019最佳系統(tǒng)論文獎(jiǎng)的「TossingBot」。在這個(gè)工作中,他們與谷歌的研究團(tuán)隊(duì)合作,最終成果登上了《紐約時(shí)報(bào)》商業(yè)板塊的封面。

圖注:TossingBot登上《紐約時(shí)報(bào)》商業(yè)版封面

這個(gè)投擲機(jī)器人的「絕殺技」是可以學(xué)習(xí)快速準(zhǔn)確地?fù)炱鹑我馕矬w,并將其扔到附近的目標(biāo)框中。研究者認(rèn)為,投擲是一種利用動(dòng)力學(xué)來提高機(jī)械手能力的絕佳方法。例如,「在拾取與放置的例子中,投擲可以使機(jī)械臂快速地將物體放入其最大運(yùn)動(dòng)范圍之外的選定盒子中,從而提高其可接觸的物理范圍和拾取速度?!?/p>

這個(gè)工作背后的關(guān)鍵思想是「殘差物理學(xué)」(Residual Physics),可以將簡單的物理學(xué)與深度學(xué)習(xí)相結(jié)合,使系統(tǒng)能夠從試錯(cuò)中快速訓(xùn)練、并泛化到新的場景中。

物理學(xué)提供了世界如何運(yùn)作的先驗(yàn)?zāi)P?,宋舒然與團(tuán)隊(duì)可以利用這些模型開發(fā)初始控制器。比如,在投擲中,他們可以使用彈道學(xué)來估計(jì)使物體降落在目標(biāo)位置所需的投擲速度,同時(shí)使用神經(jīng)網(wǎng)絡(luò)在物理估計(jì)之上預(yù)測調(diào)整,以補(bǔ)償未知?jiǎng)討B(tài)以及現(xiàn)實(shí)世界的噪聲和可變性。

作為一名計(jì)算機(jī)視覺專業(yè)的「科班生」,宋舒然每研究一個(gè)項(xiàng)目,便愈發(fā)為視覺與機(jī)器人的交叉結(jié)合所能產(chǎn)生的神奇效果驚訝。TossingBot的工作發(fā)表后,她在接受《紐約時(shí)報(bào)》的采訪時(shí)驚嘆道:「It is learning more complicated things than I could ever think about.(機(jī)器人正在學(xué)習(xí)更復(fù)雜的事情,這是我以前沒有想過的。)」

不過,這顯然不是終點(diǎn)。「TossingBot」發(fā)表兩年后,宋舒然又挑戰(zhàn)了機(jī)器人在高速動(dòng)態(tài)動(dòng)作上的新高度。她帶領(lǐng)她在哥大的第一位博士生Huy Ha,又憑借另一個(gè)機(jī)器人「FlingBot」拿下了第二個(gè)最佳系統(tǒng)論文獎(jiǎng)——CoRL 2021最佳系統(tǒng)論文獎(jiǎng)。

當(dāng)時(shí)CoRL 2021的評(píng)選委員會(huì)對(duì)「FlingBot」這項(xiàng)工作給出了極高的評(píng)價(jià):「這篇論文是我見過的迄今為止對(duì)模擬和現(xiàn)實(shí)世界布料操作方面的最了不起的工作。」

論文地址:https://arxiv.org/pdf/2105.03655.pdf

「FlingBot」挑戰(zhàn)的任務(wù)是布料處理,遷移到日常生活中,就是常見的鋪床單、鋪被子等等。此前,針對(duì)這項(xiàng)任務(wù)的大多數(shù)工作是使用單臂準(zhǔn)靜態(tài)動(dòng)作來操作布料,但這需要大量的交互來挑戰(zhàn)初始布料配置,并嚴(yán)格限制了機(jī)器人可及范圍的最大布料尺寸。

于是,宋舒然與學(xué)生使用了自監(jiān)督學(xué)習(xí)框架FlingBot,從視覺觀察出發(fā)設(shè)置雙臂操作,對(duì)織物使用拾取、拉伸并拋擲的初始配置。實(shí)驗(yàn)表明,F(xiàn)lingBot的3個(gè)動(dòng)作組合可以覆蓋80%以上的布料面積,超過靜態(tài)基線的面積4倍以上。

圖注:FlingBot

聽起來是不是很簡單?

「算法確實(shí)不難,所以這篇工作還被RSS拒過,理由是方法過于『trivial』。」宋舒然笑道。

他們一開始的想法很簡單:當(dāng)時(shí)他們看了許多文獻(xiàn),所有工作都是采用拾取、放置,這與人們?cè)谌粘I钪械牧?xí)慣十分不同。「舉一個(gè)非常簡單的例子,就是早上鋪床。我們不可能小心翼翼地去做『pick up-place』(拾取-放置),我們鋪床單一般就是一扔,拋開后再把床單鋪開,但沒有機(jī)器人系統(tǒng)是這樣做的。」

所以他們就思考,是否可以讓機(jī)器人采用一些扔高、展開的動(dòng)作,如拋開。最后做出系統(tǒng)時(shí),他們也發(fā)現(xiàn),整個(gè)系統(tǒng)確實(shí)非常簡單,只需分解成三步:第一步是抓布料,第二步是把布料展開,第三步是「扔」開布料。而「展開」與「扔」這兩個(gè)動(dòng)作基本不需要學(xué)習(xí),因?yàn)閷W(xué)與不學(xué)的區(qū)別不大,真正要學(xué)的只有「抓」這一步,因?yàn)槿绾巫?huì)直接影響后面的「展開」與「扔」。

雖然他們?cè)凇缸ァ惯@一步上也突破了傳統(tǒng)算法,但整體而言,「FlingBot」的整個(gè)系統(tǒng)是比較簡單的。所以在第一次提交論文時(shí),評(píng)審們就將論文拒了,理由均是:結(jié)果很了不起,系統(tǒng)也很了不起,但算法非常簡單。

這時(shí)候宋舒然的反向思維又來了:在第二次提交時(shí),他們就在論文中強(qiáng)調(diào)了「簡單但高效」的亮點(diǎn)——

「用一個(gè)簡單的算法就可以解決一個(gè)這么復(fù)雜的任務(wù),難道不是好過你去設(shè)計(jì)一個(gè)非常復(fù)雜的系統(tǒng)嗎?而且它的效果非常好,恰恰證明了它在高速動(dòng)態(tài)動(dòng)作上的效率。」

這與她在博士期間與湯曉鷗等人合作3D ShapeNets的研究思想是一脈相承的:簡單,但高效。后來,F(xiàn)lingBot 果然被 CoRL 接收,還獲得了最佳系統(tǒng)論文獎(jiǎng)。

5、一些思考

這時(shí)想必大家都已發(fā)現(xiàn),與在結(jié)構(gòu)性環(huán)境中的機(jī)器人(如亞馬遜工廠的產(chǎn)線機(jī)器人)相比,宋舒然的機(jī)器人工作,無論是「TossingBot」還是「FlingBot」,都需要先對(duì)物理環(huán)境進(jìn)行感知,掌握環(huán)境信息,然后執(zhí)行適應(yīng)環(huán)境的動(dòng)作。

「在工廠或倉庫中,機(jī)器人每天遇到的物體、物體位置與物體類別高度相似,在這類場景下,機(jī)器人的感知與規(guī)劃已經(jīng)達(dá)到非常成熟的狀態(tài)。很多工廠的流水線上都安置了自動(dòng)化機(jī)器人。但如果你仔細(xì)觀察,這些機(jī)器人大多是沒有『視覺』的,它們只是在記憶特定的動(dòng)作,然后重復(fù)同樣的動(dòng)作,所以它們不能照搬到一個(gè)新的環(huán)境?!?/p>

因此,宋舒然認(rèn)為,如何讓機(jī)器人去適應(yīng)非結(jié)構(gòu)化的環(huán)境,是機(jī)器人視覺接下來的關(guān)鍵研究方向。在她的研究中,無論是從對(duì)人的觀察中學(xué)習(xí)機(jī)器人的進(jìn)化經(jīng)驗(yàn),還是強(qiáng)調(diào)機(jī)器人與現(xiàn)實(shí)世界的交互,都是在為這個(gè)方向努力。

比如,在FlingBot中,為什么會(huì)用「扔」的動(dòng)作去展開物體呢?宋舒然解釋:「如果物體被展開,是更容易被識(shí)別的。如果衣物揉成一團(tuán),不展開的話你根本不知道是T恤還是褲子?!箯倪@個(gè)角度來看,機(jī)器人與物理世界的交互也有利于提升感知的準(zhǔn)確性。

換言之,在視覺與機(jī)器人的聯(lián)姻中,不僅是視覺幫助機(jī)器人感知,反過來,機(jī)器人的動(dòng)作也會(huì)增加視覺的感知。

6、探討「通用人工智能」

AI科技評(píng)論:Yann LeCun 之前一直強(qiáng)調(diào)自監(jiān)督學(xué)習(xí)是下一代人工智能的重要方向,老師您怎么看?

宋舒然:我非常同意。我覺得的確是的?,F(xiàn)在我們已經(jīng)在監(jiān)督學(xué)習(xí)上取得了很多的進(jìn)展,包括ImageNet和現(xiàn)有的許多Benchmark(基準(zhǔn)),下一步如果我們想用上更大的數(shù)據(jù)集,其實(shí)很難再標(biāo)注更多的數(shù)據(jù)了。我們需要的是在算法上的提高,就是如何去利用這些沒有標(biāo)注的數(shù)據(jù)。

在這個(gè)方向上,不同的領(lǐng)域有不同的定義方法。如何去定義自監(jiān)督學(xué)習(xí)?我覺得這是最核心的問題。在計(jì)算機(jī)視覺領(lǐng)域,你可以做視頻預(yù)測;在自然語言處理方向,你可以做語言計(jì)算。我一直在想的是,在機(jī)器人領(lǐng)域,如何定義自監(jiān)督學(xué)習(xí)?如何去定義一個(gè)統(tǒng)一框架可以去做自主自監(jiān)督學(xué)習(xí)?

AI科技評(píng)論:而且之前很多人在強(qiáng)調(diào)這個(gè)方向的時(shí)候,好像都沒有提到跟現(xiàn)實(shí)的交互。

宋舒然:對(duì)的,因?yàn)樗某杀镜拇_比較高。如果你沒有機(jī)器人,你需要買一個(gè)機(jī)器人。而且就算是有機(jī)器人,通過交互去收集數(shù)據(jù),感覺上是要比標(biāo)注數(shù)據(jù)慢很多的。但這并不代表它沒有前景;相反,我覺得這是一個(gè)更有潛力的方向。

尤其是,如果你考慮未來的人工智能發(fā)展,當(dāng)機(jī)器人不再是一個(gè)昂貴的設(shè)備,當(dāng)機(jī)器人的標(biāo)價(jià)降低、遍布各地,并且可以執(zhí)行很多任務(wù)時(shí),我覺得通過交互的自監(jiān)督學(xué)習(xí)會(huì)變成更主流的方法。

AI科技評(píng)論:明白。老師您可否再總結(jié)一下,這種交互加自監(jiān)督學(xué)習(xí)的學(xué)習(xí)方式,過去的發(fā)展、當(dāng)前存在的瓶頸和未來趨勢是什么?

宋舒然:目前「自監(jiān)督+交互」的方式里仍然摻雜了許多人為經(jīng)驗(yàn)。我們現(xiàn)在的許多工作,比如我們可以用自監(jiān)督的方式做「抓取」,原因是我們可以很好地計(jì)算這個(gè)物體是不是被抓起來了。對(duì)于「展開」這個(gè)動(dòng)作也是一樣的。我們可以通過物體的表面、面積有沒有展開作為一個(gè)監(jiān)督的信息。但是這些獎(jiǎng)勵(lì)雖然是自監(jiān)督,可以直接從圖像里計(jì)算,但它也是由人來定義的,是經(jīng)驗(yàn)告訴我們可以得到這樣的信息。

而且我覺得在任何一個(gè)算法里,如果必須由一個(gè)人類工程師去定義事情的話,往往會(huì)成為一個(gè)瓶頸。所以展望未來,我們?nèi)绾稳p少這種人為的經(jīng)驗(yàn)?是不是可以通過學(xué)一個(gè)未來預(yù)測模型,或者學(xué)一個(gè)比較通用的世界模型,然后用一種比較統(tǒng)一的方式去看,或者比較直覺的方式去設(shè)計(jì)?而不是我們需要去對(duì)每一個(gè)任務(wù)特定設(shè)計(jì)世界模型。我覺得這個(gè)可能是將來比較有意思的發(fā)展方向。

AI科技評(píng)論:目前對(duì)于通用人工智能的實(shí)現(xiàn),您有沒有一些理解和設(shè)想?

宋舒然:我覺得我沒有很清晰的理解和設(shè)想(笑)。通用人工智能是最終目標(biāo),但我們的確還有很大的距離。很多想法是有意思的,但以我現(xiàn)在有限的理解,還是需要很長時(shí)間的發(fā)展,很難說哪個(gè)方向是更有前景的,或更有意義的。雷峰網(wǎng)

但我覺得學(xué)習(xí)嵌入式智能是非常關(guān)鍵的一步,因?yàn)槲矣X得通用人工智能不只是理解網(wǎng)絡(luò)信息,不只是理解圖像或抽象數(shù)據(jù),還需要理解物理、理解3D環(huán)境。

AI科技評(píng)論:就是先不說通用人工智能是什么樣子,但是要增進(jìn)我們對(duì)通用人工智能的理解的話,我們不能局限于當(dāng)前已有的這些任務(wù),而是要去不斷探索新的任務(wù)是嗎?

宋舒然:對(duì)的,而且不能只考慮對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行抽象,還要考慮如果你要構(gòu)建一個(gè)「物理分身」(physical embodiment),比如機(jī)器人,它是可以在現(xiàn)實(shí)的物理世界中去與不同的物體互動(dòng)的。

不說人工智能,只是說我們(人類)的智能。其實(shí)我們學(xué)到了很多智能,但不只是通過網(wǎng)絡(luò),不只是通過讀書、看圖片或看視頻,很大一部分的智能是在交互中學(xué)習(xí)的,比如怎么走路,怎么拿起物體。

所以我的一個(gè)理解是,實(shí)現(xiàn)通用人工智能,機(jī)器人或嵌入式智能是非常重要的一步。

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2023-09-17 00:09:35

微軟新模型參數(shù)

2021-08-06 12:08:12

機(jī)器人

2017-01-09 17:41:41

2025-02-21 13:00:00

2020-09-14 14:32:06

AI機(jī)器人人工智能

2015-03-16 13:24:45

圖靈API

2017-08-21 13:31:44

AI聊天機(jī)器人facebook

2020-04-09 09:56:55

機(jī)器人導(dǎo)航框架

2020-07-24 14:54:17

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-10-15 15:42:00

人工智能

2021-11-06 10:53:07

機(jī)器學(xué)習(xí)機(jī)器人AI

2015-01-22 09:56:45

2024-12-25 11:30:43

2021-07-22 10:17:55

加密機(jī)器人加密貨幣機(jī)器人

2020-10-09 10:15:22

谷歌機(jī)器人輔助機(jī)器人

2021-05-14 13:42:45

機(jī)器人人工智能技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)