自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

引入多感官數(shù)據(jù)學(xué)習(xí),華人學(xué)者摘得2021 UT-Austin最佳博士論文獎

新聞
UT-Austin 本年度的最佳博士論文獎獲得者 Ruohan Gao,目前是斯坦福大學(xué)的博士后研究員。

 [[431686]]

在本年度的評選中,華人學(xué)者 Ruohan Gao 的博士學(xué)位論文《Look and Listen: From Semantic to Spatial Audio-Visual Perception》獲得了 Michael H. Granof 獎。

引入多感官數(shù)據(jù)學(xué)習(xí),華人學(xué)者摘得2021 UT-Austin最佳博士論文獎

杰出博士論文獎設(shè)立于 1979 年,旨在表彰出色的研究以及鼓勵最高的研究、寫作、學(xué)術(shù)水平。每年頒發(fā)三個獎項(xiàng),其中一篇會被選中獲得該校的最佳論文獎「Michael H. Granof 獎」。杰出論文獎獲得者將獲得 5000 美元獎金,Granof 獎獲得者獲得 6000 美元獎金。

Ruohan Gao

[[431687]]

Ruohan Gao2015 年于香港中文大學(xué)(CUHK)信息工程系獲得一等榮譽(yù)學(xué)位,導(dǎo)師為劉永昌(Wing Cheong Lau)教授。

博士期間,Ruohan Gao 師從 Kristen Grauman 教授。他的研究興趣是計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等,特別是視頻中的多模態(tài)學(xué)習(xí)和多模態(tài)下的 embodied learning。2021 年初,Ruohan Gao 從德克薩斯大學(xué)奧斯汀分校獲得博士學(xué)位。

目前,Ruohan Gao 是斯坦福大學(xué)視覺與學(xué)習(xí)實(shí)驗(yàn)室(SVL)的博士后研究員。

此外,Ruohan Gao 還獲得過谷歌博士生獎研金(Google Ph.D Fellowship)、Adobe 研究獎研金(Adobe Research Fellowship)等榮譽(yù)。

這篇論文研究了什么?

引入多感官數(shù)據(jù)學(xué)習(xí),華人學(xué)者摘得2021 UT-Austin最佳博士論文獎

論文鏈接:https://ai.stanford.edu/~rhgao/Ruohan_Gao_dissertation.pdf

理解場景和事件本質(zhì)上是一種多模態(tài)經(jīng)驗(yàn)。人們通過觀察、傾聽 (以及觸摸、嗅和品嘗) 來感知世界,特別是物體發(fā)出的聲音,無論是主動產(chǎn)生的還是偶然發(fā)出的,都提供了關(guān)于自身物理屬性和空間位置的有價值的信號,正如鈸在舞臺上撞擊,鳥在樹上鳴叫,卡車沿著街區(qū)疾馳,銀器在抽屜里叮當(dāng)作響……

盡管通過「看」,也就是根據(jù)物體、行為或人的外表檢測的識別取得了重大進(jìn)展,但它往往不能夠「聽」。在這篇論文中,作者證明了與視覺場景和事件同步的音頻可以作為豐富的訓(xùn)練信號來源,用于學(xué)習(xí) (視聽) 視覺模型。此外,作者開發(fā)了計(jì)算模型,利用音頻中的語義和空間信號,從連續(xù)的多模態(tài)觀測中理解人、地點(diǎn)和事物。

引入多感官數(shù)據(jù)學(xué)習(xí),華人學(xué)者摘得2021 UT-Austin最佳博士論文獎

當(dāng)前大多數(shù)計(jì)算機(jī)視覺系統(tǒng)的現(xiàn)狀是從大量「無聲」數(shù)據(jù)集的標(biāo)記圖像中學(xué)習(xí),而該論文研究目標(biāo)是既要會傾聽,又要了解視覺世界。

作者表示,受到人類利用所有感官對世界進(jìn)行感知的啟發(fā),自己的長期研究目標(biāo)是建立一個系統(tǒng),通過結(jié)合所有的多感官輸入,能夠像人類一樣感知世界。在論文的最后一章,作者概述了在此博士論文之外希望追求的未來研究方向。

引入多感官數(shù)據(jù)學(xué)習(xí),華人學(xué)者摘得2021 UT-Austin最佳博士論文獎

圖 1.2: 音頻本身是一個監(jiān)督信號,用于語義和空間理解。

研究的首要目標(biāo)是從視頻和嵌入智能體中復(fù)現(xiàn)視聽模型: 當(dāng)多個聲源存在時,算法如何知道發(fā)聲對象是什么以及在哪里?這些視聽模型如何在傳統(tǒng)的視聽任務(wù)有所提升?為了解決這些問題,該研究利用了音頻中的語義和空間信號,從連續(xù)的多模態(tài)觀測中理解人、地點(diǎn)和事物(圖 1.2)。

這篇論文研究了以下四個重要問題,以逐步接近視聽場景綜合理解的最終目標(biāo):

  • 同時觀看和聆聽包含多個聲源的未標(biāo)記視頻,以學(xué)習(xí)音視頻源分離模型(第 3 章、第 4 章和第 5 章);
  • 利用音頻作為預(yù)覽機(jī)制,在未修剪的視頻中實(shí)現(xiàn)高效的動作識別(第 6 章);
  • 利用未標(biāo)記視頻中的視覺信息推斷雙耳音頻,將平面單聲道音頻「提升」為空間化的聲音(第 7 章);
  • 通過回聲定位學(xué)習(xí)空間圖像表征,監(jiān)測來自與物理世界的聲學(xué)互動(第 8 章)。

作者表示,本論文對視聽學(xué)習(xí)的研究,體現(xiàn)了無監(jiān)督或自監(jiān)督的多感官數(shù)據(jù)學(xué)習(xí)對人工智能的未來發(fā)展具有積極而重要的意義。

更多細(xì)節(jié)請參見論文原文。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-04-24 16:40:55

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2023-04-06 15:45:00

博士論文

2023-06-05 14:11:14

論文

2021-07-19 15:02:48

機(jī)器人人工智能算法

2024-08-28 14:30:00

論文AI

2023-08-09 17:10:01

論文獲獎

2024-11-15 14:00:00

AI論文

2024-06-20 10:39:49

2021-08-17 14:57:01

數(shù)據(jù)論文 技術(shù)

2025-04-03 08:30:00

AI科學(xué)論文

2021-10-18 17:54:13

論文博士數(shù)據(jù)

2023-11-10 12:53:35

論文AI

2021-07-15 16:05:29

編程Rust開發(fā)

2018-04-09 09:19:08

谷歌開源機(jī)器學(xué)習(xí)

2023-11-07 17:30:50

2019-02-25 10:09:48

Python翟天臨數(shù)據(jù)

2023-12-27 14:07:00

模型訓(xùn)練

2022-10-09 14:53:35

機(jī)器學(xué)習(xí)

2021-08-03 14:00:06

數(shù)據(jù)研究論文

2021-11-16 15:26:23

強(qiáng)化學(xué)習(xí)火箭人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號