自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

《自然》:機(jī)器視覺行為理解與腦神經(jīng)有內(nèi)在關(guān)聯(lián)?上交盧策吾團(tuán)隊構(gòu)建映射模型

人工智能 機(jī)器學(xué)習(xí) 新聞
來自上海交通大學(xué)的盧策吾教授團(tuán)隊多年來致力于行為理解研究,最新成果已發(fā)表在《自然》上。

當(dāng)行為主體在執(zhí)行某個行為時,其大腦是否產(chǎn)生了對應(yīng)的穩(wěn)定腦神經(jīng)模式映射?如果存在穩(wěn)定映射,是否能運(yùn)用機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)未知行為神經(jīng)回路?

為了回答這一系列行為理解的本質(zhì)問題,近日一項發(fā)表在《自然》上的工作對行為理解機(jī)理進(jìn)行了研究。該論文的兩位共同通訊作者為上海交通大學(xué)的盧策吾教授與Salk研究院Kay M. Tye教授。

論文鏈接:https://www.nature.com/articles/s41586-022-04507-5 該成果基于計算機(jī)視覺技術(shù)定量闡釋了機(jī)器視覺行為理解與腦神經(jīng)的內(nèi)在關(guān)聯(lián),并首次建立了其穩(wěn)定映射模型。形成計算機(jī)視覺行為分析發(fā)現(xiàn)行為神經(jīng)回路這一運(yùn)用人工智能解決神經(jīng)科學(xué)基礎(chǔ)問題的新研究范式,具體為計算機(jī)智能算法通過大規(guī)模對小鼠社交和競爭行為視頻的理解,發(fā)現(xiàn)了控制 “動物社會層級(Social Hierarchy)行為”的神經(jīng)回路,面向回答哺乳動物是如何判斷其他個體與自己在社會群體地位高低并做出行為決策的問題,其形成的新研究范式也進(jìn)一步推動了人工智能與基礎(chǔ)科學(xué)問題前沿交叉(AI for Science)領(lǐng)域的發(fā)展。

具體研究內(nèi)容如下: 

圖1. 視覺行為檢測-腦神經(jīng)信號關(guān)聯(lián)模型:(a)小鼠視覺行為理解(b)系統(tǒng)框架與模型學(xué)習(xí)。

視覺行為檢測-腦神經(jīng)信號關(guān)聯(lián)模型:我們以小鼠群為實驗對象,為每只小鼠佩戴無線電生理記錄設(shè)備,以記錄社交活動中的特定腦區(qū)內(nèi)側(cè)前額葉皮層 (mPFC)的序列腦神經(jīng)信號。同時,通過多個攝像頭跟蹤定位每只小鼠,基于盧策吾教授團(tuán)隊研究開發(fā)的姿態(tài)估計(如alphapose)與行為分類研究成果提取行為語義標(biāo)簽,達(dá)到小鼠的姿態(tài)估計準(zhǔn)確率高于人眼水平?;谔岢鱿到y(tǒng)自動采集的大量數(shù)據(jù),隱馬爾可夫模型訓(xùn)練從“小鼠mPFC腦區(qū)的神經(jīng)活動信號”到“行為標(biāo)簽”的回歸模型,發(fā)現(xiàn)訓(xùn)練后在測試集上仍然有穩(wěn)定映射關(guān)系,揭示了行為視覺類型與其行為主體大腦中的腦神經(jīng)信號模式存在穩(wěn)定的映射關(guān)系。 

模型應(yīng)用:控制動物社會層級(Social Hierarchy)行為神經(jīng)回路發(fā)現(xiàn):基于視覺行為檢測-腦神經(jīng)信號關(guān)聯(lián)模型,我們可以發(fā)現(xiàn)新的行為神經(jīng)回路。“動物社會層級”行為神經(jīng)控制機(jī)理(比如,低等級小鼠會讓高等級小鼠優(yōu)先進(jìn)食,低等級小鼠會表現(xiàn)出服從行為)一直是學(xué)界重要問題,即哺乳動物是如何判斷其他個體與自己的社會群體地位高低的?其背后的神經(jīng)控制機(jī)制是怎么樣的?由于動物社會層級行為是復(fù)雜行為概念,該問題一直為學(xué)界未所突破的難題。我們在大規(guī)模的小鼠群體競爭視頻中,定位 “動物社會層級”行為基于上述系統(tǒng)和模型,并同時記錄到動物社會層級行為的腦部活動狀態(tài),深度解析了動物社會層級行為在大腦中的形成機(jī)制,即發(fā)現(xiàn)內(nèi)側(cè)前額葉皮層-外側(cè)下丘腦(mPFC-LH)回路具有控制動物社會層級行為的功能,并得到嚴(yán)格生物學(xué)實驗的證實。該研究形成了基于機(jī)器視覺學(xué)習(xí)發(fā)現(xiàn)未知行為功能神經(jīng)回路的新研究范式,也進(jìn)一步推動了人工智能解決基礎(chǔ)科學(xué)問題(AI for Science)的發(fā)展。

盧策吾團(tuán)隊行為理解研究

上述工作是盧策吾團(tuán)隊多年的行為理解方面積累的一部分。機(jī)器如何理解行為,需要全面地回答以下三個問題:

1. 機(jī)器認(rèn)知角度:如何讓機(jī)器看懂行為?

2. 神經(jīng)認(rèn)知角度:機(jī)器認(rèn)知語義與神經(jīng)認(rèn)知的內(nèi)在關(guān)聯(lián)是什么?

3. 具身認(rèn)知角度:如何將行為理解知識遷移到的機(jī)器人系統(tǒng)?

圖2. 盧策吾團(tuán)隊圍繞行為理解主要工作

此次在《自然》上發(fā)表的工作正是想回答第二個問題,對于其他兩個問題團(tuán)隊主要工作有:

1、如何讓機(jī)器看懂行為?

主要工作包括:

  • 人類行為知識引擎HAKE(Human Activity Knowledge Engine)

為探索可泛化、可解釋、可擴(kuò)展的行為識別方法,要克服行為模式和語義間的模糊聯(lián)系、數(shù)據(jù)分布長尾等問題。區(qū)別于一般的直接深度學(xué)習(xí)“黑盒”模式,團(tuán)隊構(gòu)建了知識引導(dǎo)與數(shù)據(jù)驅(qū)動的行為推理引擎HAKE(開源網(wǎng)站:http://hake-mvig.cn/home/): 

圖3. HAKE系統(tǒng)框架

HAKE將行為理解任務(wù)分為兩階段,首先將視覺模式映射到人體局部狀態(tài)原語空間,用有限且接近完備的原子的原語表達(dá)多樣的行為模式;隨后將原語依據(jù)邏輯規(guī)則進(jìn)行編程,以可推理行為語義。HAKE提供了大型的行為原語知識庫以支持高效的原語分解,并借助組合泛化和可微神經(jīng)符號推理完成行為理解,具有以下特點(發(fā)表TPAMI,CVPR等計算機(jī)視覺頂刊頂會十余篇):

(1)規(guī)則可學(xué)習(xí):HAKE可根據(jù)少量人類行為-原語的先驗知識進(jìn)行邏輯規(guī)則的自動挖掘和驗證,即對原語組合規(guī)則進(jìn)行總結(jié),并在實際數(shù)據(jù)上進(jìn)行演繹驗證,以發(fā)現(xiàn)有效且可泛化的規(guī)則,發(fā)現(xiàn)未知行為規(guī)則,如圖4。

圖4. 學(xué)習(xí)未見行為規(guī)則

(2)人類性能upper bound:在87類復(fù)雜行為實例級別行為檢測測試集(10,000張圖像)上,具備完備原語檢測的HAKE系統(tǒng)的性能甚至可接近人類的行為感知性能,驗證了其巨大潛力。

(3)行為理解“圖靈測試”: 

圖5. 讓機(jī)器(HAKE)和人類抹去部分像素使得無法理解圖中行為,圖靈測試表明,HAEK的“抹去手法”和人類十分相似。

我們還提出了一種特殊“圖靈測試”:若機(jī)器可以從圖像中抹去關(guān)鍵像素,使得人類被試者也無法分辨該行為時,即認(rèn)為其可以較好地理解該行為。分別讓HAKE和人類去做這種抹去操作。并請另一批志愿者做圖靈測試,問這個抹去操作是人類還是HAKE操作。人類分辨的正確率約為59.55%(隨機(jī)猜50%),說明HAKE的“抹去手法”和人類十分相似,側(cè)面印證了在行為“可解釋性”的理解上與人類相近。

  • 行為對象可泛化的腦啟發(fā)計算模型(《自然?機(jī)器智能》)

對于某個特定行為(如“洗”),人類大腦能抽象出泛化的行為動態(tài)概念,適用于不同的視覺對象(如衣服、茶具、鞋),并以此做出行為識別。神經(jīng)科學(xué)領(lǐng)域研究發(fā)現(xiàn),對于連續(xù)視覺信號輸入,在人類的記憶形成過程中,時空動態(tài)信息與物體對象信息是通過兩個相對獨(dú)立的信息通路到達(dá)海馬體以形成完整的記憶,這個帶來行為對象可泛化的可能性。

圖6. 解耦合地處理行為對象概念和行為動態(tài)概念,帶來的泛化性。

基于腦科學(xué)啟發(fā),盧策吾團(tuán)隊通過模仿人類的認(rèn)知行為對象與動態(tài)概念在各種腦區(qū)獨(dú)立工作的機(jī)制,提出了適用于高維度信息的半耦合結(jié)構(gòu)模型(SCS),實現(xiàn)自主發(fā)掘(awareness)行為視覺對象概念與行為動態(tài)概念,將兩種概念分別記憶存儲在相對獨(dú)立的兩部分神經(jīng)元上。在深度耦合模型框架下設(shè)計信息獨(dú)立誤差反傳(decouple back-propagation)機(jī)制,約束兩類神經(jīng)元只關(guān)注自己的概念,初步實現(xiàn)了行為理解對行為主體對象的泛化。所提出半耦合結(jié)構(gòu)模型工作發(fā)表在《自然?機(jī)器智能》,并獲得2020年世界人工智能大會優(yōu)秀青年論文獎。 

        視頻序列    對象神經(jīng)元      動態(tài)神經(jīng)元

圖7.可視化表征“視覺對象”與“行為動態(tài)概念”的神經(jīng)元《自然?機(jī)器智能》

  • 人體姿態(tài)估計

人體姿態(tài)估計是行為理解的重要基礎(chǔ),該問題是一個在結(jié)構(gòu)約束下獲取精準(zhǔn)感知的問題,圍繞結(jié)構(gòu)約束下感知問題,提出圖競爭匹配、姿態(tài)流全局優(yōu)化、神經(jīng)-解析混合的逆運(yùn)動優(yōu)化等算法,系統(tǒng)性地解決人體運(yùn)動結(jié)構(gòu)感中密集人群干擾大、姿態(tài)跟蹤不穩(wěn)定、三維人體常識性錯誤嚴(yán)重等難題,前后發(fā)表CVPR,ICCV等計算機(jī)視覺頂會論文20多篇;

圖8. 結(jié)構(gòu)感知的工作。相關(guān)研究成果積累形成開源系統(tǒng)AlphaPose(https://github.com/MVIG-SJTU/AlphaPose),在開源社區(qū)GitHub上獲得5954 Star(Fork數(shù)為1656),GitHub排名前十萬份之1.6。被傳感器領(lǐng)域、機(jī)器人領(lǐng)域、醫(yī)學(xué)領(lǐng)域、城市建設(shè)領(lǐng)域廣泛使用。在姿態(tài)估計后,團(tuán)隊進(jìn)一步形成開源視頻行為理解開源框架Alphaction(https://github.com/MVIG-SJTU/AlphAction)。

2、如何將行為理解知識遷移到的機(jī)器人系統(tǒng)?

探索結(jié)合第一人稱角度理解人類行為本質(zhì),從單純考慮“她/他在做什么”到聯(lián)合考慮“我在做什么”。這種研究范式也正是 “具身智能”(Embodied AI)的研究思路。探索將該理解能力與學(xué)習(xí)得到的行為知識遷移到具身智能本體(人形機(jī)器人),使機(jī)器人初步具有“人類行為能力”,最后驅(qū)動機(jī)器人完成真實世界的部分任務(wù),為通用服務(wù)機(jī)器人奠定基礎(chǔ)。

以上科學(xué)問題的解決將:(1)大大提高行為語義檢測性能和提升語義理解范圍;(2)有力地提高智能體(特別是人形機(jī)器人)對真實世界的理解能力,同時根據(jù)完成任務(wù)過程中真實世界的反饋檢驗機(jī)器對行為概念本質(zhì)的理解程度,為通用智能機(jī)器人的實現(xiàn)打下重要基礎(chǔ)。 近年來盧策吾團(tuán)隊在具身智能領(lǐng)域聯(lián)合非夕科技構(gòu)建通用物體抓取框架GraspNet(https://graspnet.net/anygrasp.html),實現(xiàn)了任意場景下剛體、可變形物體、透明物體等各種類型的未見物體的抓取,首次將PPH(picks per hour)指標(biāo)超越人類水平,為之前性能最優(yōu)的DexNet算法的三倍,相關(guān)論文發(fā)表一年內(nèi)被引用70次。物體抓取是機(jī)器人操作的第一步,為該項目打下良好基礎(chǔ)。

機(jī)器人行為-物體模型交互感知實現(xiàn)機(jī)器人行為執(zhí)行能力與物體知識理解聯(lián)合學(xué)習(xí)與迭代提高,通過機(jī)器人交互本質(zhì)上降低物體模型感知估計誤差,并基于物體知識的理解進(jìn)一步提高機(jī)器人行為執(zhí)行能力。比起之前純視覺物體識別,交互帶來新的信息源,帶來感知性能本質(zhì)提高。如圖9與視頻所示,

圖9. 物體知識模型-機(jī)器人行為決策迭代提高

圖10. 交互感知:機(jī)器人行為能力(上圖)與模型理解能力(下圖)聯(lián)合學(xué)習(xí) (邊執(zhí)行行為,邊提高糾正感知) 

相關(guān)工作是發(fā)表在ICRA 2022上的論文《SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional, and Incremental Robot Learning》(SAGCI 系統(tǒng):面向樣本高效、可擴(kuò)展、可組合和可增量的機(jī)器人學(xué)習(xí)框架)。

  • 網(wǎng)站:https://mvig.sjtu.edu.cn/research/sagci/index.html
  • 視頻:https://www.bilibili.com/video/BV1H3411H7be/

盧策吾,上海交通大學(xué)教授,博士生導(dǎo)師,研究方向為人工智能。2018年被《麻省理工科技評論》評選為中國35歲以下創(chuàng)新精英35人(MIT TR35),2019年獲求是杰出青年學(xué)者。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-19 13:17:38

視覺語言模型Pytorch人工智能

2020-04-30 11:05:50

機(jī)器閱讀人工智能機(jī)器學(xué)習(xí)

2022-02-25 14:58:51

神經(jīng)網(wǎng)絡(luò)芯片AI

2024-11-22 13:30:00

2024-03-21 08:00:00

機(jī)器學(xué)習(xí)人工智能

2021-08-17 15:47:12

機(jī)器學(xué)習(xí)自然語言神經(jīng)網(wǎng)絡(luò)

2017-12-04 18:03:46

供應(yīng)鏈物流管理信息化

2018-02-27 09:32:13

神經(jīng)網(wǎng)絡(luò)自然語言初探

2017-07-07 14:41:13

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2021-11-02 09:40:50

TensorFlow機(jī)器學(xué)習(xí)人工智能

2022-08-09 13:44:37

機(jī)器學(xué)習(xí)PySpark M數(shù)據(jù)分析

2016-03-18 15:51:24

大數(shù)據(jù)預(yù)測

2017-01-10 17:38:37

微信小程序

2020-04-15 09:20:08

數(shù)據(jù)護(hù)欄行為分析數(shù)據(jù)庫安全

2024-02-26 07:30:00

神經(jīng)網(wǎng)絡(luò)AI

2009-09-25 12:59:52

Hibernate映射

2025-03-04 08:00:00

機(jī)器學(xué)習(xí)Rust開發(fā)

2018-06-29 09:00:00

人工智能機(jī)器學(xué)習(xí)機(jī)器人

2022-07-25 08:00:00

機(jī)器學(xué)習(xí)SOM算法
點贊
收藏

51CTO技術(shù)棧公眾號