自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

上海交大發(fā)布「人類行為理解引擎」:AI逐幀理解大片中每個(gè)動(dòng)作

人工智能 新聞
能夠真正理解視頻的AI,就能在醫(yī)療健康護(hù)理、指引、警戒等機(jī)器人領(lǐng)域應(yīng)用。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

看圖看片,對(duì)現(xiàn)在的AI來(lái)說(shuō)早已不是什么難事。

不過(guò)讓AI分析視頻中的人類動(dòng)作時(shí),傳統(tǒng)基于目標(biāo)檢測(cè)的方法會(huì)碰到一個(gè)挑戰(zhàn):

靜態(tài)物體的模式與行為動(dòng)作的模式有很大不同,現(xiàn)有系統(tǒng)效果很不理想。

現(xiàn)在,來(lái)自上海交大的盧策吾團(tuán)隊(duì)基于這一思路,將整個(gè)任務(wù)分為了兩個(gè)階段:

先將像素映射到一個(gè)“基元活動(dòng)”組成的過(guò)度空間,然后再用可解釋的邏輯規(guī)則對(duì)檢測(cè)到的基元做推斷。

左:傳統(tǒng)方法,右:新方法

新方法讓AI真正看懂劇里的卷福手在舉杯(hold),右邊的人在伸手掏東西(reach for):

對(duì)于游戲中的多人場(chǎng)景也能準(zhǔn)確分辨每一個(gè)角色的當(dāng)前動(dòng)作:

甚至連速度飛快的自行車運(yùn)動(dòng)員都能完美跟隨:

能夠像這樣真正理解視頻的AI,就能在醫(yī)療健康護(hù)理、指引、警戒等機(jī)器人領(lǐng)域應(yīng)用。

這篇論文的一作為上海交大博士李永露,曾在CVPR 2020連中三篇論文。

目前相關(guān)代碼已開源。

知識(shí)驅(qū)動(dòng)的行為理解

要讓AI學(xué)習(xí)人類,首先要看看人類是怎么識(shí)別活動(dòng)的。

比如說(shuō),要分辨走路和跑步,我們肯定會(huì)優(yōu)先關(guān)注腿部的運(yùn)動(dòng)狀態(tài)。

再比如,要分辨一個(gè)人是否是在“喝水”,那么他的手是否在握杯,隨后頭又是否接觸杯子,這些動(dòng)作就成為了一個(gè)判斷標(biāo)準(zhǔn)。

這些原子性的,或者說(shuō)共通的動(dòng)作就可以被看作是一種“基元”(Primitive)。

我們正是將一個(gè)個(gè)的基元“組合”推理出整體的動(dòng)作,這就是就是人類的活動(dòng)感知。

那么AI是否也能基于發(fā)現(xiàn)這種基元的能力,將其進(jìn)行組合,并編程為某個(gè)具有組合概括性的語(yǔ)義呢?

因此,盧策吾團(tuán)隊(duì)便提出了一種知識(shí)驅(qū)動(dòng)的人類行為知識(shí)引擎,HAKE(Human Activity Knowledge Engine)。

這是一個(gè)兩階段的系統(tǒng):

  1. 將像素映射到由原子活動(dòng)基元跨越的中間空間
  2. 用一個(gè)推理引擎將檢測(cè)到的基元編程為具有明確邏輯規(guī)則的語(yǔ)義,并在推理過(guò)程中更新規(guī)則。

整體來(lái)說(shuō),上述兩個(gè)階段也可以分為兩個(gè)任務(wù)。

首先是建立一個(gè)包括了豐富的活動(dòng)-基元標(biāo)簽的知識(shí)庫(kù),作為推理的“燃料”。

在于702位參與者合作之后,HAKE目前已有35.7萬(wàn)的圖像/幀,67.3萬(wàn)的人像,22萬(wàn)的物體基元,以及2640萬(wàn)的PaSta基元。

其次,是構(gòu)建邏輯規(guī)則庫(kù)和推理引擎。

在檢測(cè)到基元后,研究團(tuán)隊(duì)使用深度學(xué)習(xí)來(lái)提取視覺(jué)和語(yǔ)言表征,并以此來(lái)表示基元。

然后,再用可解釋的符號(hào)推理按照邏輯規(guī)則為基元編程,捕獲因果的原始活動(dòng)關(guān)系。

在實(shí)驗(yàn)中,研究者選取了建立在HICO基礎(chǔ)上,包含4.7萬(wàn)張圖片和600次互動(dòng)的HICO-DET,以及包含430個(gè)帶有時(shí)空標(biāo)簽的視頻的AVA,這兩個(gè)大規(guī)模的基準(zhǔn)數(shù)據(jù)集。

在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)例級(jí)活動(dòng)檢測(cè):即同時(shí)定位活動(dòng)的人/物并對(duì)活動(dòng)進(jìn)行分類。

結(jié)果,HAKE,在HICO-DET上大大提升了以前的實(shí)例級(jí)方法,特別是在稀有集上,比TIN提高了9.74mAP(全類平均精度),HAKE的上限GT-HAKE也優(yōu)于最先進(jìn)的方法。

在AVA上,HAKE也提高了相當(dāng)多的活動(dòng)的檢測(cè)性能,特別是20個(gè)稀有的活動(dòng)。

通訊作者曾為李飛飛團(tuán)隊(duì)成員

論文的通訊作者是上海交通大學(xué)的盧策吾,也是計(jì)算機(jī)科學(xué)的教授。

在加入上海交大之前,他在香港中文大學(xué)獲得了博士學(xué)位,并曾在斯坦福大學(xué)擔(dān)任研究員,在李飛飛團(tuán)隊(duì)工作。

現(xiàn)在,他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)和機(jī)器人視覺(jué)。

一作李永露為上海交通大學(xué)的博士生,此前他曾在中國(guó)科學(xué)院自動(dòng)化研究所工作。

在CVPR 2020他連中三篇論文,也都是圍繞知識(shí)驅(qū)動(dòng)的行為理解(Human Activity Understanding)方面的工作。

論文:

https://arxiv.org/abs/2202.06851v1

開源鏈接:

https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-09-05 17:42:18

2020-07-23 09:32:50

AI 數(shù)據(jù)人工智能

2009-05-18 09:25:00

2014-04-15 15:49:19

博世2014

2024-04-01 07:25:00

AI框架

2009-07-03 11:42:00

2011-07-11 15:09:33

水晶石動(dòng)漫CG

2023-11-05 15:13:38

AI測(cè)評(píng)

2025-02-24 14:03:43

2025-03-13 13:10:00

2019-11-17 22:45:12

谷歌Android開發(fā)者

2020-11-05 17:26:56

人工智能技術(shù)算法

2025-04-01 09:25:00

2025-02-28 08:30:00

2009-11-02 10:06:38

錢學(xué)森上海交大

2021-12-15 18:51:46

量子超算引力波

2017-01-15 21:20:30

SparkApache Spar數(shù)據(jù)科學(xué)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)