上海交大發(fā)布「人類行為理解引擎」:AI逐幀理解大片中每個(gè)動(dòng)作
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
看圖看片,對(duì)現(xiàn)在的AI來(lái)說(shuō)早已不是什么難事。
不過(guò)讓AI分析視頻中的人類動(dòng)作時(shí),傳統(tǒng)基于目標(biāo)檢測(cè)的方法會(huì)碰到一個(gè)挑戰(zhàn):
靜態(tài)物體的模式與行為動(dòng)作的模式有很大不同,現(xiàn)有系統(tǒng)效果很不理想。
現(xiàn)在,來(lái)自上海交大的盧策吾團(tuán)隊(duì)基于這一思路,將整個(gè)任務(wù)分為了兩個(gè)階段:
先將像素映射到一個(gè)“基元活動(dòng)”組成的過(guò)度空間,然后再用可解釋的邏輯規(guī)則對(duì)檢測(cè)到的基元做推斷。
△
左:傳統(tǒng)方法,右:新方法
新方法讓AI真正看懂劇里的卷福手在舉杯(hold),右邊的人在伸手掏東西(reach for):
對(duì)于游戲中的多人場(chǎng)景也能準(zhǔn)確分辨每一個(gè)角色的當(dāng)前動(dòng)作:
甚至連速度飛快的自行車運(yùn)動(dòng)員都能完美跟隨:
能夠像這樣真正理解視頻的AI,就能在醫(yī)療健康護(hù)理、指引、警戒等機(jī)器人領(lǐng)域應(yīng)用。
這篇論文的一作為上海交大博士李永露,曾在CVPR 2020連中三篇論文。
目前相關(guān)代碼已開源。
知識(shí)驅(qū)動(dòng)的行為理解
要讓AI學(xué)習(xí)人類,首先要看看人類是怎么識(shí)別活動(dòng)的。
比如說(shuō),要分辨走路和跑步,我們肯定會(huì)優(yōu)先關(guān)注腿部的運(yùn)動(dòng)狀態(tài)。
再比如,要分辨一個(gè)人是否是在“喝水”,那么他的手是否在握杯,隨后頭又是否接觸杯子,這些動(dòng)作就成為了一個(gè)判斷標(biāo)準(zhǔn)。
這些原子性的,或者說(shuō)共通的動(dòng)作就可以被看作是一種“基元”(Primitive)。
我們正是將一個(gè)個(gè)的基元“組合”推理出整體的動(dòng)作,這就是就是人類的活動(dòng)感知。
那么AI是否也能基于發(fā)現(xiàn)這種基元的能力,將其進(jìn)行組合,并編程為某個(gè)具有組合概括性的語(yǔ)義呢?
因此,盧策吾團(tuán)隊(duì)便提出了一種知識(shí)驅(qū)動(dòng)的人類行為知識(shí)引擎,HAKE(Human Activity Knowledge Engine)。
這是一個(gè)兩階段的系統(tǒng):
- 將像素映射到由原子活動(dòng)基元跨越的中間空間
- 用一個(gè)推理引擎將檢測(cè)到的基元編程為具有明確邏輯規(guī)則的語(yǔ)義,并在推理過(guò)程中更新規(guī)則。
整體來(lái)說(shuō),上述兩個(gè)階段也可以分為兩個(gè)任務(wù)。
首先是建立一個(gè)包括了豐富的活動(dòng)-基元標(biāo)簽的知識(shí)庫(kù),作為推理的“燃料”。
在于702位參與者合作之后,HAKE目前已有35.7萬(wàn)的圖像/幀,67.3萬(wàn)的人像,22萬(wàn)的物體基元,以及2640萬(wàn)的PaSta基元。
其次,是構(gòu)建邏輯規(guī)則庫(kù)和推理引擎。
在檢測(cè)到基元后,研究團(tuán)隊(duì)使用深度學(xué)習(xí)來(lái)提取視覺(jué)和語(yǔ)言表征,并以此來(lái)表示基元。
然后,再用可解釋的符號(hào)推理按照邏輯規(guī)則為基元編程,捕獲因果的原始活動(dòng)關(guān)系。
在實(shí)驗(yàn)中,研究者選取了建立在HICO基礎(chǔ)上,包含4.7萬(wàn)張圖片和600次互動(dòng)的HICO-DET,以及包含430個(gè)帶有時(shí)空標(biāo)簽的視頻的AVA,這兩個(gè)大規(guī)模的基準(zhǔn)數(shù)據(jù)集。
在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)例級(jí)活動(dòng)檢測(cè):即同時(shí)定位活動(dòng)的人/物并對(duì)活動(dòng)進(jìn)行分類。
結(jié)果,HAKE,在HICO-DET上大大提升了以前的實(shí)例級(jí)方法,特別是在稀有集上,比TIN提高了9.74mAP(全類平均精度),HAKE的上限GT-HAKE也優(yōu)于最先進(jìn)的方法。
在AVA上,HAKE也提高了相當(dāng)多的活動(dòng)的檢測(cè)性能,特別是20個(gè)稀有的活動(dòng)。
通訊作者曾為李飛飛團(tuán)隊(duì)成員
論文的通訊作者是上海交通大學(xué)的盧策吾,也是計(jì)算機(jī)科學(xué)的教授。
在加入上海交大之前,他在香港中文大學(xué)獲得了博士學(xué)位,并曾在斯坦福大學(xué)擔(dān)任研究員,在李飛飛團(tuán)隊(duì)工作。
現(xiàn)在,他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)和機(jī)器人視覺(jué)。
一作李永露為上海交通大學(xué)的博士生,此前他曾在中國(guó)科學(xué)院自動(dòng)化研究所工作。
在CVPR 2020他連中三篇論文,也都是圍繞知識(shí)驅(qū)動(dòng)的行為理解(Human Activity Understanding)方面的工作。
論文:
https://arxiv.org/abs/2202.06851v1
開源鏈接:
https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/Activity2Vec