自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟計(jì)算機(jī)視覺創(chuàng)研論壇首日干貨:3項(xiàng)前沿檢測(cè)技術(shù)解讀

新聞 人工智能
5月15日消息,昨日上午9點(diǎn),微軟亞洲研究院創(chuàng)研論壇CVPR 2020論文分享會(huì)線上開幕。

 微軟計(jì)算機(jī)視覺創(chuàng)研論壇首日干貨:3項(xiàng)前沿檢測(cè)技術(shù)解讀

5月15日消息,昨日上午9點(diǎn),微軟亞洲研究院創(chuàng)研論壇CVPR 2020論文分享會(huì)線上開幕。會(huì)議有19位計(jì)算機(jī)視覺(CV)領(lǐng)域?qū)W者分享最新研究成果,講解內(nèi)容涉及檢測(cè)、多模態(tài)、底層視覺、圖像生成、機(jī)器學(xué)習(xí)5大方向。

14日上午,3位計(jì)算機(jī)視覺檢測(cè)方向的研究員做了分享,分別介紹了先進(jìn)的人臉識(shí)別技術(shù)、動(dòng)作檢測(cè)技術(shù)和目標(biāo)檢測(cè)技術(shù)。智東西對(duì)這3項(xiàng)先進(jìn)技術(shù)進(jìn)行解讀。

微軟亞洲研究院創(chuàng)研論壇CVPR 2020論文分享會(huì)是計(jì)算機(jī)視覺(CV)領(lǐng)域最重要的會(huì)議之一,本屆會(huì)議共分享近20項(xiàng)CV領(lǐng)域前沿技術(shù)。

一、X射線檢測(cè)算法識(shí)別假圖像,準(zhǔn)確率可達(dá)95.4%

Deepfake技術(shù)的濫用輕則造成虛假信息問題,重則會(huì)引起金融安全風(fēng)險(xiǎn)、侵權(quán)問題等。一些Deepfake圖像可以做到以假亂真,人類肉眼難以判斷出來。這種情況下,人臉識(shí)別技術(shù)可以幫我們辨別。

現(xiàn)有的人臉識(shí)別工具大多針對(duì)某種特定Deepfake技術(shù)訓(xùn)練,用假人臉圖像作為輸入。就是說,人臉識(shí)別技術(shù)只能識(shí)別出特定方法合成的假圖像。一旦Deepfake技術(shù)進(jìn)化或換用其他Deepfake技術(shù),人臉識(shí)別模型就可能失效。

微軟亞洲研究院研究員鮑建敏講解了人臉X射線識(shí)別技術(shù)(Face X-ray),這種技術(shù)用真實(shí)人臉圖像進(jìn)行訓(xùn)練。即使Deepfake技術(shù)進(jìn)化,X射線人臉檢測(cè)算法也能保持較高的準(zhǔn)確性。

制作一張假圖像的方法是把兩張圖像疊加,即把一張修改過的人臉圖像(前景)合成到背景圖像(后景)中。研究人員注意到,由于每張圖像拍攝或制作過程中用到不同的硬件(傳感器、透鏡等)或軟件(壓縮、合成算法等),前景圖像和后景圖像的特征不可能完全相同,因此人臉圖像和背景圖像之間存在一個(gè)“邊界”。

Face X-ray技術(shù)利用了上述特征,用人臉灰度圖像作為輸入。Face X-ray模型可以識(shí)別出不同灰度圖像之間的差異,這樣不僅可以顯示出人臉圖像是真實(shí)的還是偽造的,還能確定虛假圖像混合邊界的位置。

微軟計(jì)算機(jī)視覺創(chuàng)研論壇首日干貨:3項(xiàng)前沿檢測(cè)技術(shù)解讀

▲左起第一張為真實(shí)圖像,其他均為假圖像,F(xiàn)ace X-ray模型檢測(cè)出了假圖像混合邊界位置。

研究人員對(duì)比了Face X-ray模型與之前人臉識(shí)別工具的性能。結(jié)果顯示,模型檢測(cè)出來的假臉幀數(shù)比之前的二分類方法更多,識(shí)別準(zhǔn)確率最高可達(dá)95.4%。

微軟計(jì)算機(jī)視覺創(chuàng)研論壇首日干貨:3項(xiàng)前沿檢測(cè)技術(shù)解讀

鮑建敏指出,算法還有一定局限性。比如,F(xiàn)ace X-ray主要用人臉圖像數(shù)據(jù)庫FF++進(jìn)行訓(xùn)練。FF++中大部分圖像都是正臉圖像,所以模型識(shí)別側(cè)臉的準(zhǔn)確性較低。

二、DAGM模型:區(qū)分動(dòng)作與上下文,準(zhǔn)確識(shí)別出動(dòng)作

微軟亞洲研究院研究員戴琦講解了一種動(dòng)作檢測(cè)技術(shù),該技術(shù)可以從視頻中識(shí)別出動(dòng)作。據(jù)了解,目前的動(dòng)作檢測(cè)技術(shù)可以分為全監(jiān)督方法和弱監(jiān)督方法。

全監(jiān)督方法的動(dòng)作檢測(cè)模型需要在訓(xùn)練過程中需要對(duì)動(dòng)作間隔進(jìn)行時(shí)間注釋,十分昂貴和費(fèi)時(shí)。因此現(xiàn)有的動(dòng)作檢測(cè)工具多采用弱監(jiān)督動(dòng)作定位(WSAL,weakly-supervised action localization)技術(shù)。

WSAL技術(shù)有兩種類型,第一類建立一個(gè)從上到下的管道,學(xué)習(xí)一個(gè)視頻級(jí)別的分類器,通過檢查生成的時(shí)間分類動(dòng)作地圖(TACM,temporal class activation map)來獲得幀注意力(frame attention)。第二類是從下到上的,直接從原始數(shù)據(jù)中預(yù)測(cè)時(shí)間注意力(temporal attention),然后從視頻級(jí)監(jiān)控的視頻分類中優(yōu)化任務(wù)。

兩種方法都依賴于視頻級(jí)別的分類模型,這會(huì)導(dǎo)致動(dòng)作和上下文混淆(action-context confusion)的問題。比如,在一段跳遠(yuǎn)的視頻中,跳遠(yuǎn)動(dòng)作(action)僅包括接近、跳躍、著陸3個(gè)階段,但是工作檢測(cè)模型常把準(zhǔn)備和結(jié)束階段(context)也選中。

微軟計(jì)算機(jī)視覺創(chuàng)研論壇首日干貨:3項(xiàng)前沿檢測(cè)技術(shù)解讀

研究人員認(rèn)為,解決這一問題的關(guān)鍵在于找到動(dòng)作和上下文之間的區(qū)別。他們用判別性注意力模型(Discriminative Attention Modeling)和生成性注意力模型(GAM,Generative Attention Modeling)優(yōu)化檢測(cè)工具,提出了判別性和生成性注意力模型(DAGM,Discriminative and Gener-ative Attention Modeling)。

研究人員對(duì)比了DAGM模型與其他弱監(jiān)督動(dòng)作工具的性能。結(jié)果顯示,DAGM模型的性能較好,平均精度最高可達(dá)41。

微軟計(jì)算機(jī)視覺創(chuàng)研論壇首日干貨:3項(xiàng)前沿檢測(cè)技術(shù)解讀

三、TSD算法:把檢測(cè)工具精度提高3~5%

目標(biāo)識(shí)別算法一般從兩個(gè)維度檢測(cè)物體:分類(Classification)和回歸(Localization)。前者指識(shí)別物體的屬性,后者指定位物體的位置。

傳統(tǒng)檢測(cè)方法通常一起學(xué)習(xí)分類和回歸,共享物體潛在存在的區(qū)域框(Proposal)和特征提取器(Sibling head)。

這種檢測(cè)方法的局限性是最終輸出的圖片框的分類置信度和檢測(cè)框的準(zhǔn)確度不一致,識(shí)別準(zhǔn)確率較低。

研究人員發(fā)現(xiàn),這是因?yàn)榉诸惾蝿?wù)和回歸任務(wù)存在差別:分類任務(wù)更關(guān)注語義信息豐富的地方,回歸任務(wù)更關(guān)注物體的邊界。因此,共享物體潛在存在的區(qū)域框(Proposal)和特征提取器(Sibling head)會(huì)對(duì)檢測(cè)結(jié)果造成影響。

微軟計(jì)算機(jī)視覺創(chuàng)研論壇首日干貨:3項(xiàng)前沿檢測(cè)技術(shù)解讀

商湯科技X-Lab研究員宋廣錄介紹了基于任務(wù)間空間自適應(yīng)解耦(TSD,task-aware spatial disentanglement)檢測(cè)算法,即在檢測(cè)器頭部應(yīng)用特定設(shè)計(jì)的偏移量生成策略以及聯(lián)合訓(xùn)練優(yōu)化漸進(jìn)損失。結(jié)果顯示,搭配TSD算法的檢測(cè)工具的檢測(cè)精度能提高3~5%。

結(jié)語:CV研究面臨語義、魯棒性的挑戰(zhàn)

三位研究人員分享結(jié)束后,美國(guó)羅徹斯特大學(xué)羅杰波教授、加州大學(xué)伯克利分校馬毅教授、加州大學(xué)圣地亞哥分校屠卓文教授、美國(guó)加州大學(xué)楊明玄教授、Wormpex AI Research華剛教授進(jìn)行了圓桌論壇。這5位教授都曾擔(dān)任過CVPR會(huì)議主席。

在題目選擇、寫作技巧方面,5位教授對(duì)CV研究者給出許多建議,比如,他們認(rèn)為研究者不必盲目追求研究熱點(diǎn),而應(yīng)該選擇自己感興趣的題目;剛剛起步的研究者可以借鑒成熟研究者的論文結(jié)構(gòu)。他們強(qiáng)調(diào),論文預(yù)印本網(wǎng)站arXiv上的論文質(zhì)量良莠不齊,研究者在借鑒時(shí)應(yīng)該注意甄別。

另外,5位教授指出,目前CV研究面臨的兩大主要挑戰(zhàn)來自語義和魯棒性。對(duì)語義的理解關(guān)系著模型能否完成更高級(jí)別的任務(wù)。在醫(yī)療、無人機(jī)、航空航天等領(lǐng)域中,CV模型的魯棒性直接影響到安全。

因此,在之后的CV研究中,提升CV模型對(duì)語義的理解能力和魯棒性仍是重點(diǎn)。

 

責(zé)任編輯:張燕妮 來源: 智東西
相關(guān)推薦

2019-11-07 11:29:29

視覺技術(shù)數(shù)據(jù)網(wǎng)絡(luò)

2022-08-19 09:24:46

計(jì)算機(jī)技術(shù)

2023-09-04 15:15:17

計(jì)算機(jī)視覺人工智能

2023-06-26 10:44:42

2023-11-22 13:45:37

計(jì)算機(jī)視覺數(shù)據(jù)預(yù)處理

2022-09-26 15:27:38

數(shù)字化技術(shù)

2023-07-07 10:53:08

2022-09-15 15:24:19

人工智能機(jī)器學(xué)習(xí)

2013-10-31 11:19:09

微軟語音翻譯手語翻譯

2023-04-04 08:25:31

計(jì)算機(jī)視覺圖片

2021-07-15 08:00:00

人工智能深度學(xué)習(xí)技術(shù)

2023-11-24 16:38:38

無人機(jī)計(jì)算機(jī)視覺

2020-08-20 10:41:12

人工智能檢查圖像分割

2020-08-24 10:20:38

微軟開源GitHub

2023-03-08 10:15:43

AI計(jì)算機(jī)視覺

2021-05-19 09:00:00

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-06-02 06:24:05

計(jì)算機(jī)視覺3D無人駕駛

2020-08-21 13:55:56

微軟開源PyTorch

2020-08-04 10:24:50

計(jì)算機(jī)視覺人工智能AI

2024-03-01 10:08:43

計(jì)算機(jī)視覺工具開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)