自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

新聞 人工智能
最近有兩篇CVPR 2021的論文,就引起了視頻圈的不少關(guān)注。它們教算法模型學(xué)會了自己“省算力”,將視頻處理算法的計(jì)算效率提升了幾倍不止,性能也并不下降!

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

圖像領(lǐng)域,已經(jīng)限制不住AI算法大牛們的身手了。

現(xiàn)在,隨著視頻產(chǎn)業(yè)火熱發(fā)展,相關(guān)算法也正成為計(jì)算機(jī)視覺研究的新潮流。

畢竟日常生活中,無論是視頻通話、還是網(wǎng)課直播,都涉及大量的視頻處理算法。

但如果這些算法性能不高的話,視頻就會出現(xiàn)卡頓、降低分辨率的情況,體驗(yàn)極差。

(想象視頻通話時(shí),畫面卡成PPT的情況,已經(jīng)開始生氣了……)

因此,降低視頻算法計(jì)算量,一直是國內(nèi)外AI視覺算法大牛們致力研究的問題。

最近有兩篇CVPR 2021的論文,就引起了視頻圈的不少關(guān)注。

它們教算法模型學(xué)會了自己“省算力”,將視頻處理算法的計(jì)算效率提升了幾倍不止,性能也并不下降!

教AI自己省算力,計(jì)算量-78%

用卷積神經(jīng)網(wǎng)絡(luò)處理視頻,其實(shí)是一個(gè)計(jì)算量巨大的任務(wù)。

這里的“計(jì)算量”并非指視頻大小,而是卷積處理圖像的方式——將圖像完整地“掃”一遍。

但真正的視頻,往往存在大量變化不大的場景(甚至10幀內(nèi)只有一只手在動):

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

這種情況下,如果還將每個(gè)像素都處理一遍……仿佛已經(jīng)感受到GPU在燃燒了。

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

那么,能否教AI學(xué)會高效“偷懶”,不浪費(fèi)任何多余的算力呢?

當(dāng)然可以,而且有2種方法。

在第一篇論文中,提出了名為Skip-Convolutions(跳躍卷積)的新型卷積層,它能將前后兩幀圖像相減,并只對變化部分進(jìn)行卷積。

沒錯(cuò),就像人的眼睛一樣,更容易注意到“動起來的部分”。

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

很快啊,計(jì)算量一下子從10.2GMACS(每秒10^9次定點(diǎn)乘累加計(jì)算)降到了0.4GMACS,不到原來的4%!

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

注意,不止是上面的姿態(tài)估計(jì),這個(gè)卷積層適用于任何神經(jīng)網(wǎng)絡(luò)算法,包括光流、語義分割、分類任務(wù)等。

在最新的語義分割任務(wù)中,相比于經(jīng)典視頻AI算法HRNet,這個(gè)算法就將計(jì)算量減少了78%,延遲降低65%,性能還不下降。

而第二篇論文采用了一個(gè)新方法,讓AI模型“自行控制計(jì)算量”。

論文提出了一個(gè)名為FrameExit的網(wǎng)絡(luò),由多個(gè)級聯(lián)分類器組成,可以隨著視頻幀的復(fù)雜度,來改變模型所用的神經(jīng)元數(shù)量。

在視頻前后幀差異大的時(shí)候,AI會用整個(gè)模型計(jì)算;前后幀差異小的時(shí)候,則只用模型的一部分計(jì)算。

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

也就是說,要是某一幀看起來不需要復(fù)雜計(jì)算的話,用更小的模型處理就夠了。

相比于其他模型,這種方法最高甚至能提升5倍的性能。

同時(shí),神經(jīng)網(wǎng)絡(luò)檢測的精確度(mAP)不僅沒有下降,甚至還增加了!

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

目前,第二篇論文已經(jīng)入選CVPR 2021的Oral。

重要的是,這兩篇論文背后的單位,竟然都是高通,一個(gè)與所有手機(jī)用戶息息相關(guān)的公司。

看來我們又能用上更多性能更棒的手機(jī)視頻應(yīng)用了。

手機(jī)視頻應(yīng)用,性能超級加倍

這兩項(xiàng)AI視頻感知技術(shù),高通已經(jīng)在研究落地了。

不得不說,即使是落地的方向,也都是我們平時(shí)手機(jī)視頻應(yīng)用的剛需。

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

除了能優(yōu)化視頻處理算法以外,這類感知技術(shù)還能讓更多AI視頻模型被用到手機(jī)上。

首先是針對視頻處理算法的優(yōu)化。

例如,對于我們常見的線上視頻會議、網(wǎng)課等視頻通話場景來說,如果視頻處理算法模型不好,實(shí)時(shí)通話的質(zhì)量就會非常差。

甚至可能因此出現(xiàn)卡頓的情況,然后直接掉幀,比語音通話的觀感還差。

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

但如果用上這類視頻感知技術(shù),AI就能對視頻中的部分像素進(jìn)行智能處理,極大地降低視頻通話所需的圖像計(jì)算量,讓通話過程變得更流暢。

又例如,我們的手機(jī)在對視頻文件進(jìn)行智能剪輯處理時(shí),往往會出現(xiàn)耗電量大、文件加載慢的問題。

但如果用這類算法對視頻剪輯應(yīng)用進(jìn)行處理,不僅能優(yōu)化算法本身,還能讓剪輯過程變得更加絲滑。

事實(shí)上,也正是由于這類視頻感知算法,讓更多AI模型能被應(yīng)用到手機(jī)中。

小米11為例,它的其中一項(xiàng)視頻編輯功能,是對視頻中的一部分畫面進(jìn)行時(shí)間暫停,另一部分則保持播放,就像一個(gè)人對另一個(gè)人施加了“時(shí)間停止”魔法。

這類視頻算法模型,此前的計(jì)算量非常大,原本在論文中要用GPU才能實(shí)現(xiàn)?,F(xiàn)在用手機(jī)就能實(shí)現(xiàn)“時(shí)間停止”,還是實(shí)時(shí)的:

不止是一段視頻,就連其中的特殊幀也能被暫停,并做成一段很有意思的視頻:

又例如,各大AI視覺論文中常見的圖像增強(qiáng)算法,以往主要是針對拍照實(shí)現(xiàn),無法被應(yīng)用到視頻中。

但現(xiàn)在,由于視頻計(jì)算量的下降,它已經(jīng)能用在實(shí)時(shí)視頻拍攝中了,甚至包括視頻會議這樣的場景。

OPPO Find X3 Pro的夜景攝影為例,正常拍攝下逆光、或是夜景的視頻效果,在AI的計(jì)算下也能將臉看得清清楚楚:

甚至就連我們常見的視頻智能穩(wěn)定、視頻插幀,之所以能應(yīng)用到手機(jī)視頻上,也離不開視頻感知算法對智能幀間對比、超分辨率算法等技術(shù)的加持。

例如,這是vivo X60 Pro+的視頻智能穩(wěn)定效果:

事實(shí)上,上面這些已經(jīng)被應(yīng)用到手機(jī)中的AI黑科技,背后都有著驍龍888的算力和處理性能支持。

也就是說,高通已經(jīng)將不少AI視頻處理算法,從“幾張紙”的論文變成了實(shí)際的手機(jī)視頻應(yīng)用。

“隱形”AI黑科技,身邊其實(shí)就不少

不止是手機(jī)應(yīng)用,在這些算法的加持下不斷“進(jìn)階”。

在智慧醫(yī)療、智能工廠、XR等“未來”場景逐漸成為現(xiàn)實(shí)的背后,同樣有著無數(shù)的AI黑科技。

以我們常見的VR設(shè)備為例,由于有了AI算法的加成,攝像頭也能實(shí)現(xiàn)由內(nèi)向外更精準(zhǔn)的追蹤。

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

結(jié)合5G進(jìn)行視頻傳輸后,有了AI加持的VR設(shè)備,不僅能給孩子們進(jìn)行科普教育、還能讓醫(yī)生能夠給病患更細(xì)致地講解病情。

[[405842]]

又例如,現(xiàn)在出門去醫(yī)院看病,只需要一個(gè)碼,就能將包括病案信息、診療進(jìn)度、最新診療結(jié)果在內(nèi)的相關(guān)病情信息匯集在碼中。

利用東大集成研發(fā)的“小碼哥”進(jìn)行掃描后,醫(yī)生就能快速獲取全部信息,及時(shí)進(jìn)行診斷。

[[405843]]

同時(shí),物聯(lián)網(wǎng)醫(yī)療設(shè)備和AI數(shù)據(jù)分析還能簡化健康監(jiān)控,建立一個(gè)真正“互聯(lián)”的醫(yī)院,讓患者也能在不同地區(qū)、時(shí)間及時(shí)查看病情結(jié)果。

[[405844]]

又例如,利用AI+邊緣計(jì)算+5G,就能做出替代人眼進(jìn)行質(zhì)量檢測和瑕疵識別的智能化數(shù)字生產(chǎn)線,讓工廠節(jié)省大量人力成本。

不僅如此,工業(yè)搬運(yùn)機(jī)器人也能通過5G+AI,對攝像頭所收集的視頻流數(shù)據(jù)在云端或邊緣側(cè)進(jìn)行智能分析,從而實(shí)現(xiàn)遠(yuǎn)程操控。

[[405845]]

但用戶并不需要了解其中的每一個(gè)細(xì)節(jié)。

因?yàn)?,高通這樣的前沿科技公司,正將這些技術(shù)難點(diǎn)一一攻克。

高通CVPR神研究:視頻處理計(jì)算量降78%,教卷積層自己“挑像素”

△高通在AI方向的應(yīng)用布局

然后,再以產(chǎn)品的方式呈現(xiàn)出來,讓每一個(gè)用戶都能無差別地享受最新科技突破。

黑科技有多復(fù)雜?

那不是大多數(shù)用戶需要考慮的。

兩篇CVPR 2021論文地址:
[1]
https://arxiv.org/abs/2104.11487
[2]
https://arxiv.org/abs/2104.13400

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2011-10-07 16:48:02

索尼投影儀

2024-10-05 23:00:35

2009-06-13 11:34:00

統(tǒng)一通信云計(jì)算IBM

2017-08-02 14:26:39

CVPR 2017論文卷積網(wǎng)絡(luò)模型

2023-08-03 14:18:29

Rust阻塞函數(shù)

2021-04-08 10:09:45

邊緣計(jì)算云計(jì)算

2019-07-16 08:09:32

開源技術(shù) 趨勢

2016-10-10 09:34:04

Chrome 55瀏覽器V8 JavaScri

2020-02-05 09:36:55

數(shù)據(jù)科學(xué)RPython

2017-09-21 15:24:55

電腦識別視頻

2017-05-09 11:20:29

OPPO

2023-12-26 12:03:52

AI模型

2013-11-05 16:53:20

高通異構(gòu)計(jì)算

2023-07-10 06:47:00

CPU游戲性能

2012-10-15 19:02:48

索尼EX121投影機(jī)

2024-07-29 08:02:07

Service類型開發(fā)

2021-07-13 09:27:20

AI 解碼視頻

2013-01-28 15:49:00

高通ARM微服務(wù)器

2022-07-25 10:27:06

谷歌模型

2012-08-01 10:43:18

投影
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號