人民中科入選國家自然科學(xué)獎(jiǎng):強(qiáng)化視頻理解優(yōu)勢,降低AI應(yīng)用門檻
近日中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布了第 48 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,數(shù)字社會新形態(tài)持續(xù)升級,截至 2021 年 6 月我國網(wǎng)民規(guī)模達(dá) 10.11 億,網(wǎng)絡(luò)視頻(含短視頻)用戶規(guī)模 9.44 億。隨著互聯(lián)網(wǎng)內(nèi)容的視頻化以及 VR、元宇宙等應(yīng)用的興起,海量的非結(jié)構(gòu)化內(nèi)容正在高速增長,這些內(nèi)容難以被機(jī)器快速識別、準(zhǔn)確理解和方便檢索。
人民中科團(tuán)隊(duì)在視頻理解方面積累了多年經(jīng)驗(yàn),長期處于世界領(lǐng)先水平。在不久之前公布的 2020 年度國家科學(xué)技術(shù)獎(jiǎng)中,人民中科核心團(tuán)隊(duì)中的胡衛(wèi)明、李兵以《視覺運(yùn)動模式學(xué)習(xí)與理解的理論與方法》項(xiàng)目,獲得國家自然科學(xué)獎(jiǎng)二等獎(jiǎng),也是唯一關(guān)于智能視頻的獲獎(jiǎng)項(xiàng)目。
胡衛(wèi)明、李兵
近日機(jī)器之心采訪了人民中科董事長李兵,了解了人民中科在視頻理解技術(shù)的最新進(jìn)展。
一、“視頻理解是人工智能最需要攻克的高峰之一”
人類每天接觸到的信息里有 70% 是視覺信息;音視頻是人類最自然的交流和表達(dá)方式;隨著計(jì)算技術(shù)的發(fā)展,交互日趨自然化,音視頻正在改變互聯(lián)網(wǎng)的表達(dá)和交流方式。在 Twitter 上,平均每天有 80% 的消息包含圖像或視頻,或者僅僅是圖像或視頻。據(jù)貝爾實(shí)驗(yàn)室研究報(bào)告,人和設(shè)備產(chǎn)生的數(shù)據(jù)中,音視頻占主導(dǎo)地位,并占據(jù)著新增數(shù)據(jù)流的五分之四。
亞馬遜首席技術(shù)官 Werner 在 Invent 全球大會提出,2021 年及以后,從社交平臺到業(yè)務(wù)運(yùn)營的所有領(lǐng)域,音頻、視頻和圖像的使用將繼續(xù)取代文字;他認(rèn)為,新興的用戶界面,讓人類可以用更自然的方式進(jìn)行人與機(jī)器、人與人的交互。
企業(yè)要與客戶更好交流,也需要更敏銳地意識到這些變化。客戶不再依靠鍵盤與企業(yè)的產(chǎn)品和服務(wù)進(jìn)行互動,企業(yè)需要轉(zhuǎn)向更自然的用戶界面、更自然的交流方式。音視頻讓服務(wù)和信息的獲取更加公平,交流將不再受文字能力或行動缺陷的限制。
有觀點(diǎn)認(rèn)為,視頻智能理解是人工智能的重要戰(zhàn)場,是體量最大的人工智能?!敢曨l理解是人工智能最需要攻克的高峰之一,而互聯(lián)網(wǎng)會是視頻理解的最重要應(yīng)用場景,視頻理解具有廣泛的應(yīng)用前景?!谷嗣裰锌贫麻L李兵表示。正是因?yàn)檎J(rèn)識到視頻理解的重要性,人民中科團(tuán)隊(duì)才多年堅(jiān)持扎根于這個(gè)領(lǐng)域。
視頻除了空間特性外還具有時(shí)序特性,運(yùn)動信息是其最重要的特征,是物體檢測、目標(biāo)跟蹤、行為識別以及視頻事件分析和理解的核心能力及關(guān)鍵環(huán)節(jié)。有觀點(diǎn)認(rèn)為,視頻智能理解將是人工智能的重要戰(zhàn)場,是體量最大的人工智能。據(jù)李兵介紹:「網(wǎng)絡(luò)視頻的標(biāo)注、分類、風(fēng)控,監(jiān)控視頻的目標(biāo)跟蹤、行為識別,工業(yè)視頻中的安全檢測等,都屬于視頻理解的應(yīng)用場景」。
二、“做頂尖的科研,做有用的科研”
「運(yùn)動模式的學(xué)習(xí)與理解」是理解視頻信息的重要技術(shù),人民中科的團(tuán)隊(duì)圍繞目標(biāo)檢測跟蹤的魯棒性和行為模式的可學(xué)習(xí)性等關(guān)鍵科學(xué)問題,取得了一系列具有重要國際影響力的創(chuàng)新成果,實(shí)現(xiàn)了「運(yùn)動模式的學(xué)習(xí)與理解」這一難題的部分解決。目前已有 90 余篇論文發(fā)表在 ACM Transactions、IJCV、TPAMI 等國際頂刊上;公司的胡衛(wèi)明、李兵以《視覺運(yùn)動模式學(xué)習(xí)與理解的理論與方法》項(xiàng)目獲得國家自然科學(xué)獎(jiǎng)二等獎(jiǎng),是唯一關(guān)于智能視頻的獲獎(jiǎng)項(xiàng)目,6 篇代表性論文的他引次數(shù)超過 7000 次。
「團(tuán)隊(duì)做研究時(shí)的目標(biāo)都很單純,就是做頂尖的科研,做有用的科研?!估畋f,以前搞科研,始終對團(tuán)隊(duì)強(qiáng)調(diào)兩個(gè)方面:一是要高水平,從不要求論文數(shù)量,只強(qiáng)調(diào)質(zhì)量、影響力;二是特別看重將科研成果能否真正用在國家重大項(xiàng)目需求和工程實(shí)踐,并通過實(shí)際應(yīng)用檢驗(yàn)和提升科研能力。「這么多年來,我們團(tuán)隊(duì)始終能在視頻運(yùn)動分析、內(nèi)容理解領(lǐng)域保持國際領(lǐng)先,一是堅(jiān)持深耕一個(gè)方向,不為各種熱點(diǎn)所干擾;更重要就是堅(jiān)持理論研究與實(shí)際工程的結(jié)合,真正把論文寫在祖國的大地上」?,F(xiàn)在創(chuàng)辦企業(yè),團(tuán)隊(duì)希望將人工智能前沿技術(shù)與市場需求融合,形成低成本、高效率、自主可控的產(chǎn)品體系,幫助國內(nèi)中小型科技企業(yè)降低 AI 應(yīng)用門檻。
目前,人民中科在視頻理解的多個(gè)方向都具有國際領(lǐng)先的技術(shù)成果和儲備:
在視頻跟蹤方向,團(tuán)隊(duì)在 TPAMI 和 IJCV 等國際權(quán)威期刊和會議上發(fā)表過數(shù)十篇論文,獲得過多次世界比賽的冠軍,2020 年獲得中國模式識別與計(jì)算機(jī)視覺大會 PRCV 最佳論文獎(jiǎng),并獲得吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)。近期主要探索人腦的認(rèn)知機(jī)理,研究模擬小腦空間定位和大腦高層認(rèn)知的協(xié)作機(jī)制,利用相關(guān)濾波器在頻域上模擬小腦對底層視覺信號的細(xì)粒度編碼與空間精確定位能力,利用卷積反卷積神經(jīng)網(wǎng)絡(luò)在時(shí)域上模擬大腦對視覺信號的編解碼及其高層認(rèn)知能力,逐步實(shí)現(xiàn)相關(guān)濾波學(xué)習(xí)和深度特征學(xué)習(xí)相融合的實(shí)時(shí)在線自適應(yīng)的目標(biāo)跟蹤。
在行為識別和視頻內(nèi)容描述方向,團(tuán)隊(duì)在 TPAMI 和 IJCV 等頂級期刊和會議上發(fā)表論文 40 余篇,獲得 ICCV2019 VATEX 視頻描述中 / 英文雙賽道冠軍。正在模擬大腦的視覺注意力機(jī)制,并根據(jù)視覺系統(tǒng)中表觀神經(jīng)通路和運(yùn)動神經(jīng)通路之間的注意力機(jī)制設(shè)計(jì)運(yùn)動增強(qiáng)模塊,加強(qiáng)雙流卷積神經(jīng)網(wǎng)絡(luò)兩路分支之間的交互和協(xié)同,構(gòu)建有效的基于時(shí)空深度耦合的目標(biāo)行為識別模型。在視頻內(nèi)容描述方面,提出了新的教師推薦學(xué)習(xí)策略,通過知識蒸餾的方法,將外部語言模型的語言學(xué)知識傳遞給描述模型;在原有教師強(qiáng)迫學(xué)習(xí)的訓(xùn)練過程的基礎(chǔ)上,配合在大型語料庫上預(yù)訓(xùn)練的語言模型生成的軟目標(biāo)進(jìn)行推薦學(xué)習(xí),在每一步的訓(xùn)練中同時(shí)學(xué)到了數(shù)十倍的知識,很好地緩解了由于缺乏特殊視頻的訓(xùn)練樣本所帶來的訓(xùn)練不足問題。
在視頻內(nèi)容安全方向,團(tuán)隊(duì)擁有發(fā)明專利 40 余項(xiàng),多項(xiàng)技術(shù)與產(chǎn)品廣泛地應(yīng)用于各種實(shí)際應(yīng)用系統(tǒng),曾獲得北京市科學(xué)技術(shù)一等獎(jiǎng),中國通信學(xué)會科學(xué)技術(shù)一等獎(jiǎng),北京市發(fā)明專利獎(jiǎng)一等獎(jiǎng)等。正在重點(diǎn)研究并很快發(fā)布基于深度紋理網(wǎng)絡(luò)和空間身份約束的偽造人臉鑒別,引入更多的約束信息,設(shè)計(jì)了性能更優(yōu),泛化能力更強(qiáng)的假臉檢測算法,包括具備更高的準(zhǔn)確率、對未知造假模型更好的泛化能力、對數(shù)據(jù)量更小的依賴性、對圖像劣化的魯棒性,以及具備一定的自我更新能力,解決交叉測試中不同類型的檢測算法在遇到未知造假模型時(shí)泛化性能急劇下降的問題。
「公司從成立之初,就一直堅(jiān)持自主創(chuàng)新這個(gè)重要方向,已經(jīng)推出的多款產(chǎn)品實(shí)際運(yùn)行性能均超過了國外對標(biāo)產(chǎn)品。」人民中科成立兩年多來,已在 CVPR、IEEE TIP、IEEE TCSVT 等頂會頂刊上發(fā)表多篇論文,并推出了從基礎(chǔ)模型、計(jì)算加速卡、計(jì)算服務(wù)器到 SaaS 的全系列國產(chǎn)化產(chǎn)品。談到作為一家初創(chuàng)公司,為什么會選擇這么一條成本和技術(shù)挑戰(zhàn)都非常高的路線。李兵認(rèn)為,「在當(dāng)前國際競爭的大環(huán)境下,人工智能是未來競爭最為激烈的科技領(lǐng)域之一;我國構(gòu)建自主的技術(shù)體系是保證未來技術(shù)競爭力和系統(tǒng)安全性的必經(jīng)之路,而且國內(nèi)人工智能的相關(guān)芯片和硬件、計(jì)算技術(shù)、底層系統(tǒng)等已經(jīng)有較好的產(chǎn)業(yè)基礎(chǔ)和應(yīng)用生態(tài)?!?/p>
三、創(chuàng)建開放機(jī)制,聚集最優(yōu)秀的年輕人才
人民中科是中科院自動化所與人民網(wǎng)強(qiáng)強(qiáng)聯(lián)合,共同發(fā)起成立的內(nèi)容科技企業(yè)。公司依托中科院自動化所的模式識別國家重點(diǎn)實(shí)驗(yàn)室、人民網(wǎng)的傳播內(nèi)容認(rèn)知國家重點(diǎn)實(shí)驗(yàn)室、中國科學(xué)院人工智能創(chuàng)新研究院等重要科研平臺,有先天的技術(shù)先進(jìn)性和行業(yè)敏感度優(yōu)勢。但科技落地產(chǎn)業(yè),只有技術(shù)優(yōu)勢是遠(yuǎn)遠(yuǎn)不夠的,核心是要解決好機(jī)制、人才等商業(yè)底層基礎(chǔ)。
為了更好地打造經(jīng)管、產(chǎn)品、工程等方面的體系化團(tuán)隊(duì),人民中科主動與社會多方合作,設(shè)計(jì)打造機(jī)制、用好機(jī)制,吸引中高級人才加入。公司借鑒世界優(yōu)秀企業(yè)的經(jīng)驗(yàn),搭建開放、高效的數(shù)字組織,以創(chuàng)造一個(gè)自由生長、高效協(xié)作的內(nèi)部創(chuàng)業(yè)生態(tài)為目標(biāo),目前已吸引了一批國內(nèi)外互聯(lián)網(wǎng)巨頭及科技獨(dú)角獸的中高層管理人員加盟。
李兵作為國家優(yōu)青,也是所里年輕的研究員、博導(dǎo),聊到從一個(gè)杰出科學(xué)家到普通創(chuàng)業(yè)者的歷程,李兵覺得自己還需要繼續(xù)調(diào)整?!敢郧白隹蒲?,是帶幾十個(gè)人做項(xiàng)目,現(xiàn)在則需要與幾百個(gè)人協(xié)同做企業(yè);科研需要攻克頂峰、突破邊界,重視創(chuàng)新和原創(chuàng),較少考慮落地的限制,而做企業(yè)首先要考慮實(shí)現(xiàn)目標(biāo)任務(wù)所需的代價(jià),需要以低成本和較少的約束條件做出讓用戶滿意、市場買單的實(shí)用產(chǎn)品;二者最大的相同之處是人才,都需要聚集最聰明的年輕人一起奮斗,都需要解決優(yōu)秀人才愿意加入、有所成長、愿意奮斗等問題」。
四、做普惠高效的算法,降低 AI 技術(shù)的應(yīng)用門檻
人民中科圍繞 “視頻大腦” 建立以視頻內(nèi)容為對象的數(shù)據(jù)處理、智能識別和理解、高通量計(jì)算等能力,均達(dá)國際領(lǐng)先水平,提供的產(chǎn)品或服務(wù)成功解決了用戶在內(nèi)容安全、智能運(yùn)維、視頻檢索等方面的需求。
「用戶并不是很在意你技術(shù)如何厲害,他們只會為能夠感知到的效果和價(jià)值買單,還希望盡可能的便宜?!挂虼嗽趯?shí)際應(yīng)用中,就要求公司提供的算法和技術(shù)不僅效果好、精度高,更需要有高效能、低成本、低場景限制。比如,視頻理解的算法會涉及驚人的計(jì)算量,對算力有較高要求。我們經(jīng)常發(fā)現(xiàn),在測試或封閉環(huán)境下,有些企業(yè)實(shí)現(xiàn)的效果或許不錯(cuò),但用戶往往沒有足夠的能力提供或承受所需的算力成本,或者由于場景限制導(dǎo)致可用的計(jì)算平臺性能很低,出現(xiàn)了所謂「技術(shù)落地難」的問題。目前人民中科在這個(gè)方向做了非常深入的探索,積累了深厚的技術(shù)儲備和應(yīng)用經(jīng)驗(yàn)。并且視頻理解的算法會涉及驚人的計(jì)算量,對算力有較高要求。人民中科提出動態(tài)和漸進(jìn)式的分解與裁剪一體化的模型壓縮方法,以及基于圖結(jié)構(gòu)的蒸餾學(xué)習(xí)方法等一整套深度模型壓縮與加速方案,向客戶提供的算法與算力深度優(yōu)化方案,計(jì)算速度是業(yè)內(nèi)平均水平的四倍以上,能降低 70% 左右的計(jì)算成本;提供的算法和產(chǎn)品可以在弱標(biāo)注、少訓(xùn)練以及復(fù)雜場景下完成多模態(tài)數(shù)據(jù)的智能處理。
成立兩年多的時(shí)間內(nèi)已基本完成了研發(fā)、技術(shù)、工程、管理等體系的建設(shè);對外暫以輸出技術(shù)能力的形式進(jìn)行合作,目前已簽約的合作對象多是互聯(lián)網(wǎng)大廠、政府、高校、運(yùn)營商、上市公司,公司能力已得到市場初步認(rèn)可。對公司的規(guī)劃,據(jù)李兵介紹,第一階段主要是盡快完成技術(shù)的工程化、產(chǎn)品的國產(chǎn)化。下一階段將結(jié)合應(yīng)用場景,逐步推出專用計(jì)算設(shè)備和服務(wù),在更廣泛、更復(fù)雜的應(yīng)用中不斷提升公司的核心能力;工作重點(diǎn)仍是團(tuán)隊(duì)建設(shè),聚集最優(yōu)秀的人才,建設(shè)內(nèi)容理解的核心能力,為社會治理、商業(yè)營銷、消費(fèi)娛樂等提供基礎(chǔ)技術(shù),提升數(shù)字世界的認(rèn)知能力。