火了這么久的 AI,現(xiàn)在怎么樣了?
近年來 AI 發(fā)展迅猛,從最初的萌芽到今天非常成功的應(yīng)用,AI 有很多優(yōu)秀的實(shí)踐,同時(shí)也遇到了非常多的挑戰(zhàn),需要不斷地通過技術(shù)革新來解決這些困局。阿里巴巴達(dá)摩院高級(jí)研究員金榕將通過本文介紹當(dāng)前 AI 已取得的應(yīng)用實(shí)踐,解析 AI 的創(chuàng)新以及可探索的未來。
本文將主要圍繞以下四個(gè)方面展開:
- AI 技術(shù)背景
- 自然語言處理
- 語音技術(shù)
- 機(jī)器視覺
一、AI 技術(shù)背景介紹
目前的 AI 技術(shù)都是以深度學(xué)習(xí)為基礎(chǔ),而深度學(xué)習(xí)完成如此復(fù)雜的學(xué)習(xí)過程需要兩個(gè)條件,首先需要大量的數(shù)據(jù),深度學(xué)習(xí)非常依賴數(shù)據(jù)挖掘技術(shù),用于產(chǎn)生大量有效的訓(xùn)練數(shù)據(jù)。此外,深度學(xué)習(xí)還需要優(yōu)化算法,因?yàn)樯疃葘W(xué)習(xí)要在非常復(fù)雜的網(wǎng)絡(luò)中找到最好的模型,用于匹配數(shù)據(jù)。在最基礎(chǔ)的深度學(xué)習(xí)模型上,有三個(gè)主要的領(lǐng)域,既圖像視覺、語音交互和自然語言處理。其中,圖像視覺是由圖像處理和理解、自然人識(shí)別、視頻編解碼和內(nèi)容分析、三維視覺等技術(shù)組成。語音交互是由語音識(shí)別、語音合成、語音硬件技術(shù)等組成。自然語言處理包括自然語言應(yīng)用技術(shù)、語義理解計(jì)算、翻譯基礎(chǔ)計(jì)算等技術(shù)。所有這些技術(shù)組成了人工智能技術(shù)。綜上而言,人工智能是由深度學(xué)習(xí)和機(jī)器學(xué)習(xí)組成的。
1 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的目標(biāo)是利用有限的樣本對(duì)未知的目標(biāo)函數(shù)求近似。任何機(jī)器學(xué)習(xí)模型都有三個(gè) component 組成,首先確定要學(xué)習(xí)的函數(shù)空間、然后確定使用的數(shù)據(jù),用哪些訓(xùn)練數(shù)據(jù)擬合機(jī)器學(xué)習(xí)模型,最后是找到優(yōu)化算法,讓機(jī)器從函數(shù)空間中學(xué)習(xí)到最好的模型,即最佳匹配數(shù)據(jù)的模型。
2 深度學(xué)習(xí)
機(jī)器學(xué)習(xí)是考慮所有可能的函數(shù),而深度學(xué)習(xí)只考慮一個(gè)特殊類的函數(shù),神經(jīng)網(wǎng)絡(luò)。在數(shù)據(jù)方面,深度學(xué)習(xí)的數(shù)據(jù)要求比普通模型的要求要高很多。在大數(shù)據(jù)支持的前提下,才能夠真正發(fā)揮深度學(xué)習(xí)的作用。傳統(tǒng)的優(yōu)化只是做凸優(yōu)化,而在深度學(xué)習(xí)場(chǎng)景中要處理非凸優(yōu)化。因此,深度學(xué)習(xí)在三個(gè) component 中都會(huì)遇到非常大的挑戰(zhàn)。首先,神經(jīng)網(wǎng)絡(luò)構(gòu)成的函數(shù)空間非常不清楚。其次,由于大數(shù)據(jù)的復(fù)雜性,訓(xùn)練數(shù)據(jù)的難度比傳統(tǒng)機(jī)器學(xué)習(xí)的難度要大。最后,非凸優(yōu)化無論在理論或?qū)嵺`層面都沒有很成型的模版。所以業(yè)界為了找到最佳的實(shí)踐也在做很多的實(shí)驗(yàn)研究。
3 人工智能發(fā)展的關(guān)鍵
人工智能發(fā)展主要包含兩個(gè)關(guān)鍵點(diǎn)。首先可以利用大量豐富的“活”數(shù)據(jù)。利用“活”數(shù)據(jù)的應(yīng)用有很多,如 2016 年谷歌的 AlphaGo 戰(zhàn)勝了圍棋世界冠軍。另外,AI 技術(shù)具備強(qiáng)大的計(jì)算能力,如目前非?;鸬淖詣?dòng)駕駛技術(shù),Google 的 Waymo 可以在非常長的距離下無需人為干預(yù)的進(jìn)行自動(dòng)駕駛。但是這些技術(shù)早在 20 多年以前都有所實(shí)踐,在 1995 年,Backgammon 通過和自己下 1.5 萬盤棋,成為了世界冠軍。在 1994 年,Alvin 以每小時(shí) 70 英里的速度從美國的東海岸開到了西海岸。相比這 20 多年的發(fā)展,本質(zhì)上的不同點(diǎn)是數(shù)據(jù)的數(shù)量級(jí)和計(jì)算能力的提升。如人臉識(shí)別技術(shù)現(xiàn)在都需要上億級(jí)別的訓(xùn)練數(shù)據(jù),而以前只有幾百萬張的數(shù)據(jù)。傳統(tǒng)的 AI 技術(shù)要依靠很多的 GPU 才能得到比較好的模型效果。
自然語言處理
1 自然語言處理模型
自然語言處理也有著很長的歷史,以前叫計(jì)算語言學(xué)。傳統(tǒng)的計(jì)算語言學(xué)方法使用統(tǒng)計(jì)學(xué)的語言概率模型構(gòu)建自然語言模型。如下圖中的“中國鼓勵(lì)民營企業(yè)家投資國家基礎(chǔ)建設(shè)”,這一句話可以被解析為一個(gè)語言樹,分為主語、謂語、賓語、動(dòng)詞和名詞等內(nèi)容。也就是利用語言樹表達(dá)這句話的語法結(jié)構(gòu)。另外,傳統(tǒng)的自然語言中常用的技術(shù)叫統(tǒng)計(jì)語言模型。如下圖中的拼音串 “ta shi yan jiu sheng wu de” 可以有多種可能的漢子串表達(dá),人為判斷的話應(yīng)該是最后一條“他是研究生物的”。實(shí)際上,人類大腦中通過大量閱讀會(huì)形成一個(gè)概念圖表,知道哪些表達(dá)是可能發(fā)生的,形成了一種統(tǒng)計(jì)語言模型。最典型的統(tǒng)計(jì)語言模型是 Bi-gram 模型,計(jì)算一個(gè)詞之后可能出現(xiàn)的詞的概率。但傳統(tǒng)的計(jì)算語言學(xué)方法存在模型欠精準(zhǔn),文本處理效果一般等弊端。
鑒于傳統(tǒng)方法的局限,深度學(xué)習(xí)可以用于自然語言處理中,其中最成功的的模型叫深度語言模型。與傳統(tǒng)方法的區(qū)別在于它將所有詞的上下文信息用張量表示,還可以雙向表示,即對(duì)未來和過去都做預(yù)測(cè)。此外,深度語言模型利用了 Transformer 結(jié)構(gòu),可以更好的捕捉詞和詞之間的關(guān)系。
- 自然語言模型 - 問題應(yīng)用
問答應(yīng)用傳統(tǒng)的方式是常見問答對(duì)(FAQ)和知識(shí)圖譜(KBQA)。如下圖中的例子,問答對(duì)是一個(gè)數(shù)據(jù)庫,包含問題和回答。這種方式相對(duì)保守,且編輯問答對(duì)要求人對(duì)相應(yīng)的 domain 有比較深的理解,很難擴(kuò)大領(lǐng)域,且冷啟動(dòng)慢。為了解決此問題,隨之出現(xiàn)了機(jī)器閱讀理解的技術(shù),它可以直接自動(dòng)從文檔中找到匹配問題的答案,通過深度語言模型將問題和文檔轉(zhuǎn)化為語義向量,從而找到最后的匹配答案。
目前問答應(yīng)用廣泛應(yīng)用于各大企業(yè),如阿里小蜜,閑魚賣家助理,每天幫助百萬級(jí)的買家自動(dòng)獲取商品和活動(dòng)信息。
2 自然語言處理 - 機(jī)器翻譯
另外一個(gè)比較成熟的 AI 技術(shù)的應(yīng)用是機(jī)器翻譯。傳統(tǒng)的翻譯模型叫統(tǒng)計(jì)機(jī)器翻譯模型(SMT),如下圖左側(cè),從翻譯結(jié)果來看,統(tǒng)計(jì)機(jī)器翻譯模型容易產(chǎn)生錯(cuò)譯,整體流暢度差,包含語法錯(cuò)誤。引入深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型(NMT)的結(jié)果錯(cuò)譯少,流暢度也比較高,符合英文的語法規(guī)則。
下圖中可以看到,Google Brain 對(duì)神經(jīng)網(wǎng)絡(luò)做了一個(gè)評(píng)估報(bào)告,其中 phrase based 翻譯模型達(dá)到的效果有限,而基于神經(jīng)網(wǎng)絡(luò)的翻譯模型有了明顯的提升。同時(shí),在阿里巴巴業(yè)務(wù)中機(jī)器翻譯也得到了廣泛應(yīng)用,如電商場(chǎng)景中對(duì)商品信息的翻譯,釘釘 AI 翻譯等。但是因?yàn)獒斸數(shù)男畔⒍际潜容^隨意的表達(dá),所以釘釘 AI 翻譯在未來還有很大的進(jìn)步空間。
三、語音技術(shù)
語音技術(shù)在很長一段時(shí)間內(nèi)都被想象成是編碼的技術(shù),將文字編譯成語音信號(hào)。而語音識(shí)別的過程是屬于解碼的過程。
通常語音識(shí)別有兩種模型,語言模型(Language Model)和聲學(xué)模型(Acoustic Model)。語言模型主要的場(chǎng)景是預(yù)測(cè)某詞或詞序列的概率。聲學(xué)模型預(yù)測(cè)通過詞 W 的發(fā)音生成特征 X 的概率。
1 語音識(shí)別
混合語音識(shí)別系統(tǒng)
傳統(tǒng)的混合語音識(shí)別系統(tǒng)叫 GMM-HMM,GMM 用于聲學(xué)模型, HMM 用于語言模型。即使在語音識(shí)別領(lǐng)域大家做了很長一段時(shí)間的努力,但還是無法達(dá)到人類語音識(shí)別水平。到了 2009 年之后,基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)開始發(fā)展, 2017 年微軟聲稱它們的語音識(shí)別系統(tǒng)比傳統(tǒng)的語音識(shí)別系統(tǒng)有了明顯的提升,甚至比人類的語音識(shí)別水平更好。
傳統(tǒng)的混合語音識(shí)別系統(tǒng)包含獨(dú)立優(yōu)化的聲學(xué)模型,語言模型和語言學(xué)家設(shè)計(jì)的發(fā)音詞典。不難發(fā)現(xiàn),傳統(tǒng)的語音識(shí)別系統(tǒng)的構(gòu)建流程非常繁瑣,它需要多個(gè) component 并行開發(fā),各個(gè)模型都是獨(dú)立優(yōu)化的,導(dǎo)致最終的優(yōu)化效果不盡人意。
- 端到端的語音識(shí)別系統(tǒng)
基于傳統(tǒng)的語音識(shí)別系統(tǒng)遇到的問題,端到端的語音識(shí)別系統(tǒng)中將聲學(xué)模型、解碼器、語言模型、發(fā)音詞典都結(jié)合在一起,統(tǒng)一進(jìn)行開發(fā)和優(yōu)化,使得效果達(dá)到最優(yōu)。實(shí)際的實(shí)驗(yàn)結(jié)果明端到端語音識(shí)別系統(tǒng)可以進(jìn)一步降低識(shí)別 20+% 的錯(cuò)誤率。此外,模型的達(dá)到會(huì)大大縮小,可以達(dá)到傳統(tǒng)語音識(shí)別模型的幾十分之一。而且端到端的語音識(shí)別系統(tǒng)還可以在云上發(fā)揮作用。
2 語音合成
語音合成大概分為幾個(gè) component。首先是前端的文本分析,進(jìn)行詞的拆分,識(shí)別 break,這些會(huì)構(gòu)成語言信息。之后,傳到后端通過聲學(xué)模型產(chǎn)生聲波。
- 語音合成歷史
語音合成技術(shù)從最早的 GMM,到 2000 年的 HMM,再到 2013 年,基于深度學(xué)習(xí)的模型。而到了 2016 年,WaveNet 相較于之前的模型,在語音質(zhì)量上有了質(zhì)的飛躍。2017 年出現(xiàn)了端到端的語音合成模型。2018 年阿里巴巴的 Knowledge-aware Neural 模型不僅能夠產(chǎn)生很好的音質(zhì),還實(shí)現(xiàn)了大規(guī)模的模型壓縮和計(jì)算效率的提升,可以實(shí)時(shí)產(chǎn)生有效的合成語音。
語音合成一直存在一個(gè)較大的 borderline,即定制化成本非常高。通常傳統(tǒng)的語音定制則需要專業(yè)的發(fā)言人,還要在錄音棚中錄制,人工精準(zhǔn)的標(biāo)注,而且需要大量的數(shù)據(jù),一般大于 1 個(gè)小時(shí)。而如今,語音合成需要在個(gè)性化聲音定制方面做一些嘗試,任何的普通人只要通過手機(jī)進(jìn)行錄制,即便在噪聲環(huán)境下,也可以完成個(gè)性化的聲音定制。如可以將車內(nèi)導(dǎo)航系統(tǒng)的語音換成家人的聲音。
3 多模態(tài)語音交互方案
當(dāng)人和人對(duì)話時(shí),不只是在聽聲音,而是通過視覺和聽覺結(jié)合起來理解對(duì)方表達(dá)的意思。未來的語音交互系統(tǒng)中,還需要將多模態(tài)交互方案引入進(jìn)來。目前的語音識(shí)別系統(tǒng)在嘈雜環(huán)境下的效果還是不盡人意的,在地鐵等嘈雜的公共環(huán)境中還是會(huì)遇到較大的挑戰(zhàn)。阿里達(dá)摩院希望將語音識(shí)別和機(jī)器視覺進(jìn)行結(jié)合,采用多模態(tài)的人機(jī)交互技術(shù)將語音識(shí)別與計(jì)算機(jī)視覺結(jié)合的方式,讓機(jī)器人看著對(duì)方,聽對(duì)方說話,就可以在嘈雜的環(huán)境中精準(zhǔn)識(shí)別用戶發(fā)出的聲音。
舉一個(gè)例子,假如在地鐵站買票,和賣票機(jī)器進(jìn)行對(duì)話,同時(shí)因?yàn)楹竺嬉才胖芏嗳耍麄円矔?huì)說話。這時(shí)通過視覺的方式,可以判斷哪一個(gè)人臉更大,從而識(shí)別買票的人說的話。下圖展示了基于人臉特征監(jiān)督信息的目標(biāo)說話人語音分離主要算法處理流程。最后是提出的音視覺特征輸入和基于音視覺融和的信源掩碼估計(jì)模型。
- 音視覺融合技術(shù)應(yīng)用
音視覺融合技術(shù)已經(jīng)在很多生活場(chǎng)景中得到廣泛應(yīng)用。覆蓋了上海的主要交通樞紐,如地鐵站,虹橋火車站、上?;疖囌尽⑸虾D险?、虹橋機(jī)場(chǎng)和浦東機(jī)場(chǎng)等。從 2018 年 3 月至今累計(jì)服務(wù)旅客超百萬人。此外,2018 年 9 月杭州云棲大會(huì)上達(dá)摩院和肯德基合作的基于多模態(tài)技術(shù)的智能點(diǎn)餐機(jī)在 3 天內(nèi)完成了4500 單。2019 年 8 月釘釘推出了搭載多模態(tài)交互技術(shù)的智能辦公硬件新品 M 25,可以在嘈雜的聲音環(huán)境下使得交互更加有效。
四、視覺技術(shù)
1 圖像搜索
視覺技術(shù)中最核心的就是圖像搜索的識(shí)別,同樣也經(jīng)歷了很長的發(fā)展過程。在早期的 90 年代初期是基于全局信息的底層特征進(jìn)行搜索,如將圖像顏色的信息做分布,但這種方法的精度非常糟糕,如 ImageNet Top 5 只達(dá)到了 30%。到 2000 年初,大家開始基于局部的特征編碼特征做圖像的搜索和識(shí)別,精度達(dá)到了 70%。但是其中局部信息都是由人工確定,如果出現(xiàn)人沒有見過的特征,則無法有效提取。到了 2010 年左右,大家開始使用深度學(xué)習(xí)的技術(shù),自動(dòng)的提取局部信息特征,從而精度達(dá)到了 92%,使得圖像搜索技術(shù)完全可以應(yīng)用于商業(yè)場(chǎng)景。
圖像搜索和識(shí)別發(fā)展歷程
目前,圖像搜索面臨的挑戰(zhàn)主要有三點(diǎn),首先數(shù)據(jù)越來越多,10 億級(jí)別的訓(xùn)練數(shù)據(jù)。同時(shí)還要處理上億級(jí)別的分類。而且模型的復(fù)雜度也越來越高。
為了解決以上挑戰(zhàn),阿里推出了九鼎,一種大規(guī)模 AI 訓(xùn)練引擎。九鼎是大規(guī)模訓(xùn)練載體和專家系統(tǒng),涵蓋了視覺、NLP 等領(lǐng)域。九鼎由兩部分組成,首先是通訊,因?yàn)樗写笠?guī)模訓(xùn)練都需要多級(jí)多卡,如何有效的通過多級(jí)多卡提升模型的訓(xùn)練,減少通訊的代價(jià)是較為重要的問題。另外一部分是優(yōu)化算法部分,如何做好分布式的優(yōu)化問題同樣也是目前遇到的較大的挑戰(zhàn)。這種大規(guī)模訓(xùn)練引擎可以處理大規(guī)模數(shù)據(jù)的分類并達(dá)到很好的訓(xùn)練效果。ImageNet ResNet50 可以在 2.8 分鐘內(nèi)就可以訓(xùn)練完成。若處理 1 億級(jí)的 ID,10 億級(jí)別的圖片分類可以在 7 天內(nèi)訓(xùn)練完成。
- 圖像搜索應(yīng)用
圖像搜索在實(shí)際生活場(chǎng)景中被廣泛應(yīng)用。目前,拍立淘可以處理超大規(guī)模的圖像識(shí)別和搜索任務(wù),其中有 4 億+ 的商品,30 億+ 的圖片,和 2000 萬+ 的活躍用戶。可以識(shí)別 3000 萬+ 的實(shí)體,覆蓋了 SKU 商品,動(dòng)物,植物,車輛等。
天巡是用于遙感圖像識(shí)別分析的應(yīng)用,可以進(jìn)行大規(guī)模的遙感影像訓(xùn)練,拖動(dòng)遙感圖像的路網(wǎng)提取,地物分類,新增建筑物識(shí)別,違章建筑識(shí)別等任務(wù)。
2 圖像分割
圖像分割指的是從一張圖中將 object 分割出來。傳統(tǒng)的圖像分割方法是如下圖左側(cè),分割成很多像素,看每個(gè)像素之間的相似度,相似的像素聚合起來一些區(qū)域,再輸出。但傳統(tǒng)的圖像分割技術(shù)無法學(xué)習(xí)到語義的信息,只能知道圖中的 object,但不知道 object 是什么物體。另外,因?yàn)椴捎昧藷o監(jiān)督的學(xué)習(xí),在分割邊角時(shí)精度不高。
而基于深度學(xué)習(xí)的分割技術(shù)基于監(jiān)督學(xué)習(xí),將很多訓(xùn)練樣本接入技術(shù)中。同時(shí)還可以得到分割的結(jié)果和分類的結(jié)果,理解每個(gè)像素的實(shí)例歸屬。而且在大規(guī)模的數(shù)據(jù)前提下,編碼器和解碼器模型可以精細(xì)的分割 object 的邊緣。
- 圖像分割應(yīng)用
阿里將圖像分割技術(shù)應(yīng)用于淘系的全類目商品中,可以自動(dòng)生成商品白底圖,提速商品發(fā)布。
另外,還可以用于服飾的素材拼圖場(chǎng)景中,商家會(huì)提供模特素材,利用分割技術(shù),將模特深圳的服飾進(jìn)行分割,自由組合搭配。
3 模型壓縮
目前,深度學(xué)習(xí)技術(shù)已經(jīng)廣泛應(yīng)用于多種行業(yè)中,同時(shí)也遇到了很多挑戰(zhàn)。首先,深度學(xué)習(xí)模型越來越復(fù)雜,其中計(jì)算量在不斷增長,達(dá)到了 20G FLOPS+,還有不斷增加的連接。模型變大那就需要較大的 memory 進(jìn)行存儲(chǔ),找到合適的 Device 將是非常困難的事情。即使有了 Device,模型也需要跑很長的時(shí)間。此時(shí),模型的壓縮技術(shù)就顯得非常重要,它可以將幾十 G 的模型壓縮到幾十 M,用戶可以在任何的 Device 上運(yùn)行模型,無需等待很長時(shí)間。
模型壓縮已經(jīng)發(fā)展了很長時(shí)間。如下圖中的模型,可以將模型中不重要的邊去掉,進(jìn)行稀疏化。然后對(duì)模型的邊進(jìn)行量化,給不同的權(quán)重。最后對(duì)模型進(jìn)行分支,改變結(jié)構(gòu)。FPGA 的加速方案可以在相同 QPS 條件下,相對(duì) GPU 提速 170 倍(RESNet-18 僅需 174us)。
模型壓縮本質(zhì)上是改變模型的結(jié)構(gòu)。模型結(jié)構(gòu)的選擇是比較難的問題,它不是一個(gè)普通的優(yōu)化問題,不同結(jié)構(gòu)之間是一個(gè)離散的空間。阿里提出出的 cargotainer 方法,可以更快速的獲取準(zhǔn)確的 pseudo gradient,在 2019 年 ICCV 大會(huì)舉辦的低功能耗圖像識(shí)別挑戰(zhàn)(Low-Power Image Recognition)中獲得了冠軍。
- 模型壓縮技術(shù)的應(yīng)用
基于 FPGA 的解決方案在盒馬自助收銀機(jī)得到了應(yīng)用,利用機(jī)器視覺方法識(shí)別是否漏掃商品,GPU 成本縮小到 1/2。同時(shí)自研的高效檢測(cè)算法,可以在 1 秒內(nèi)完成多種行為分析任務(wù),掃碼動(dòng)作分類準(zhǔn)確度達(dá) 90% 以上。場(chǎng)景分類準(zhǔn)確度達(dá) 95% 以上。
4 目標(biāo)檢測(cè)
另外,機(jī)器視覺技術(shù)可以應(yīng)用與視頻信息的結(jié)構(gòu)化任務(wù)中,檢測(cè)目標(biāo)物體,跟蹤識(shí)別。目標(biāo)檢測(cè)和跟蹤識(shí)別任務(wù)主要的處理流程如下圖,對(duì)視頻進(jìn)行解碼,目標(biāo)檢測(cè),目標(biāo)跟蹤,高維特征提取,屬性提取,存儲(chǔ)為結(jié)構(gòu)化數(shù)據(jù)。
目標(biāo)檢測(cè)技術(shù)也出現(xiàn)了很長一段時(shí)間,傳統(tǒng)的檢測(cè)方法是 HoG,DPM 等,依靠 Handcrafted 特征,即人工選擇特征。這種方法的問題在于魯棒性差,無法泛化,計(jì)算量冗余度高。而現(xiàn)在也出現(xiàn)了很多基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,如 Faster RCNN、SSD、RetinaNet、FCOS 等。它們的優(yōu)點(diǎn)是機(jī)器可以替代人工識(shí)別的特征,可以對(duì)物體的尺寸,外觀的變化更加魯棒,泛化性能好。如下圖中的折線圖,可以發(fā)現(xiàn)從 2008 年到 2019 年,從較低的準(zhǔn)確度(大約 20%)提升到了 83% 左右。
5 目標(biāo)跟蹤
目標(biāo)識(shí)別出來后還要進(jìn)行跟蹤。在目標(biāo)跟蹤中遇到的挑戰(zhàn)是人是動(dòng)態(tài)的,在行動(dòng)的過程中會(huì)被其它物體或人遮擋,這檔過程中會(huì)丟失目標(biāo),如下圖中的紅色衣服的人會(huì)被紫色衣服的人遮擋。傳統(tǒng)的方法是根據(jù) position 進(jìn)行匹配,但在上述擁擠場(chǎng)景中,預(yù)測(cè)位置難以精確,匹配很容易出現(xiàn)錯(cuò)誤。而基于深度學(xué)習(xí)的方法是抽取 appearance feature 進(jìn)行匹配,預(yù)測(cè)結(jié)果更加魯棒。
- 目標(biāo)檢測(cè)和跟蹤應(yīng)用
目標(biāo)跟蹤的應(yīng)用場(chǎng)景一般在新零售場(chǎng)景中。購物中心和品牌門店需要對(duì)客流及場(chǎng)內(nèi)行為進(jìn)行深入洞察,構(gòu)建線下人、貨和場(chǎng)地的數(shù)據(jù)關(guān)聯(lián)。提升線下運(yùn)營的管理效率,提升消費(fèi)者體驗(yàn),最終促進(jìn)業(yè)務(wù)的增長。
另外,目標(biāo)跟蹤技術(shù)用于案發(fā)場(chǎng)景下。但因?yàn)榘赴l(fā)場(chǎng)景中視頻都是非常長時(shí)間的內(nèi)容,難以人為檢查識(shí)別。那么能否將整個(gè) 24 小時(shí)的信息濃縮后在幾分鐘內(nèi)看完。其中需要利用目標(biāo)檢測(cè)和目標(biāo)跟蹤的技術(shù),識(shí)別人和物,跟蹤軌跡。將不同時(shí)間的軌跡一起播放,如果對(duì)某一個(gè)或某一類軌跡感興趣可以點(diǎn)擊進(jìn)去,看到這類的視頻內(nèi)容,大大減少了觀看視頻的時(shí)間。
總結(jié)
可以發(fā)現(xiàn) AI 技術(shù)的發(fā)展離不開大量數(shù)據(jù)的支持,因此目前的人工智能技術(shù)還是以數(shù)據(jù)為驅(qū)動(dòng)。如機(jī)器翻譯和專業(yè)的翻譯人員相比,人在翻譯的時(shí)候并不是完全以數(shù)據(jù)為驅(qū)動(dòng),不需要閱讀上億的數(shù)據(jù),更多是基于 Knowledge 的方法,高效的處理已有的信息。所以在未來,如何讓機(jī)器從 Data Driven Approach 走向 Knowledge Based Approach 還需要進(jìn)行不斷的探索和努力。
【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】