自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人工智能第三次黃金時代,藏在全球數(shù)億攝像頭里?

開發(fā) 開發(fā)工具
阿里云上的視覺技術(shù)有一個統(tǒng)一的名字——阿里云眼,是阿里云大數(shù)據(jù)平臺的智能視覺中心,這是它的總圖。回到一開始提出的問題,人工智能將會改變什么行業(yè),答案就是智能將進入各行各業(yè),Intelligence Everywhere勢不可擋。

 本文整理自阿里iDST科學家華先勝在全球人工智能技術(shù)大會上的演講。

今天和大家報告的主要是近兩年在阿里云上做的視覺智能方面的工作和一些思考。

首先看一下人工智能的三次“春天”。

***次是在20世紀50年代,人工智能的概念***提出,大家覺得人工智能在20年之內(nèi)會改變世界,所有的工作都會被人工智能顛覆。但是后來很遺憾,10年以后發(fā)現(xiàn)不行,大家很失望。

第二次是80年代,神經(jīng)網(wǎng)絡的提出,BP算法的提出,以及專家系統(tǒng)的初步結(jié)果,大家又很高興,人工智能又要改變世界,取代很多人的工作,但是后來證明還是不行,人工智能又一次進入了低谷。

第三次就是今天,這次是不是真的春天呢?昨天有一個論壇也在探討這個問題。這次有一些不一樣,有很多不同的觀點,有人認為深度學習取得了很大的突破,計算能力大大提升,數(shù)據(jù)更多,網(wǎng)絡帶寬也大大增加。還有一個很重要的原因,我們已經(jīng)看到一些結(jié)果,雖然這些結(jié)果離真正的智能還差很遠,但是在一些領(lǐng)域已經(jīng)取得了非常不錯的結(jié)果,不管是只有PR效應的還是真正在產(chǎn)業(yè)界的應用,都有一些可喜的結(jié)果。

云上的大數(shù)據(jù)視覺智能

人工智能技術(shù)將會改變哪些行業(yè)?我們先從視覺的角度看一看,視覺智能可以從云上做,也可以從端上做,我們今天就從云上來看。我們看看現(xiàn)在發(fā)生了什么樣的事情,其實有的是發(fā)生了很多年的事情。

[[196168]]

大家看這些圖,左上角是交通的監(jiān)控場景,右邊和左下是治安和教育的場景,***一個是直播。直播是主動的,前面三個是被動的。這些大量的數(shù)據(jù),其價值有沒有被充分發(fā)掘出來,這是一個很大的問題。

例如,在全世界有數(shù)以億計的攝像頭,中國占了一多半,每年有幾千萬的攝像頭被采購,中國一個一級城市里就有幾十萬的攝像頭。大家可能也注意到一些,這些攝像頭的數(shù)據(jù)到底是怎么被利用的,大家開車可能被處罰過,還有交警的控制中心經(jīng)常要巡檢查看,公安局里出了什么案件也需要調(diào)錄像查看。僅有這些嗎?投入了這么多,這些視頻的價值怎么才能充分被挖掘出來,這是一個很大的問題。

再看個人的圖像和視頻數(shù)據(jù),這個量也挺大,和我們每個人切身相關(guān)。我們每到一個好的地方、有好的風景,自己看沒看沒有關(guān)系,一定要讓相機“看”一下。另外還有各行各業(yè)的數(shù)據(jù),比如無人機的數(shù)據(jù)、工業(yè)的數(shù)據(jù)、醫(yī)療的數(shù)據(jù),以及體育、娛樂、新聞等等。這些大量的數(shù)據(jù),在技術(shù)往前發(fā)展了一大步的今天,它們的價值能不能充分挖掘出來?

我們處理這樣的數(shù)據(jù),就是一個視覺大數(shù)據(jù)的問題。它的特點是顯而易見,***就是數(shù)據(jù)量非常大。視覺數(shù)據(jù)量***的地方就在城市里面。有一些電視臺有100萬小時的數(shù)據(jù),已經(jīng)很多了,后來想一想,如果一個城市里有10萬個攝像頭,跑10個小時就是100萬小時。第二是很多應用有實時性的要求。例如,交通紅綠燈配時的自適應優(yōu)化,就需要實時進行分析,實時做出決策。

第三點就是數(shù)據(jù)的復雜度非常高,各種情況下的數(shù)據(jù)都有,各種應用的數(shù)據(jù)都有,數(shù)據(jù)的干凈程度和質(zhì)量都有很大的不同,需要完成的任務、開發(fā)的智能也都是不一樣的,這就對算法的普適性提出了很高的要求。

視覺智能的五要素和現(xiàn)狀

我們首先回顧一下現(xiàn)在的技術(shù)和數(shù)據(jù)等各方面是不是準備好了。

***方面,從算法的角度來看,準確率是我們首先關(guān)注的目標。我們經(jīng)??吹竭@個公司又刷新了一個公測集的記錄,包括我們自己最近也刷了一個車輛檢測的記錄。這是不是說明視覺智能已經(jīng)很厲害、已經(jīng)超過人了?在現(xiàn)實的應用當中往往是非常殘酷的,公測集上的結(jié)果往往只是一個開始,在實際應用中還需要很多非常繁重的工作,才能使得我們的算法在一個行業(yè)里做到可用。

其次,從覆蓋率上來講,這個問題就更大了,在座的各位可能很多都是學生,我們在寫論文時很少有人關(guān)注覆蓋率這個問題。覆蓋率是什么意思?如果從識別的角度來講,就是識別的范圍足夠大。這個問題很有意思,例如,ImageNet中1000類物體場景的識別,我們拿到真正的應用場景里去看,是遠遠不夠的;或者說,實際應用場景感興趣的常常不是這些類別,也就是說這些還沒有覆蓋到用戶需要的地方。你要覆蓋全世界是非常難的事情,但是不見得是不能做的事情。

幾年前我在微軟還嘗試做過百萬標簽識別的問題,這個準確率當然很難做得高,但是在一些場景下也是可以用的,例如搜索。覆蓋率在視覺搜索中的體現(xiàn),例如,能搜衣服,不能搜鞋子不行,不能搜其他東西也不行。用戶的使用體驗往往與覆蓋率有非常大的關(guān)系。

第二方面,計算效率。效率決定了這個事情可不可能發(fā)生,比如我們要處理城市幾十萬的攝像頭,需要花幾十億就完蛋了,這不是成本的問題,是這個事情可不可能發(fā)生的問題。從計算的角度來講,不僅僅是計算的效率,還有計算的平臺,尤其是當你處理大量數(shù)據(jù)時,不是一兩臺機器,而是百臺、千臺、萬臺時,就需要處理系統(tǒng)和流程的問題,比如說容錯、流程的控制等,這就需要一個大的計算平臺來支撐。

從計算來講,效率是非常重要的,包括平臺的效率、計算節(jié)點的效率。例如,一臺計算機放多張GPU卡,這些卡如何充分利用起來。還有算法本身運行效率的問題。剛才我忘了說一句,關(guān)于算法的一個結(jié)論:我們確實有很大的進展,但是還有很長的路要走。對于算法而言,只有把計算的效率發(fā)揮到***,算法的優(yōu)勢才能發(fā)揮到***。

第三方面,數(shù)據(jù)。這也是爭論最多的問題,昨天也有一個論壇討論數(shù)據(jù)的問題。大家經(jīng)常發(fā)現(xiàn)數(shù)據(jù)的威力有時會超過算法,當然如果只是學生作為借口,做不好算法說是數(shù)據(jù)的問題,那是另外一回事。在昨天的論壇上也一直討論數(shù)據(jù)和深度學習算法的問題,實際上數(shù)據(jù)的使用有兩個方面的問題,這個還是一直沒有說清楚。

數(shù)據(jù)的作用到底在哪里?我覺得很多時候大家只是關(guān)注了數(shù)據(jù)對算法研發(fā)的作用,但是這只是其中一個作用;而數(shù)據(jù)對智能本身是另外一種作用,而且是很重要的作用。沒有數(shù)據(jù),就沒有從數(shù)據(jù)產(chǎn)生的智能。至于沒有大量數(shù)據(jù)是不是就沒有深度學習算法,這個還可以商量,也許少量的數(shù)據(jù)也是可以的,但是作為智能,尤其是強人工智能的話,如果沒有大量數(shù)據(jù)恐怕是不可能的。

所以,數(shù)據(jù)是有兩個維度的作用在里面,數(shù)據(jù)本身是算法研發(fā)的原料,同時數(shù)據(jù)又是產(chǎn)生智能的原料,這是數(shù)據(jù)的兩個作用。數(shù)據(jù)本身也有很多的困難,數(shù)據(jù)量大的時候,包括采集、傳輸、接入、融合和存儲等各方面都不是簡單的事情。還有非技術(shù)方面的困難,尤其是數(shù)據(jù)的開放,其實在中國這件事情已經(jīng)比西方國家好得多了。在中國,大家對數(shù)據(jù)開放沒有那么糾結(jié),這也是人工智能在中國獲得更快發(fā)展的一個很重要的原因。

第四個方面,剛才講了人工智能風聲水起,視覺計算遍地開花,但是,花開了,能不能得到結(jié)果?就是你做的事情是不是個正確的事情,是不是真的事情。有時候看起來是個真事情,其實是個偽課題、偽需求。昨天也有人提到偽需求,我們在實際當中確實是會碰到的。客戶有時提出的需求,仔細想一想可能就是偽需求,也就是說不是一個能夠帶來真正價值的需求。

無論你帶來的價值是節(jié)省了人力、降低了成本,還是提高了安全性等等,這些都是要非常明確的。如果這些不明確,你就沒有一個商業(yè)的模型和應用,沒有明確的商業(yè)應用,沒有持久的商業(yè)應用,這個AI也就不能持久。

總結(jié)一下,一共五點(有一點沒有直接講):算法是安身立命之本;計算平臺保證算法能大規(guī)模處理大量數(shù)據(jù),也是計算效率的問題;數(shù)據(jù),一方面是算法研發(fā)的原料,也是產(chǎn)生智能的原料;用戶這個要素剛才沒有單獨分析,但它與商業(yè)模式和數(shù)據(jù)是非常相關(guān)的。商業(yè)上,有大量的用戶使用,或者說用戶少,使用的頻率比較高也是OK的,而用戶本身也能產(chǎn)生數(shù)據(jù)。例如,搜索引擎就是利用了大量用戶的數(shù)據(jù),每個人對搜索引擎都是有貢獻的。商業(yè)剛才講了,合適的商業(yè)模式,保證你做的是正確的事情,不是虛假需求。

視覺智能實例:拍立淘

下面講幾個例子,有的是已經(jīng)做好的,有的是正在做的。

首先看基于圖像的商品搜索。我們今天講的是視覺的搜索,是通過拍照的方式搜索商品。淘寶上有一個功能就是拍照搜索,叫做“拍立淘”。它要解決的問題就是文字之外的搜索入口,是無法用簡單文字描述的搜索需求,是種簡單直接的搜索方式。如果這個應用每天的用戶和交易量在***別的話,還是很有價值的。

這里關(guān)鍵的技術(shù)包括商品識別、商品檢測、和商品描述。首先,用戶拍了商品照片后,要做出精準的商品類型判斷,不然后面就全錯了;然后要知道這個商品在圖像中的位置,再用一個深度學習網(wǎng)絡做特征提取;后面還有檢索、排序、搜索質(zhì)量判斷,以及結(jié)果呈現(xiàn)。這里的幾乎每一步都是用深度學習來完成的。

我們來看幾個例子。這是同一個包,但其實圖像是不一樣;這是一只鞋子,雖然我們沒有找到同款,但找到了非常相像的款式;這是一件圓領(lǐng)衫,沒有什么顯著的特征,比較難做,但也是找到了很像的衣服;這個杯子是一次開會的時候看到的,你要用文字搜就說不清楚了,但用圖像找到同款卻易如反掌。

[[196169]]

還有個例子,是和朋友喝茶的時候,看到這個泡茶杯太好了,我之前沒有見過;杯子上面有一個紅色的按鈕,就是水倒下去后,水是在上面泡著茶葉,覺得泡的濃度差不多了,就可以按這個紅色的按鈕,茶水就流下去了。我想買,但不知道這個杯子叫什么。好在我們有拍立淘,一拍就知道,這種杯子叫做飄逸杯,淘寶上有很多可以選擇。

視覺智能實例:城市之眼

視覺之眼,是城市的眼睛。我們要處理的是城市的攝像頭,不管是交通、安防、城管,還是個人的,這些攝像頭的數(shù)據(jù),我們思考怎樣把它的價值挖掘出來。里面涉及到的技術(shù)仍然是視覺數(shù)據(jù)的檢測、識別、系統(tǒng)、搜索、挖掘等。

這個例子是交通視頻的分析,對車輛的檢測、車輛的跟蹤、車輛的屬性,就是將路面上發(fā)生的事情了解個底朝天。過去做交通優(yōu)化的時候有兩個信息源,***個是地感線圈;但線圈數(shù)據(jù)不知道這個車的屬性、車類型、車多長,這個車到哪里去了,這個信息不全。第二個數(shù)據(jù),是GPS的數(shù)據(jù);但一般只有少數(shù)人開啟GPS,所以是采樣數(shù)據(jù)。視頻數(shù)據(jù)不同,是“眼見為實”,攝像頭見到的才是真實完整的數(shù)據(jù),所以這個數(shù)據(jù)是不可替代的。

這個例子是另外一種攝像頭,高點的攝像頭,雖然細節(jié)看不清楚,但是數(shù)數(shù)可以數(shù)得出來,而且,你任意畫一個區(qū)域就知道關(guān)于這個區(qū)域物體的移動情況。比如說經(jīng)過多少輛車、大概的類型是什么;有的地方不讓停車,你可以畫個區(qū)域不讓停,一旦有車停了就報警。

這些技術(shù)也沒有什么特別的地方,也有很多人做類似的工作。但是有一件事情不同,就是如果處理大量這樣的數(shù)據(jù),幾萬、幾十萬這樣的數(shù)據(jù),你需要在一個平臺上進行實時處理,這就不是一個簡單的事情,而且處理的效率要足夠高,這是很關(guān)鍵的事情。我們有離線和實時兩套處理系統(tǒng),大規(guī)模離線視覺分析,這個是阿里的一套系統(tǒng),對實時性要求不高的大量視頻數(shù)據(jù),離線比較容易處理。實時的原理也差不多,只不過有延時方面的要求。

系統(tǒng)實現(xiàn)上,還有時間上的和空間上的實時協(xié)同。比如說,對一個路口的交通燈進行管控,你要看這四個路口,還要看旁邊幾個路口,你在實時分析的時候還需要把空間多路信息進行融合。時間和空間的協(xié)同問題,是由平臺來支撐,而不是算法,這樣我們做算法的人員就可以集中在算法的設計和優(yōu)化上。

還有搜索的功能,剛才講了電商的搜索,這個量級不小,但是還有一個量更大的就是城市的數(shù)據(jù)。城市的數(shù)據(jù)量太大了,里面有車、有人。人是非常難的事情,人臉相對容易,而看不清人臉的人就非常難;車相對容易一點,我們要學習它的結(jié)構(gòu)化特征和它的非結(jié)構(gòu)化特征,也就是用一個向量表示的視覺特征。

這里我稍微岔開來講兩個關(guān)于視覺數(shù)據(jù)的特別的例子,其實也是城市視覺識別技術(shù)的例子,但又是在數(shù)據(jù)的量上和我們直觀的感受并不太一致的例子。***個是車牌。數(shù)據(jù)這件事情是非常有意思的,剛才講了大數(shù)據(jù),但是剛才講的數(shù)據(jù)一個是研發(fā)算法的原料,第二個是人工智能的原料。對于算法研發(fā)而言,往往需要大量的標注數(shù)據(jù),但有時這樣的數(shù)據(jù)并不容易獲取,或者獲取的成本比較高。例如車牌的識別,車牌看起來數(shù)據(jù)量很大,但雙層黃車牌的量就要小很多。

有一種思路就是自動生成一些車牌作為車牌識別的訓練數(shù)據(jù),這兩幅圖就是例子,是算法生成的以假亂真的車牌。這個車牌產(chǎn)生以后,對識別的準確率有顯著性的提升。還有些場景,數(shù)據(jù)的獲取更可憐,比如事故,但是你有大量正常的樣本,一樣可以用來作數(shù)據(jù)的模型,把它作為異常檢測的問題來做就可以了。這上面是公開測試級上的結(jié)果,視頻中間有人撒了一點紙,這個異常的檢測響應是非常明顯的;下面的這個例子是車輛的刮蹭,是個真實場景,難度就大多了。

從搜索的角度來講,我們把整個城市的數(shù)據(jù)如果都收集起來,放到一個大數(shù)據(jù)里,建好索引,大家腦補一下,將會對城市的交通優(yōu)化等應用產(chǎn)生什么樣的影響。如果我們再進一步挖掘數(shù)據(jù)的價值,有很多應用場景可以考慮 ……

視覺智能實例:視覺診斷

第三個是視覺診斷,包括診斷人和診斷機器。診斷人比較好說,就是醫(yī)療圖像分析,現(xiàn)在也是很熱的題目。當然它比其他的方向慢了半拍,一方面由于數(shù)據(jù)收集的困難;另一方面是需要很強的專業(yè)知識。機器診斷是還沒有開發(fā)的方向,它的問題有點像前面提到的異常檢測的問題,有發(fā)生概率很低、正例樣本很少,以及正例樣本差異性大三個特點。

舉個例子,1萬個樣本,只有10個有問題是你要找出來的。但是你找不準那10個,只能說找出100個,那10個就在100個里面。這時你的召回率是100%,而準確率很低,只有10%。但是,這有沒有用?我們算算省了多少人力,省了99%,因為你只需要看100個就行了。哪怕只有1%的準確率,只要召回率足夠,也省了90%的人力。

所以這類問題的目標不一樣,衡量的標準也是不一樣的,省人力是非常重要的指標。其實這里面涉及到各行各業(yè)的視覺問題,凡是過去需要人眼來看的,是不是都可以用視覺的方法來解決。從這個角度來講,就是遍地黃金,很多地方都可以挖到黃金,不見得出來一個視覺創(chuàng)業(yè)公司就一定要去做人臉識別。

視覺智能實例:視覺廣告

前面三個是偏分析、搜索的,第四個方向——視覺廣告,是合成的方向。視覺廣告是將視覺數(shù)據(jù)變現(xiàn)的最直接方法,特別是對于娛樂的數(shù)據(jù)、個人的數(shù)據(jù)、新聞、電視電影等這些數(shù)據(jù)。這些數(shù)據(jù)怎么發(fā)揮更多價值,除了人看以外,廣告是很重要的方法。但是增加廣告后用戶的觀看體驗就很差,大家如果看過網(wǎng)上的視頻,應該有深切的體會。那廣告是不是可以做的更好一點?我們看幾個例子。

例如,可不可以把廣告放在場景里,作為場景的一部分?當然,這個已經(jīng)有人工在做這樣的事情,但是人工做不了大量的內(nèi)容。如果可以自動化,就可以用到大量的視頻中。像下面這個例子,把視頻中電視機的屏幕部分換成廣告視頻。這樣的廣告既不耽誤觀看者欣賞視頻的內(nèi)容,也不占用觀看者的時間,但實際上它已經(jīng)潛移默化地影響了你。

云上視覺智能生態(tài)

阿里云上的視覺技術(shù)有一個統(tǒng)一的名字——阿里云眼,是阿里云大數(shù)據(jù)平臺的智能視覺中心,這是它的總圖?;氐揭婚_始提出的問題,人工智能將會改變什么行業(yè),答案就是智能將進入各行各業(yè),Intelligence Everywhere勢不可擋。

但是,人工智能的從業(yè)者也是很容易翻船的,因為你需要這五個要素齊備。還有一種選擇,就是你可以加入到一個生態(tài)里。終于回到今天講的主題上來了——打造云上視覺計算的生態(tài)。不僅僅是視覺,其他智能也是一樣。在云上可以搭一個舞臺,這個舞臺不僅僅是大公司在玩,小公司也可以玩,個人也可以玩。不管是哪個層次的智能,基礎API、功能模塊和解決方案都可以。

這個舞臺上還有一些基本的道具可以使用,例如搜索引擎、機器學習平臺、大規(guī)模視覺計算等,還有最基本的計算和存儲,這些東西都可以利用起來,大家都可以在這個平臺上玩。其實,整個云上的智能也不是一兩個公司可以完成的,各行各業(yè)的需求量非常大,需要很多人一起努力,把這個生態(tài)一起繁榮起來。

【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2019-08-27 11:06:11

人工智能電腦Google

2014-07-24 10:16:11

高教華為

2021-04-22 14:00:52

數(shù)字化

2018-03-05 19:43:16

人工智能新興產(chǎn)業(yè)

2017-06-22 10:06:01

AI機器學習馬云

2011-11-28 14:01:30

蘋果日本iPhone

2021-07-08 10:13:04

AI 數(shù)據(jù)人工智能

2023-11-06 19:12:59

昇思

2009-06-08 10:35:18

2021-11-30 23:32:01

人工智能數(shù)據(jù)技術(shù)

2010-09-18 00:43:14

開源

2015-07-06 16:03:13

工業(yè)革命機器人高交會

2012-04-13 14:03:37

蘋果

2015-05-06 15:59:09

2015eLTE產(chǎn)業(yè)聯(lián)盟第三次峰會華為

2021-09-18 11:58:52

企業(yè)上云埃森哲云計算

2020-10-08 14:44:00

編程IT技術(shù)

2023-09-14 10:05:33

人工智能智能攝像頭

2020-07-30 14:05:53

谷歌華為芯片

2012-05-21 09:03:04

Fedora 17
點贊
收藏

51CTO技術(shù)棧公眾號