自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

被阿里挖來的高級別華人科學家,聊聊AI帶來的想象空間

新聞 人工智能
在云棲大會新零售峰會上,任小楓大概是談「人工智能如何在新零售場景下進行應用」這個話題中最有話語權的科學家之一。 除了向大家介紹了自己最為擅長的計算機識別技術,他也在演講中披露了自己對新零售諸多應用場景中的 4 個最感興趣也最看好的應用方向。

 他曾是亞馬遜***級別的華人科學家,他也是 1 年前轟動全球零售業(yè)的亞馬遜無人零售店項目 Amazon Go 的重要策劃者。而現(xiàn)在,他的身份是阿里巴巴 iDST ***科學家兼副院長。

[[206333]]

因此,在云棲大會新零售峰會上,任小楓大概是談「人工智能如何在新零售場景下進行應用」這個話題中最有話語權的科學家之一。

除了向大家介紹了自己最為擅長的計算機識別技術,他也在演講中披露了自己對新零售諸多應用場景中的 4 個最感興趣也最看好的應用方向:

增強現(xiàn)實、智慧門店、機器人、可穿戴設備。

至于原因,請仔細閱讀任小楓在這次大會上由機器之能整理的全篇演講:

今天非常高興能夠有這個機會來這里跟大家分享一下我的一些想法。

剛才看到天貓小店的視頻,非常好,它的存在已經給了大家很多 想像 的空間。也給大家描述了很好的未來。而作為一個技術人員,我平時大多數(shù)時間其實是在思考怎么樣解決實際的技術問題,怎么實現(xiàn)這個未來。

當然,解決問題也并不是工作的全部,有的時候確實也會想一下未來會是什么樣子的,所以很高興有這個機會跟大家分享一下。

不過因為其實我在美國工作生活了很長時間,所以新零售這件事情很多時候對我來說也是一個迷,前面聽了曾教授也好,還有其它各位講的,我也學到很多。

怎樣去解開這個謎呢?我去看了一下前段時間阿里研究院有關于新零售的報告,那個對于新零售有一個非常全面的總結: 新零售是以消費者體驗為中心的,數(shù)據(jù)驅動的泛零售的形態(tài)。

其實雖然是短短的一句話,但里面有很多的信息。有一個比較難讓我們控制這個 想像 空間的是因為能夠應用的場景是非常的多,比方說批發(fā)零售、物流、娛樂、餐飲,其實就是說我們說到新零售有很多可以應用的地方。

但是我們看到這句話的描述中有幾個關健詞,一個是體驗、一個數(shù)據(jù)、一個泛零售。

[[206334]]

從體驗來說我相信很多在座的比我會有更多想法,也有更多經驗去想怎樣才是更好的用戶體驗。而對我來說,因為我做的是人工智能,特別是計算機視覺,想的則是怎么樣能夠得到有用的數(shù)據(jù)。

從數(shù)據(jù)的角度來說,因為應用的場景很多,百貨公司、購物中心,便利店,甚至還有很多比方說是直播,視頻、電子商務。

從各個場景來看,買東西的本質,無非就是人和商品。我們做的事情就是去理解人,理解物,然后把人跟物聯(lián)系起來,讓用戶更好和更快地找到他滿意的商品,把商品能夠更快更好的送到用戶的手里。

從信息的角度來說,要得到關于人的信息或者關于物的信息,特別在很多線下的場景當中,我自己覺得計算機視覺或者用相機是非常好的方法。

比方說,視覺是通用的方法,有一個相機在里面可以干很多事情,可以識別人、物、動作,也是非常高信息量的感知的方法,像現(xiàn)在比如 1080P的視頻非常普及,1080P 的象素下面可以看到很多東西。

而它又是一種被動的方法,很多情況下原因是因為人是用眼睛感知的,所以這個世界實際上是為了我們的眼睛而設計的,從紅綠燈也好,標志牌也好,很多商品的包裝,很多時候都是為了適應人眼,計算機視覺就是利用了這個世界設計的規(guī)律,然后試圖用同樣的途徑來得到更多的信息。

當然視覺它其實有很多問題,首先必須要有光照,比較好的光照才能夠得到比較好的信息。但這問題也不是太大,因為人的眼睛也需要好的光照才能看到。

另一個是遮擋,這是個比較大的問題。相機被擋住,后面的東西確實沒法看到。這個其實也是跟高信息量相關的,因為我們用的是可見光,波長很短,需要高信息量的時候沒辦法繞過前面的遮擋物。而計算機視覺應用***的問題是它的精度,很多時候精度不夠,但是最近幾年有很大的改變,很大程度上來說精度并不是特別大的問題了。

下面我想介紹一下現(xiàn)在計算機領域的發(fā)展狀態(tài),也讓大家對其有更好的了解,看看我們技術已經進步到什么程度。

從物來說大家知道有一個非常有影響力的競賽是物體分類的競賽,一千個物體,所要做的就是給每一張圖打上一個標簽,知道它是什么。這個是過去八年當中 ILSVRC 上面的進展,Y 軸描述是錯誤率,還是非常難的,最近這八年進步非??臁?/p>

2012 年的時候深度學習開始就是說在這個問題當中得到應用,在整個計算機視覺領域得到應用。2012 年之后,過去的六年當中精度一直在提高。

可以比較一下,有人測過人在這個問題的錯誤率是 5%,并不是計算機超過人,它也有各種各樣的問題。但在一定程度上,計算機在某些情況下可以達到人的精度。

光是一張圖一個物體并不是視覺唯一的問題,很多情況下需要處理一個復雜的場景,所以 ilsvrc 也有物體檢測的競賽,給你復雜的場景,需要找到各種各樣的物體,這個問題這幾年的進展也是很快的,當然深度學習是一個原因,當然數(shù)據(jù)其它的都是原因。

這個圖稍微復雜一點,因為檢測的問題來說,要做到正確的檢測需要有正確的標簽和正確的位置,檢測問題還有一個預值的問題,可以把預值調高,返回的問題少會錯失一些,調低返回的更多,但是會有一些誤解。

總的來說現(xiàn)在的 MAP,就是平均精度達到 0.75,這個確實跟人還有一定的距離。但是大家看一下這個圖,很多情況下還是能夠做的很好。像這個場景當中有很多東西,有人,有狗,有雨傘,后面還有一些比較小的東西,比如椅子,很多情況下都是能夠檢測到的。

大家再看一下這個語義分割的例子。很多情況并不是只是找邊框,這個問題在每個 象素點 上我們都去標注這個到底是什么。這是自動駕駛的例子,算法可以標樹、車、行人,還有各種各樣的在場景當中能夠碰到的物體,這也是一個已經能夠達到不錯的精度,現(xiàn)在用相機做無人車也是非常有意思的方向。

[[206335]]

總之,對人來說,其實視覺也能夠做很多東西。這又是一個例子,這是一個多相機的跟蹤的例子,比方用八個相機,人在走動,很多情況下我們可以比較精準地跟蹤這些人,每時每刻知道這個人的地方。多相機的跟蹤可以做很多事,首先可以得到人的身份,可以知道這個人是誰,還有一個就是可以比較精準的得到這個人的位置。

大家知道室內定位,其實有很多方法,WIFI 也好,藍牙也好,超聲波。而精準定位,視覺能夠給我們一個至少是厘米級的定位的精度,很多情況下是很有用的。

不是說只是去檢測這個人在哪里,在很多情況下,我想給大家看的是其實我們在很多情況下能夠做到對人姿態(tài)及各種動作的判斷——不光知道人在哪,也能知道眼睛、耳朵、肩膀、手臂是怎樣活動的。

即使比較復雜的場景下,即便人的動作變化很大,我們也一樣能夠去得到這些信息。人的姿態(tài)其實是一個對人理解的基礎。

這是一張圖片,就是其實是一個基于人姿態(tài)的動作識別。上面那個藍色的是我們想得到的東西,綠的是算法的估計。這個相對來說是一個比較簡單的問題,這個視頻相對來說比較簡單,想給大家看一下,有了姿態(tài)之后,還可以在姿態(tài)的基礎上做一些動作的識別,物體的識別,很多情況下能夠識別人的動作。

[[206336]]

如果我們往前展望一下,無論是一個室外場景也好或者室內場景也好,現(xiàn)在計算機視覺真的能夠做很多東西。

稍微夸張一下的說,其實很多情況下,我們看得見的事情,人能做的事情確實計算機現(xiàn)在都能做。在幾年前絕對不敢說這句話,但是現(xiàn)在算法的發(fā)展也好,其它能力的提高也好,很多情況已經很接近了。

當然,從另一個方面來說,如果相機看不見的也沒辦法。這個也不是純開玩笑,因為從解決實際問題的角度出發(fā),相機的布置其實是一個很重要的問題,你希望能夠有一個很好的布置,能夠在***程度上得到你想得到的信息。

除了相機之外,其實我們還有很多別的問題需要考慮,比方說數(shù)據(jù)、計算量、成本,這些跟算法需要結合在一起。我對視覺還是有非常有信心的,覺得有很多情況下很多事情都能做的。

回到新零售的討論,如果說新零售是一個數(shù)據(jù)驅動,其實也可以把這個說法做小小的修改,可以使用信息驅動的形態(tài)。怎么說呢?有很多時候數(shù)據(jù)并不是現(xiàn)成的,有很多時候數(shù)據(jù)需要我們花力氣得到的,特別線下的場景當中,或者線上也好,很多情況用視覺或者其它得到對我們有用的信息。

說完了視覺,前段時間的進展或者技術,我也想跟大家說一下我自己非常感興趣的幾個應用方向,在這么多的應用場景當中,我想提幾個自己比較感興趣的:

增強現(xiàn)實,智慧門店,機器人,***助手(可穿戴)。

想給大家看一下幾個例子,看看現(xiàn)在技術大概發(fā)展到什么程度:

增強現(xiàn)實是現(xiàn)實世界跟虛擬世界的疊加。就像這個圖上顯示的,我們買家具,可以拿 PAD 看家里,可以把家具放那邊。這里面有幾個比較關鍵的問題,比如三維定位、三維建模,渲染。建模與渲染是比較簡單的問題,對定位來說現(xiàn)在也到了一個時候。

[[206337]]

大家知道前幾個月蘋果公司發(fā)布了他們能夠在蘋果手機上面做到相當精準的實時的三維的定位,它的計算量都達到了使用的程度。

三維定位解決之后,其實增強現(xiàn)實能夠有很多應用的,給大家稍微看一下幾個例子。

這是一個例子是就是說是相當于幫助你去找東西,其實對我來說是一個很重要的事情。經常我太太讓我到店里買東西,不知道在哪,我也不愿意問人,要花很長時間。

如果有了定位技術,然后如果以這個店里面商品的位置做一個比較精確的地圖,就可以想像可以用增強現(xiàn)實去做一些導引方面的東西。

當然其實我們也可以說在這個例子當中,增強現(xiàn)實不一定是非常關鍵的東西?;氐絼偛耪f的虛擬購物,也是大家經常說的東西,如果有了增強現(xiàn)實,可以在網上找到這些家具可以放到家里可以看大小,可以看搭配,很多情況下還可以看光影的效果等等。這個在現(xiàn)在也是一個可能也是一個比較成熟的,很多人可能有很多人在做,很多時候很快可以用到。

[[206338]]

下一個想跟大家稍微討論一下的是智能門店,大家知道我以前是在亞馬遜的,我很幸運在亞馬遜 GO 項目開始的時候加入了進去,我們花了四年時間做了這么一個店,還是非常興奮和自豪的。

我們解決的問題是在一個相對通用的場景下解決支付的問題,做到進去之后拿了直接走,不需要排隊結賬環(huán)節(jié)。

做了 4 年之后,現(xiàn)在每次買東西排隊都希望能夠把支付環(huán)節(jié)做好,省掉排隊跟 結帳 。雖然只是支付一個環(huán)節(jié),但要做到高精度就有很多問題要解決,解決人的問題、商品的問題、動作方面的問題,知道人拿的什么商品。

很多情況下可以想像成是一個相對通用的線下智能系統(tǒng),如果有一個相機網絡,可以做很多事情,可以用來跟蹤人,可以用來分析人流,可以看停留的時間,看有人有沒有拿東西,看了多久,有沒有放回去,可以用相機監(jiān)控貨架。

如果跟身份結合,或者用人臉或者其它方式,可以做到很多個性化的體驗,能夠讓你在每時每刻在店里面知道你是誰,提供個性化的服務。

支付肯定是一個方向,有很多情況下我們會思考很多事情在線上比較容易做的,像停留時間、個性化?,F(xiàn)在到了一個其實我們在線下也能夠做類似東西的時候。

實際上,有些東西在線上不是那么容易做的,比方說我們可以做表情識別,這是一個例子,就是我們可以通過對人臉的分析知道它是高興還是不高興,是生氣了還是無聊,其實很多時候這件事情都是可以做的。

因此,線下跟線上相比,有一些時候說不定真的有一些優(yōu)勢。

回到這個線下系統(tǒng),在不遠的將來可以看到像這樣通用的線下智能系統(tǒng)可以做很多事情,在一家小店鋪做一回事,但是在大的 shopping mall 場景下,里面有各種各樣的店鋪,有比較大的空間,那個里面的實現(xiàn)難度會再上一個大臺階。

普通情況下是一回事,如果在一個比較擁擠的情況下,很多時候也是需要在算法上,在數(shù)據(jù)上,或者其它方面花很大的力氣,但是在很多時候應該是在目前來說應該是已經是可見的事,能夠看得到的事情。

[[206339]]

第三個提一下機器人,前面提的很多情況下只是感知,只知道那個人在哪里,其實我們可以做一些交互,可以是語音的交互,也可以是顯示屏或者視覺上面的交互。從物理的角度來說,我覺得我對機器人還是非常感興趣的,機器人現(xiàn)在發(fā)展也是非常的快,大家其實已經看到了很多的例子。

這是一個 Boston 的例子,他們做了很長時間機器人,在控制上面做的很好。它可以做很多事情,可以在家里走,這個是顯示一下它能夠做非常復雜的動作。

[[206340]]

因為它有腿,它也有手,可以抓廚房里面的一個杯子,當然這只是一個例子。其實很多人想做一個機器人,自動的幫你洗碗洗盤子,或者干其它家務,那個還有一定的距離,但是這個其實例子也說明了我們這個可能離將來并不是那么遠。

這個是因為 Boston 他們主要做控制,視覺上沒有花太多功夫,不然可以識別那是個香蕉皮的。但是它可以爬起來,然后自己上樓梯。

所以機器人在將來,應該是一個非常有意思的方向,物流也好,門店也好,相信在將來肯定會看到更多機器人的應用。

***一個是***助手,主要指的是可穿戴設備。

可穿戴設備是個人視角,跟門店不同,它可以記錄生活,識別環(huán)境,識別其它的人,也可以用來識別自己的動作狀態(tài),可以作為一個助手跟你對話,給你提供信息,它其實是有很多事情可以做的。

譬如,Snap Sperctacles 前段時間出了一個比較好的眼鏡,可以比較好的記錄生活狀態(tài)。

[[206341]]

谷歌其實好幾年前,就做谷歌眼鏡,后來沒有做成功,后來出了企業(yè)版,還比較有意思,可以幫工作人員在制造或者物流或者其它情況當中做很多事情,可以幫你識別,可以幫你掃碼。其實還有一個例子,他們當時是想說你有一個比較復雜的工作要接線,可以告訴你線怎么接,干什么事情,這樣的設備在以后對大家是很有用的東西。

***,大家應該都見過這個曲線,這是 Hype Cycle,就是每個技術,新產品,都要經歷這樣的發(fā)展階段:

開始大家非常興奮,一擁而上,很快達到頂點,再然后就要處理實際的問題,再往下走了,走到谷底,最現(xiàn)實的問題出來,大家才知道應該解決哪些問題,逐漸往上走。

剛才提到那幾個方向,增強現(xiàn)實其實已經在這個地方了,下面會看到比較多的應用;

而智能門店可能還是處在山頂附近,下面應該有很多東西要走;

而機器人或者可穿戴設備可能還會在更加遙遠的將來。

但是我有時候也需要想象一下五年以后,十年以后的樣子,這些也都是非常讓人感到激動的方向。

剛才提到很多應用當中,視覺是能夠起到非常關鍵的作用,能夠得到很多信息,因為它是通用的方法,能夠得到人物動作,很多東西能做的。

當然我們需要去得到相關的數(shù)據(jù),很多時候很多算法需要融合,需要跟其它的傳感器進行融合。另外,很多時候也不光是感知的問題,我們需要去跟機器人或者其它交匯的方法融合,計算角度來說不見得都在云上或者端上做,云跟端也要融合。

除了這幾個問題之外,還有很多大家有的時候會提到的方向,譬如簡單的手勢識別、商品搜索、虛擬現(xiàn)實。

其實在新制造上面我自己也覺得人工智能,計算機視覺有很多可能性的應用。我們經常說現(xiàn)在確實是一個技術發(fā)展非常快的時候,商業(yè)也是發(fā)展非常快的時候,我也是非常期待能夠成為這個當中的一部分,能夠跟大家一起努力,能夠建設一個更好的未來。

版權聲明

本文僅代表作者觀點,不代表百度立場。

責任編輯:張燕妮 來源: 百家號
相關推薦

2023-05-23 09:34:16

科學家AI

2019-12-04 15:02:22

數(shù)據(jù)科學家故事數(shù)據(jù)分析

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2012-12-06 15:36:55

CIO

2017-10-25 09:52:07

2018-02-28 15:03:03

數(shù)據(jù)科學家數(shù)據(jù)分析職業(yè)

2023-05-04 12:35:39

AI科學

2016-04-11 14:15:06

數(shù)據(jù)科學數(shù)據(jù)挖掘工具

2020-03-20 14:40:48

數(shù)據(jù)科學Python學習

2015-08-25 13:20:29

數(shù)據(jù)科學

2012-12-26 10:51:20

數(shù)據(jù)科學家

2023-03-17 08:00:00

人工智能工具數(shù)據(jù)科學家

2022-05-20 11:10:56

AI大牛離職

2022-11-03 14:13:24

騰訊科學家

2018-12-24 08:37:44

數(shù)據(jù)科學家數(shù)據(jù)模型

2016-05-11 10:36:16

數(shù)據(jù)科學家數(shù)據(jù)科學大數(shù)據(jù)

2019-07-05 10:29:17

大數(shù)據(jù)數(shù)據(jù)科學家

2023-12-18 15:54:42

AI 模型

2015-06-11 10:27:29

數(shù)據(jù)科學家
點贊
收藏

51CTO技術棧公眾號