自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里iDST視覺計(jì)算負(fù)責(zé)人華先勝:算法的紅利正在消失

開發(fā) 開發(fā)工具 算法
機(jī)器之心對(duì)華先勝進(jìn)行了獨(dú)家訪談,他介紹了視覺計(jì)算團(tuán)隊(duì)所推動(dòng)的研究進(jìn)展與突破,以及他對(duì)AI行業(yè)發(fā)展的看法。

「我越來越明確自己的興趣點(diǎn)——把技術(shù)研究與現(xiàn)實(shí)世界里的問題結(jié)合起來,去解決真正的問題、創(chuàng)造價(jià)值?!拱⒗镌埔曈X計(jì)算團(tuán)隊(duì)負(fù)責(zé)人華先勝說。華先勝是視覺識(shí)別和搜索領(lǐng)域的***權(quán)威學(xué)者,曾被評(píng)為 IEEE Fellow、ACM2015 年度杰出科學(xué)家、MIT TR 全球 35 位 35 歲以下的杰出青年創(chuàng)新人物,曾擔(dān)任 ACM Multimedia 等大會(huì)程序委員會(huì)主席。

2015 年,華先勝離開職業(yè)的起點(diǎn)微軟研究院,選擇加入阿里巴巴。這在很多人眼里是一個(gè)不容易理解的選擇,但在華先勝看來,理論研究有價(jià)值,但把這些技術(shù)放在一個(gè)切實(shí)的應(yīng)用場(chǎng)景中讓更多人使用同樣有意義。

在阿里巴巴的***年,華先勝負(fù)責(zé)電商圖片搜索技術(shù)的優(yōu)化,推動(dòng)了手機(jī)淘寶、天貓中的「拍立淘」的技術(shù)開發(fā),讓用戶通過手機(jī)拍攝物品照片搜索相同或者相似的商品,這正在成為一種更為高效的商品搜索方式。有數(shù)據(jù)顯示,2015 年雙 11 當(dāng)天,千萬(wàn)消費(fèi)者使用「拍立淘」功能,達(dá)成了超過數(shù)千萬(wàn)元的銷售額。

隨著云上的視覺計(jì)算需求量越來越大,2016 年初,華先勝轉(zhuǎn)入阿里云并創(chuàng)立視覺計(jì)算團(tuán)隊(duì),目前該團(tuán)隊(duì)隸屬于人工智能研究機(jī)構(gòu) iDST 團(tuán)隊(duì)。2 月 27 日,機(jī)器之心對(duì)華先勝進(jìn)行了獨(dú)家訪談,他介紹了視覺計(jì)算團(tuán)隊(duì)所推動(dòng)的研究進(jìn)展與突破,以及他對(duì)AI行業(yè)發(fā)展的看法。

[[184725]]

視覺計(jì)算團(tuán)隊(duì)實(shí)現(xiàn)了哪些突破

機(jī)器之心:能否和我們分享一下,您帶領(lǐng)的阿里云視覺計(jì)算團(tuán)隊(duì)的工作有哪些突破性進(jìn)展?

華先勝:視覺計(jì)算團(tuán)隊(duì)成立以后就針對(duì)幾個(gè)大的場(chǎng)景,包括監(jiān)控、交通、安防、人臉、個(gè)人圖片、醫(yī)療等,其中最重要的一部分實(shí)際上是城市大腦里面的視頻分析,這里面的突破,我覺得可以分為幾個(gè)方面:

***是大規(guī)模視頻分析,我們處理的城市數(shù)據(jù)量非常大,甚至遠(yuǎn)遠(yuǎn)超過電商的數(shù)據(jù),這里面涉及到我們要去實(shí)時(shí)處理分析大規(guī)模的視頻,所以要依靠阿里云高效力計(jì)算平臺(tái),構(gòu)建一套大規(guī)模視頻數(shù)據(jù)分析平臺(tái);

第二是把電商的圖像搜索技術(shù),延伸到城市場(chǎng)景里面來,叫做城市圖搜或者叫城市搜索,專業(yè)一點(diǎn)的語(yǔ)言甚至可以叫索引整個(gè)城市,城市視頻數(shù)據(jù)圖像數(shù)據(jù)那么多,當(dāng)然會(huì)有查找的問題,比如一輛車、一個(gè)人、一個(gè)物等,這跟電商有相似之處也有不同,從視覺角度來做的,這其實(shí)也是非常困難的事;

第三是我們可以對(duì)城市里面發(fā)生的,交通事故、違章停車、橫穿馬路等特殊交通事件進(jìn)行檢測(cè)和識(shí)別。

機(jī)器之心:視覺計(jì)算團(tuán)隊(duì)在研究方向上會(huì)有明確的側(cè)重點(diǎn)嗎?

華先勝:一方面,要確保在云計(jì)算上進(jìn)行大規(guī)模的視頻分析必須充分可行,必須不斷進(jìn)行算法的優(yōu)化。另一點(diǎn)就是繼續(xù)深入行業(yè),在各行各業(yè)去挖掘金礦,讓算法在里面能夠得到優(yōu)化,把一個(gè)個(gè)行業(yè)吃透,為客戶帶來真正的價(jià)值。當(dāng)然還有像深度學(xué)習(xí)本身算法的研究還是有很大的空間,這也是我們接下來要做的事情。

機(jī)器之心:城市大腦是您所在團(tuán)隊(duì)的一個(gè)重要項(xiàng)目,除了城市道路的管理、路況預(yù)測(cè)、交通調(diào)度的優(yōu)化,它還有其他方面的應(yīng)用方向嗎?

華先勝:目前城市大腦以交通方面的應(yīng)用為主,包括路況檢測(cè)識(shí)別和交通優(yōu)化等。城市大腦既然是「大腦」,當(dāng)然應(yīng)該有更多的功用,包括安防,城市規(guī)劃,環(huán)保,旅游等等。安全防護(hù)方面,如上所述,對(duì)人、機(jī)動(dòng)車、非機(jī)動(dòng)車等的實(shí)時(shí)索引,可以提升城市的安全防控能力;還有對(duì)一些異常事件,例如塌方、水淹、漏水、交通事故等等,能夠快速警報(bào),這個(gè)時(shí)候,能爭(zhēng)取 1 分鐘提前警報(bào)都會(huì)有很大的價(jià)值,例如,可能因此而挽救一個(gè)人的生命。當(dāng)然,很多技術(shù)還在研究迭代當(dāng)中。另一方面,除了城市攝像頭的數(shù)據(jù),還有衛(wèi)星數(shù)據(jù)、無人機(jī)數(shù)據(jù)等等,對(duì)城市的規(guī)劃、環(huán)保等等也能起到檢測(cè)作用??傮w來說,就像是整個(gè)城市的一個(gè)眼睛,其實(shí)不是一個(gè)眼睛,像是復(fù)眼一樣,而且不僅僅是看,還要理解識(shí)別,要看全、看清、看透,并作出相應(yīng)決策。

機(jī)器之心:高效準(zhǔn)確地對(duì)路況進(jìn)行仿真預(yù)測(cè)是破解交通問題的難點(diǎn),可否具體介紹一下這里應(yīng)用了怎樣的算法去進(jìn)行實(shí)時(shí)交通預(yù)測(cè)?

華先勝:我們首先要對(duì)整個(gè)城市及其交通狀況有一個(gè)全面、清晰、透徹的了解。要看全,因?yàn)槌鞘械臄z像頭非常多,看全就涉及到剛才講的大規(guī)模視頻處理,也包括以前在交通領(lǐng)域里還無法獲取的信息,比如行人的信息,過去的交通模型里面其實(shí)是沒有辦法使用的,因?yàn)闆]有辦法獲取信息,車輛的信息還可以通過其他手段得到一部分,比如說通過地面上的感應(yīng)線圈也可以得到,當(dāng)然這個(gè)是比較粗一點(diǎn),車的類型是沒辦法知道的。第二是通過 GPS 采樣信息,但是也不夠完整,視頻的信息是可以看得非常完整,看到整個(gè)車流和人流。

看得清晰,在技術(shù)上來講,是要看到到底有多少車經(jīng)過,車的類型是什么,車牌是什么,走到哪里去,左轉(zhuǎn)右轉(zhuǎn)還是直行,速度是多少等,也包括到底多少行人在占用人行橫道等,這些對(duì)交通的優(yōu)化都是非常重要的信息,也是過去無法獲取的。

從看得透徹的角度來講,實(shí)際上是挖掘大量數(shù)據(jù)之間的關(guān)系,從而發(fā)現(xiàn)這個(gè)規(guī)律,或者說發(fā)現(xiàn)他們之間的相互制約性,從而得出決策。舉個(gè)例子,比如說在交通的優(yōu)化當(dāng)中,我要優(yōu)化紅綠燈,我不能只看這一個(gè)路口的信息,要看很多的路口,因?yàn)槟闳绻堰@一個(gè)路口解決了,有可能反而造成別的路口更加擁堵。

有了這樣三個(gè)層次的了解之后,才是交通模型。作為我們?cè)朴?jì)算公司來說,是要在更大規(guī)模、更準(zhǔn)確的數(shù)據(jù)狀況下,尤其是視覺數(shù)據(jù),再加上交通專家的研究成果、交管部門實(shí)際經(jīng)驗(yàn),我們一起來解決交通的建模和優(yōu)化問題。

機(jī)器之心:在遇到交通事故或是擁堵問題時(shí),利用什么評(píng)價(jià)指標(biāo)體系來推演獲取***的解決策略?

華先勝:通常來說,我們看到車流情況以后,其實(shí)就可以對(duì)紅綠燈進(jìn)行優(yōu)化了。做離線的優(yōu)化,是根據(jù)每天的規(guī)律,或者每周長(zhǎng)時(shí)間的規(guī)律,對(duì)紅綠燈做一次性離線的優(yōu)化,以及配時(shí)方案,星期一早上幾點(diǎn)到幾點(diǎn)是什么樣子,中午、晚上是什么樣子,星期二是什么樣子,每天不一樣的方案。

對(duì)交通事故的應(yīng)對(duì)需要實(shí)時(shí)調(diào)控,這里也分兩類,一種是已經(jīng)堵起來,還沒有堵死的時(shí)候已經(jīng)看到這個(gè)趨勢(shì),可以對(duì)紅綠燈進(jìn)行管控,一個(gè)方向時(shí)間延長(zhǎng),另外一個(gè)方向減少時(shí)間等,這是對(duì)紅綠燈的調(diào)控。更聰明的一點(diǎn)做法,我們?nèi)绻^察到一些事故發(fā)生,就對(duì)它的規(guī)模、可能帶來的交通問題做一個(gè)大概的估計(jì),提前做出疏導(dǎo)預(yù)案,這是可以做到的。

機(jī)器之心:能否為我們?cè)敿?xì)介紹一下,城市大腦項(xiàng)目中的實(shí)時(shí)和離線這兩個(gè)視覺計(jì)算平臺(tái)中的關(guān)鍵技術(shù)點(diǎn)和數(shù)據(jù)規(guī)模?

華先勝:這是很好的問題。阿里云的計(jì)算平臺(tái),叫做飛天系統(tǒng),你可以把它看作是一個(gè)超級(jí)的計(jì)算機(jī)。飛天的離線計(jì)算和實(shí)時(shí)計(jì)算,這一套系統(tǒng)有 100 萬(wàn)個(gè) CPU 的核,這個(gè)是相當(dāng)大的數(shù)量了。有 60 萬(wàn)塊硬盤,有一個(gè) EB 的能力,這個(gè) EB 是 1024 個(gè) PB,一個(gè) PB 是 1024 個(gè) TB,一個(gè) TB 是 1024 個(gè) GB,這個(gè)量是非常得大的。視頻分析背后依靠的就是這樣一個(gè)大規(guī)模的這樣一個(gè)計(jì)算的能力,必須有這樣的能力在里面,才能夠完得成這些復(fù)雜的大量的計(jì)算。

對(duì)于視頻而言,當(dāng)然我們?cè)谶@里面也會(huì)有一點(diǎn)特殊的地方,因?yàn)橐曨l處理有它的特點(diǎn),比如說數(shù)據(jù)量大、吞吐量大、計(jì)算消耗也非常大。我們?cè)谶@個(gè)基礎(chǔ)上,跟計(jì)算平臺(tái)一起,讓計(jì)算平臺(tái)能夠處理這些視頻數(shù)據(jù)。用比喻來說,就是它能吃得進(jìn)去,消化得了,并把這個(gè)營(yíng)養(yǎng)吸收得了,最終產(chǎn)生結(jié)果。

但這里面的視頻處理有特殊性:視頻處理有時(shí)間上的相關(guān)性。比如說我們對(duì)某一當(dāng)前時(shí)刻圖像進(jìn)行處理的時(shí)候,是依賴于前面的若干時(shí)刻圖像的,所以在視頻里面要很方便地處理這種邏輯。再比如說像交通的場(chǎng)景下,甚至是我當(dāng)前的視頻需要跟別的好幾路視頻合在一起才能形成一個(gè)決策,比如說像紅綠燈的管控,我光看一個(gè)路口的一路肯定是不行的,甚至光看一個(gè)路口的四路也不行的,我要看好幾個(gè)路口一起來決策,這就是在物理的空間上也是有相關(guān)性,我經(jīng)常把這叫做「時(shí)空的相關(guān)性」。在這種情況下能夠順利完成計(jì)算,從而實(shí)時(shí)得出決策,這都是通過平臺(tái)才能達(dá)到的。對(duì)于算法專家來說,更多的精力是放在算法的研發(fā)上,提升算法準(zhǔn)確性和本身的計(jì)算效率。

機(jī)器之心:在離線和實(shí)時(shí)處理過程中,如果要達(dá)到理想的識(shí)別精度,比如道路車輛信息、路況信息等,需要多大規(guī)模的訓(xùn)練樣本庫(kù)?

華先勝:這個(gè)是 case by case 的,對(duì)于簡(jiǎn)單一些的問題,要識(shí)別的目標(biāo)特異性明顯,和其他目標(biāo)和背景的差異性大,就不需要太多的樣本。當(dāng)然,實(shí)際應(yīng)用環(huán)境中的情況往往比較復(fù)雜,識(shí)別模型往往需要到實(shí)際應(yīng)用中迭代優(yōu)化。離線和實(shí)時(shí)處理是模型訓(xùn)練好之后的生產(chǎn)環(huán)境,不是訓(xùn)練環(huán)境。當(dāng)然,模型的在線更新是和離線、實(shí)時(shí)處理系統(tǒng)在一起的。

機(jī)器之心:深度學(xué)習(xí)落地產(chǎn)業(yè)應(yīng)用是近年來的發(fā)展趨勢(shì),計(jì)算速度也是衡量算法能否落地的一個(gè)重要性能。我們注意到,這個(gè)項(xiàng)目中計(jì)算速度的提升效果是非常驚人,單核 CPU 對(duì)單幀圖片處理速度可以從 998ms 提升至 135ms,可否為我們介紹一下基于 Intel 的 MKL 加速以及在優(yōu)化深度學(xué)習(xí)模型方面做了哪些努力嗎?

華先勝:其實(shí)我們最初的模型在 CPU 上的處理需花費(fèi) 2600 毫秒,這個(gè)其實(shí)是相當(dāng)慢的。后來我們跟英特爾合作,利用英特爾的 CPU 上的優(yōu)化,在單核上壓縮到 900 多毫秒。后來我們?cè)偻ㄟ^算法本身的優(yōu)化,包括模型的結(jié)構(gòu)優(yōu)化,參數(shù)的優(yōu)化等等,就降低到 130 多毫秒,這又提升了很多倍,整個(gè)提升了十幾倍。這十幾倍的提升,聽起來可能沒什么感覺,但對(duì)于大量的計(jì)算資源來講是非常重要的。如果你只要一臺(tái)、兩臺(tái)機(jī)器做事情,還不是太大的問題,假如你要 1 萬(wàn)臺(tái)、2 萬(wàn)臺(tái)機(jī)器同時(shí)運(yùn)行,那就是一個(gè)很大的事情了。這個(gè)量的相差是非常非常多的。所以大規(guī)模計(jì)算的效率也是非常重要的方向。

機(jī)器之心:深度學(xué)習(xí)計(jì)算加速技術(shù)的實(shí)際應(yīng)用中,您認(rèn)為哪一種是更符合工業(yè)界需求:GPU (M4) 加速,CPU (Intel MKL) 加速 或者 FPGA 加速?

華先勝:各有千秋吧,當(dāng)然僅結(jié)合 CPU 的特性來優(yōu)化還是很有挑戰(zhàn)的。技術(shù)上,F(xiàn)PGA 當(dāng)然要復(fù)雜一些,但成本上應(yīng)該更優(yōu)一些。

機(jī)器之心:人臉技術(shù)作為計(jì)算機(jī)視覺中較為重要的課題,阿里云的人臉識(shí)別技術(shù)在服務(wù)端和手機(jī)端分別達(dá)到了 99.53%、98.93% 的準(zhǔn)確率,能否分享一下這背后的人臉識(shí)別技術(shù)及算法革新?

華先勝:識(shí)別技術(shù)上和其他公司并沒有關(guān)鍵的區(qū)別,但有一些其他方面的創(chuàng)新應(yīng)用可以講(例如 3D 試戴、試衣、試妝等),準(zhǔn)確率可以說和主流公司提供 comparable,方法上除了流行的方法外,借鑒了拍立淘中電商圖像特征學(xué)習(xí)的經(jīng)驗(yàn)。

機(jī)器之心:人臉識(shí)別和圖像識(shí)別技術(shù)的應(yīng)用范圍廣泛,比如安全金融、智能審核以及圖像編輯等,除了支撐阿里巴巴集團(tuán)內(nèi)部產(chǎn)品,是否也在推進(jìn)與其他平臺(tái)廠商的合作?

華先勝:阿里云的視覺計(jì)算技術(shù)以對(duì) B 端應(yīng)用為主,當(dāng)然也有to C 的。我們更多立足于用視覺智能解決各行各業(yè)的問題,過去不能解決或者必須人眼去看才能解決的問題,耗時(shí)耗力,變成簡(jiǎn)單高效。我們還著力打造生態(tài),讓第三方算法能夠跑在阿里云的視覺計(jì)算平臺(tái)上,為更多的客戶、用戶帶來實(shí)在的價(jià)值。

機(jī)器之心:現(xiàn)在的人臉識(shí)別系統(tǒng)仍然主要依賴有標(biāo)簽數(shù)據(jù)的訓(xùn)練,但在特定的任務(wù)中特定群體(如刑偵或治安監(jiān)控任務(wù)的小孩或青少年)的訓(xùn)練數(shù)據(jù)量不足導(dǎo)致了應(yīng)用效果較差,以及圖像質(zhì)量不穩(wěn)定或者目標(biāo)有意的偽裝都會(huì)影響識(shí)別。在未來的人臉識(shí)別中解決這些問題的方向是什么?

華先勝:在金融場(chǎng)景,可以考慮用眼紋的方法,例如螞蟻金服收購(gòu)的 EyeVerify 公司的眼紋技術(shù),進(jìn)一步增強(qiáng)準(zhǔn)確率。但確實(shí)很多監(jiān)控場(chǎng)景中人臉的分辨率都不太高,或者成像質(zhì)量不好。這種情況可以考慮用一下 context,例如人體特征、步態(tài)等。這種場(chǎng)景下,與金融場(chǎng)景中的人臉比對(duì)不同,對(duì)人或人臉的識(shí)別的要求是不一樣的,并不要求(也做不到)很高的準(zhǔn)確率,而是要很高的召回率,然后通過人工來進(jìn)一步確認(rèn)。

機(jī)器之心:無論是在工業(yè)診斷方面還是在醫(yī)療圖像領(lǐng)域,高精確度都是計(jì)算機(jī)視覺解決問題的前提條件,目前提升精確度的挑戰(zhàn)是什么?

華先勝:這種場(chǎng)景和典型的識(shí)別場(chǎng)景是不一樣的,因?yàn)檫@類場(chǎng)景的目標(biāo)通常是個(gè)小概率事件,正例的目標(biāo)很少,而且有時(shí)正例之間的差異性還很大,甚至無法窮舉。在這種情況下,高召回率是主要的目標(biāo),準(zhǔn)確率是要被犧牲的目標(biāo)。例如,10000 個(gè)樣本,如果目標(biāo)正樣本很少,只有 10 個(gè),如果算法測(cè)出來有 100 個(gè),只要那是個(gè)證樣本在這 100 個(gè)之內(nèi),召回率就是 100%;而這時(shí)的準(zhǔn)確率只有 10%。然而,這已經(jīng)是非常不錯(cuò)的結(jié)果了,因?yàn)槲覀冎恍枰斯ご_認(rèn)這 100 個(gè)樣本就好了,而不需要看那 10000 個(gè)樣本,人工省了 99%。所以這種應(yīng)用,關(guān)鍵是召回,然后一步一步降低虛警,也就是提高準(zhǔn)確率。

機(jī)器之心:針對(duì)仿真視頻圖像的生成,阿里云采用了什么樣的方法?

華先勝:這里有兩種生成。一種是三維場(chǎng)景中的物體植入,這種場(chǎng)景是要做三維重建,尋找嵌入位置,然后將三維目標(biāo)植入場(chǎng)景,隨場(chǎng)景一起運(yùn)動(dòng);另一種是平面圖形的生成,只要用于生成以假亂真的某個(gè)特定類型的圖像,方法是自主研發(fā)的基于 GAN(生成對(duì)抗網(wǎng)絡(luò))的方法,目前用于訓(xùn)練數(shù)據(jù)的大量自動(dòng)合成。

機(jī)器之心:簡(jiǎn)單談?wù)劙⒗镌频膱D像搜索技術(shù)有什么特點(diǎn)?

華先勝:阿里的圖像搜索技術(shù)有深厚的技術(shù)和實(shí)踐積累,在電商中經(jīng)過多年的精細(xì)打磨。目前我們正在將其應(yīng)用到城市圖搜的場(chǎng)景當(dāng)中。一般而言,圖像的索引(indexing)過程是圖像搜索的關(guān)鍵,其中又包括了識(shí)別、目標(biāo)檢測(cè)、特征提取和索引建立,索引建得好不好直接關(guān)乎搜索結(jié)果排序 (ranking) 的質(zhì)量(相關(guān)性)和搜索效率。識(shí)別、目標(biāo)檢測(cè)和特征又是索引質(zhì)量的關(guān)鍵,基本上每一步都是通過深度學(xué)習(xí)來達(dá)成的,一步有問題都不能得到滿意的結(jié)果。

機(jī)器之心:計(jì)算機(jī)視覺是深度學(xué)習(xí)中***個(gè)取得突破的領(lǐng)域,前面在靜態(tài)圖片上已經(jīng)獲得很大成功,在您看來,下一步的突破會(huì)在哪些方面?還要解決哪些關(guān)鍵性挑戰(zhàn)?

華先勝:確實(shí),深度學(xué)習(xí)是在視覺、語(yǔ)音,包括自動(dòng)翻譯這方面有很好的應(yīng)用,為什么在文本搜索上可能進(jìn)展并沒有那么明顯?當(dāng)然也有人覺得還沒有做到足夠深入,也有人講是因?yàn)閳D像和語(yǔ)音,尤其是圖像和語(yǔ)義之間的差距還很大,所以深度學(xué)習(xí)在里面能夠起到很關(guān)鍵的作用。從視覺的角度來講,我覺得還有很多問題去解決,深度學(xué)習(xí)本身算法的研究還是有很大的空間,這并不是所有的問題都做得很好了。模型這些年也不斷的在演化,訓(xùn)練的策略都在不斷的進(jìn)步。

還有一個(gè)就是人工智能的平臺(tái),我覺得也是值得思考的一個(gè)方向。就像過去電腦是單機(jī)的操作系統(tǒng),像 Windows,那么在 Windows 這個(gè)平臺(tái),產(chǎn)生了大量的程序。對(duì)于手機(jī)也一樣,在安卓、在蘋果的 iOS 上也產(chǎn)生大量的應(yīng)用,那么云計(jì)算也一樣,它也是在云計(jì)算的平臺(tái)上逐漸在形成大量的應(yīng)用。所以 AI 是不是也會(huì)這樣?是不是要有一個(gè)這樣的平臺(tái),使得大家去做 AI 應(yīng)用的開發(fā)和研究變得更加容易,就像過去寫一個(gè)程序一樣那么好做,我覺得這可能也是很關(guān)鍵的。

從應(yīng)用的角度來講,我覺得計(jì)算的效率可能也非常重要,尤其是大規(guī)模的視覺計(jì)算,如果需要大量的數(shù)據(jù),計(jì)算量非常大,必須是在資源消耗可控的情況下才能完成。如果發(fā)現(xiàn)完成這件事情都要破產(chǎn)的話,就沒有辦法繼續(xù)做下去了,這里面涉及到系統(tǒng)架構(gòu)的效率包括算法本身的效率等等之類的各種優(yōu)化,這個(gè)也是很重要的系統(tǒng)問題。

算法的紅利會(huì)逐漸消失

機(jī)器之心:您從業(yè)近二十年,經(jīng)歷了人工智能行業(yè)的技術(shù)變遷,在您看來,哪些因素造就了這一波行業(yè)熱度?

華先勝:我個(gè)人認(rèn)為,技術(shù)是其中最重要的原因,應(yīng)該說是一個(gè)根本的推動(dòng)力。這些年,技術(shù)發(fā)生了很大變化,首先機(jī)器學(xué)習(xí)的技術(shù),尤其是深度學(xué)習(xí)的技術(shù),在識(shí)別、搜索、生成的方面都比傳統(tǒng)方法表現(xiàn)更加優(yōu)秀。第二是計(jì)算能力,特別是云計(jì)算使得計(jì)算的能力遠(yuǎn)遠(yuǎn)的超過以前,而且我們獲得大量計(jì)算的能力,也變得非常便利,當(dāng)然,移動(dòng)設(shè)備的發(fā)展也是一個(gè)重要因素。我記得在上個(gè)世紀(jì)圖像搜索這個(gè)事情剛剛開始研究的時(shí)候,那時(shí)候也很火熱,那個(gè)時(shí)候叫 CBIR,也成就了很多的博士論文。但是當(dāng)時(shí)經(jīng)常有人提問,你***張圖片到底哪里來呢?到今天今天這根本不再是個(gè)問題,因?yàn)槲覀儷@取數(shù)據(jù)變得非常容易。還有網(wǎng)絡(luò)帶寬的發(fā)展,使得我們?cè)谠O(shè)備端,在互聯(lián)網(wǎng)上大量的數(shù)據(jù)得以傳播,尤其是視覺的圖像識(shí)別數(shù)據(jù)得以傳播,這些因素都是促成人工智能火熱火爆的場(chǎng)面。

機(jī)器之心:在您看來,一個(gè)成功的商業(yè)應(yīng)用應(yīng)該具備哪些條件?

華先勝:我認(rèn)為應(yīng)該具備五個(gè)條件:

***個(gè)是算法。你要有好的算法,你的算法要有先進(jìn)性,你的算法不行一切都沒有了基礎(chǔ)。(當(dāng)然你也可以把算法這一個(gè)條件看做是科學(xué)家,因?yàn)槿瞬藕退惴ㄊ蔷o密相連的)。

第二個(gè)是要有數(shù)據(jù)。數(shù)據(jù)本身就是一個(gè)很大的話題,里面有數(shù)據(jù)的采集、搜集、清洗、有效的標(biāo)注,甚至包括算法里面數(shù)據(jù)怎么使用。

第三個(gè)是用戶。你做的這個(gè)東西應(yīng)該有用戶的,因?yàn)橛泻芏鄦栴}是需要用戶參與才可以做得越來越好。當(dāng)然你從商業(yè)的角度來講,沒有用戶的話也不能夠長(zhǎng)久。用戶本身是數(shù)據(jù)的消費(fèi)者,也是數(shù)據(jù)的提供者,這過去在搜索引擎里面有非常重要的體現(xiàn),可以說搜索引擎的技術(shù)能夠做那么好,每個(gè)人都有 contribution 的。

第四個(gè)就是平臺(tái)。這個(gè)就是涉及到你要有強(qiáng)大的計(jì)算能力和一套體系架構(gòu),能夠方便地去研發(fā)、部署和生產(chǎn),這一套是必須要有的。當(dāng)然現(xiàn)在因?yàn)橛性朴?jì)算,所以這部分的瓶頸,對(duì)于很多企業(yè)來講已經(jīng)沒有過去那么困難了。

第五個(gè)就是有好的商業(yè)模式。如果沒有好的商業(yè)模式,就不可能長(zhǎng)久。你做一個(gè)事情,低頻的事情沒有多少人用,或者不能給少量用戶帶來大的價(jià)值,***產(chǎn)生的總體價(jià)值不夠的話,其實(shí)是很難長(zhǎng)久的。這幾點(diǎn),我個(gè)人覺得其實(shí)是都應(yīng)該具備的。當(dāng)然了,可能不同的商業(yè)應(yīng)用,應(yīng)該來說可能有不同的側(cè)重,但是我覺得都應(yīng)該具備。

機(jī)器之心:很多大公司押注人工智能,越來越多創(chuàng)業(yè)公司也在涌入,公司之間的差距會(huì)體現(xiàn)在哪些方面,算法是公司競(jìng)爭(zhēng)的核心要素嗎?

華先勝:這是一個(gè)很好的問題,也有很多的爭(zhēng)論,我說說我自己的觀點(diǎn),我們有很多公司確實(shí)是以算法起家的,但是我覺得算法之間的差異,可能會(huì)逐漸越來越小。尤其是現(xiàn)在基于深度學(xué)習(xí)的方法,以及包括很多開源的出現(xiàn),對(duì)于內(nèi)行人而言,或者叫高手之間,他們之間算法性能的差異其實(shí)不會(huì)太大。比如說人臉識(shí)別,在 AFW 上面,大家測(cè)試的差距都在小數(shù)點(diǎn)后面一位兩位的,沒有太大的差距。像 ImageNet 也一樣,差不多都是 99.6%、99.7% 這樣子,都是不難達(dá)到的。那這些對(duì)于內(nèi)行人而言沒有太大的差距,但是在真實(shí)場(chǎng)景下應(yīng)用的時(shí)候還會(huì)有差距,隨著時(shí)間的推移,大家都在實(shí)戰(zhàn)當(dāng)中磨煉的話,都不會(huì)差距太大。甚至包括數(shù)據(jù)的優(yōu)勢(shì),也會(huì)減少,很多的公司,不管是大公司還是創(chuàng)業(yè)公司,做得稍微早一點(diǎn),積累了大量的數(shù)據(jù),不管是標(biāo)注的信息還是算法在練習(xí)當(dāng)中搜集的反饋,隨著時(shí)間的推移算法、數(shù)據(jù)的紅利也都會(huì)逐漸減少。當(dāng)然,這里是對(duì)一個(gè)具體的圖像識(shí)別或搜索或生成算法而言的。在很多行業(yè),數(shù)據(jù)的獲取有barrier, 這時(shí)數(shù)據(jù)本身就是價(jià)值。如果不具備或者沒有足夠量的相關(guān)數(shù)據(jù),基于數(shù)據(jù)上的智能和應(yīng)用就無法完成,這時(shí)數(shù)據(jù)本身就成為了核心競(jìng)爭(zhēng)力。如果相關(guān)數(shù)據(jù)是容易獲取的,就不能成為核心競(jìng)爭(zhēng)力了。

還有什么是具有競(jìng)爭(zhēng)力的東西呢?我覺得可能還是要看平臺(tái)和商業(yè)應(yīng)用。從商業(yè)模式上來使得自己的競(jìng)爭(zhēng)力具有長(zhǎng)久性,尤其是在細(xì)分的這個(gè)行業(yè),你做到非常精深。因?yàn)檫@部分并不是那么顯而易見的,并不是說隨便搞搞,我們就都是 90% 幾之類的,這個(gè)需要你精耕細(xì)作的,需要你深入這個(gè)行業(yè),結(jié)合真實(shí)場(chǎng)景數(shù)據(jù)的一些特點(diǎn),才能夠逐漸把這個(gè)行業(yè)吃透、打穿,才能夠有一席之地、成為高手。那么這個(gè)的話,其實(shí)是可以有差異化的。因?yàn)檫@個(gè)行業(yè)非常的多,其實(shí)大家不見得一定要擠在一個(gè)獨(dú)木橋上,一定要去刷通用的圖像識(shí)別這些東西,或者是非?;馃岬囊恍╊I(lǐng)域,其實(shí)有很多路可以走的。

機(jī)器之心:現(xiàn)在有不少人工智能威脅論,但反過來看,人們對(duì)人工智能整體的發(fā)展和展現(xiàn)出來的技術(shù)能力,是不是也過于樂觀了?

華先勝:我們確實(shí)也要冷靜看待一些問題,有幾個(gè)角度來看到。比如說現(xiàn)在的識(shí)別就已經(jīng)做到真的那么好了呢?大家可能有一些體會(huì),這個(gè)準(zhǔn)確率的數(shù)字好像很高,但是在真實(shí)場(chǎng)景下,有時(shí)候也不那么好。我舉個(gè)例子,像大家比較公認(rèn)的 ImageNet 比賽,有數(shù)百萬(wàn)張圖片,進(jìn)行 1000 類的分類,我們通常說現(xiàn)在***的準(zhǔn)確率已經(jīng)做到超過 96% ,錯(cuò)誤在3% 左右。那這個(gè)其實(shí)這里面有很多可以去探討的。

***點(diǎn),超過 96% ,是指前五的正確率。也就是說一個(gè)圖像識(shí)別出來 5 個(gè)結(jié)果,其中有一個(gè)對(duì)的就算對(duì)。如果規(guī)定***個(gè)必須對(duì)才算達(dá)到正確,那可能正確率只有 80% 左右。

第二點(diǎn),是我們這個(gè)世界是很復(fù)雜的,遠(yuǎn)遠(yuǎn)超過這 1000 類,有很多現(xiàn)實(shí)世界當(dāng)中太多太多不一樣的東西都需要去識(shí)別。這實(shí)際上是一個(gè)覆蓋率的問題,剛才講到在標(biāo)準(zhǔn)的測(cè)試級(jí)上可以到很高,這是一個(gè)準(zhǔn)確率的問題,準(zhǔn)確率當(dāng)然也是非常關(guān)鍵的,也是推動(dòng)這個(gè)領(lǐng)域發(fā)展重要的一個(gè)指標(biāo),然而真正在現(xiàn)實(shí)當(dāng)中的覆蓋也是非常重要的。覆蓋直接關(guān)系到人的體驗(yàn),尤其是在識(shí)別和搜索這里面。比如說我那一年在做拍立淘的時(shí)候也是花很大的心思去解決覆蓋的問題,覆蓋的意思是就是說你搜什么都能給點(diǎn)相關(guān)結(jié)果出來。那準(zhǔn)確率是說,我搜出來的東西要跟我想象的東西是相關(guān)的。這兩個(gè)都是非常重要的?,F(xiàn)在的識(shí)別的技術(shù)在覆蓋上其實(shí)是有欠缺的,當(dāng)然了覆蓋的話,也不是說不能解決的。我記得我在前些年也做過一套系統(tǒng),當(dāng)時(shí)是利用了互聯(lián)網(wǎng)的數(shù)據(jù),使得覆蓋能夠得到更大的提升,用了互聯(lián)網(wǎng)的數(shù)據(jù)自動(dòng)取挖掘訓(xùn)練數(shù)據(jù),使得它可以識(shí)別任意的東西,當(dāng)然這個(gè)任意的東西還是有條件的,互聯(lián)網(wǎng)上可以找得到數(shù)據(jù),可以找到足夠足量的數(shù)據(jù)然后可以自動(dòng)清洗自動(dòng)建立模型。

第三點(diǎn),有沒有好的商業(yè)應(yīng)用,有沒有真正深入行業(yè)產(chǎn)生價(jià)值,也是非常關(guān)鍵的。這一部分做不到,就不能長(zhǎng)久。我覺得還是應(yīng)該認(rèn)真地考慮一下,創(chuàng)業(yè)也好,創(chuàng)新也好,基礎(chǔ)是不是穩(wěn)固的?比如說剛才我講到的我的觀點(diǎn)的五個(gè)要素是不是都具備了,缺什么,需不需要補(bǔ),或者我們的優(yōu)勢(shì)在哪里?如果我們的優(yōu)勢(shì)只在算法上,那么可能還有一點(diǎn)危險(xiǎn),如果我們還有成功的商業(yè)模式,有源源不斷的商業(yè)應(yīng)用商業(yè)價(jià)值的產(chǎn)生,那可能就會(huì)比較安全一點(diǎn)。

機(jī)器之心: AI 模型的通用性怎么樣?然后為了可用性高,是否最終都需要定制方案,那么開放平臺(tái)上的 API 還有多大意義?

華先勝:這個(gè)問題問得比較有深度,前面其實(shí)我們也講過了這也是為什么我講要深入行業(yè),但是深入行業(yè)的話,可能有人會(huì)講了,那你有多少人,你做得過來嗎?那這里面的第二個(gè)問題就是剛才講的生態(tài),這個(gè)不是一家人能夠做得出來的,需要很多人去做,就像操作系統(tǒng)上那么多應(yīng)用程序,包括手機(jī)操作系統(tǒng)上那么多好玩的 APP,各種功能的 APP 那不是蘋果一家能做得出來的,所以我們要做成這樣的一個(gè)生態(tài)。就像你搭了一個(gè)舞臺(tái)一樣,不是光自己在那里演,有很多人都可以上來演,有很多有創(chuàng)意的人都可以上來演,這個(gè)就解決了深入各行各業(yè)解決實(shí)際應(yīng)用的,在這里面能夠做得更好,在一個(gè)行業(yè)里面在一個(gè)應(yīng)用領(lǐng)域里面怎么做得更好,這樣才能夠真正發(fā)展起來?,F(xiàn)實(shí)世界就是這么殘酷的,很少有一個(gè)模型可以打天下的情況,幾乎都是不可能存在的。

【本文是51CTO專欄機(jī)構(gòu)機(jī)器之心的原創(chuàng)文章,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2014-05-21 16:04:38

面試面試規(guī)則

2012-09-26 13:44:52

Android谷歌阿里云

2016-01-15 10:47:08

技術(shù)團(tuán)隊(duì)能力

2011-08-23 17:02:37

FedoraLinux 20周年

2012-12-13 11:12:24

戴爾

2013-04-17 10:56:10

ONFOpenDayligh標(biāo)準(zhǔn)協(xié)議

2018-10-08 12:08:43

阿里計(jì)算平臺(tái)

2010-05-13 14:18:48

云計(jì)算百度

2022-08-23 17:25:49

人工智能AR

2015-06-17 15:54:42

2014-06-27 14:49:41

SDN

2017-03-13 15:30:22

慕尼黑WindowsLiMux

2023-09-11 11:14:54

IT團(tuán)隊(duì)CIO

2009-09-15 10:45:52

Linux驅(qū)動(dòng)Linux微軟

2011-08-23 18:07:42

QomoLinux 20周年

2015-11-16 10:16:56

技術(shù)蛻變創(chuàng)業(yè)

2009-07-16 08:19:46

魔獸網(wǎng)易

2019-12-16 10:16:36

項(xiàng)目監(jiān)獄代碼

2019-04-01 13:20:34

技術(shù)負(fù)責(zé)人CEO

2022-03-28 10:44:26

FuchsiaOSGoogle操作系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)