自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里云周衛(wèi)天:數(shù)據(jù)智能與阿里巴巴和我們

原創(chuàng)
移動(dòng)開發(fā)
2016年11月25日,由51CTO.com主辦的WOT2016大數(shù)據(jù)技術(shù)峰會(huì)在北京粵財(cái)JW萬豪酒店召開,50多位來自阿里、騰訊、百度、京東、小米等知名企業(yè)的大數(shù)據(jù)領(lǐng)域資深技術(shù)專家齊聚大會(huì)現(xiàn)場(chǎng),將在兩天的時(shí)間里與逾千名一線IT技術(shù)人員直面交流,分享經(jīng)驗(yàn)。

【51CTO.com原創(chuàng)稿件】2016年11月25日,由51CTO.com主辦的WOT2016大數(shù)據(jù)技術(shù)峰會(huì)在北京粵財(cái)JW萬豪酒店召開,50多位來自阿里、騰訊、百度、京東、小米等知名企業(yè)的大數(shù)據(jù)領(lǐng)域資深技術(shù)專家齊聚大會(huì)現(xiàn)場(chǎng),將在兩天的時(shí)間里與逾千名一線IT技術(shù)人員直面交流,分享經(jīng)驗(yàn)。

[[177141]]

在WOT2016大數(shù)據(jù)技術(shù)峰會(huì)的主會(huì)場(chǎng),阿里云數(shù)據(jù)架構(gòu)部總架構(gòu)師周衛(wèi)天做了主題為《數(shù)據(jù)智能與阿里巴巴和我們》的演講。以下是他的演講實(shí)錄: 

2009年到2010年的時(shí)候,馬云就開始講阿里巴巴是一家數(shù)據(jù)公司,同時(shí)2009年、2010年的時(shí)候,如果大家去留意一些阿里出版物,馬總反復(fù)強(qiáng)調(diào)阿里要做云計(jì)算。今天的云市場(chǎng)其實(shí)已經(jīng)是阿里云占了一定的比例,成為國內(nèi)云計(jì)算不容置疑的老大. 同時(shí)也有很多國內(nèi)其他的廠商,騰訊、百度也都在做云。大數(shù)據(jù)也是,09年馬總講阿里數(shù)據(jù)公司的時(shí)候, 大洋彼岸2011年Hortonworks才剛剛成立,2009年Cloudera也才有Doug Cutting的加盟。但是回到6、7年前,這就是外星人馬總的遠(yuǎn)見,也就是造就了今天阿里云在國內(nèi)的一個(gè)領(lǐng)導(dǎo)地位。 

再看一下數(shù)據(jù)創(chuàng)業(yè),阿里的微貸沒有零員工的介入,一秒鐘獲貸,單筆交易的成本是兩元。在這背后就是阿里云大數(shù)據(jù)的處理和關(guān)聯(lián)分析的強(qiáng)大能力。剛剛過去的雙十一,大家在網(wǎng)上也都看到了雙十一的數(shù)據(jù),支付寶的一天總交易10.5萬筆, 那是每個(gè)中國人在雙11人均刷了0.8筆。峰值時(shí)候每秒交易12萬筆。還有一個(gè)非常有意思的數(shù)據(jù),是在第一個(gè)小時(shí),今年的支付寶交易的總筆數(shù)超過了2013年的全天交易量1.88億筆。每秒12萬筆是什么概念呢?2013年14年阿里的主要競(jìng)爭(zhēng)對(duì)手美妙處理月1200-1500筆/秒; 今天也不過是2-3萬筆每秒, 阿里支付平臺(tái)的強(qiáng)大處理能力和客戶的喜愛和選擇數(shù)據(jù)已經(jīng)說明了一切。 

在2009年的時(shí)候我也幫忙做淘寶的數(shù)據(jù)性能優(yōu)化,但是阿里后面的數(shù)據(jù)庫種類也不一樣有Oracle,有GP,還有開源Hadoop,管理成本、運(yùn)營成本、技術(shù)路線,不同技術(shù)路線之間內(nèi)部大家技術(shù)人員之間的協(xié)調(diào),度非?;瘯r(shí)間,大家都是做技術(shù)的,很驕傲。 

第二個(gè),也是各種各樣的應(yīng)用都沒有打通,本身這些庫在不同的集群當(dāng)中,甚至就是應(yīng)用數(shù)用之間也沒有共享。到最后說數(shù)據(jù)的重復(fù)建設(shè),怎么將同一個(gè)數(shù)據(jù)源拖到其他業(yè)務(wù)部門去用,后面我們會(huì)用一個(gè)案例來看看阿里怎么解決這個(gè)事情。 

到2010、2011年的時(shí)候,我們阿里考慮我們要到幾十PB,或者幾百PB的時(shí)候,怎么解決計(jì)算能力的問題?能不能解決? 今天來講,這后面的幾百萬張數(shù)據(jù)庫表怎么來維護(hù)?我們知道傳統(tǒng)數(shù)據(jù)倉庫,我們?nèi)ヒ粋€(gè)企業(yè),一般是幾萬張,再大一點(diǎn)的,甚至銀行,大一點(diǎn)的行,十幾、二十幾萬張的表。但是幾百萬張表的數(shù)倉怎么去維護(hù)?這么大的數(shù)據(jù)量一旦集中到一個(gè)平臺(tái)上, 數(shù)據(jù)安全怎么來保證?如果一旦有人把這個(gè)數(shù)據(jù)拿出去之后,怎么去解決? 

阿里的數(shù)據(jù)智能平臺(tái),就是大數(shù)據(jù)的核心引擎,無非在阿里來說,跟所有大數(shù)據(jù)一樣,有離線分析,有準(zhǔn)時(shí)分析,有實(shí)時(shí)流分析,還有存儲(chǔ)。左下方有一些開發(fā)的套件和工具,我們?cè)趺礃觼韰f(xié)調(diào)不同的部門,尤其當(dāng)你開發(fā)人員有幾千個(gè),甚至上萬個(gè)開發(fā)人員的時(shí)候怎么協(xié)調(diào)?有一個(gè)統(tǒng)一的IDE開發(fā)環(huán)境。 

從我來看,以前一直做大數(shù)據(jù)和今天阿里這個(gè)數(shù)據(jù)智能平臺(tái)不一樣的地方,下面我就講這三點(diǎn)。 第一塊是阿里數(shù)據(jù)治理這一套方法理論體系和從大項(xiàng)目和百萬張表里走出來的實(shí)踐經(jīng)驗(yàn)。為什么要講體系治理?這個(gè)治非常好,三點(diǎn)水,就像水一樣無所不在。 這涉及到阿里在數(shù)據(jù)治理方面對(duì)它的標(biāo)簽體系、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全,數(shù)據(jù)計(jì)量以及數(shù)據(jù)資產(chǎn)管理這五個(gè)方面, 阿里是怎么來做到今天的整個(gè)這么多的業(yè)務(wù)在統(tǒng)一的一個(gè)數(shù)據(jù)體系內(nèi), 有一份數(shù)據(jù)質(zhì)量高的數(shù)據(jù)問題。 

今天的幾百萬張表,傳統(tǒng)的數(shù)倉眾所周知,一般都是有一個(gè)業(yè)務(wù)的需求,然后會(huì)有7到8個(gè)業(yè)務(wù)域, 財(cái)務(wù)、營銷銷售、人力資源、事件、供應(yīng)鏈等等,然后我們?cè)偃ジ鶕?jù)這來設(shè)計(jì)我們的數(shù)據(jù)結(jié)構(gòu),還有會(huì)把表與表之間的關(guān)系,等等所有的這些去做好Shema和業(yè)務(wù)涉及。就是我們講的傳統(tǒng)數(shù)倉是根據(jù)業(yè)務(wù)來進(jìn)行統(tǒng)計(jì)分析挖掘,相對(duì)比較靜態(tài)。 

互聯(lián)網(wǎng)因?yàn)榘l(fā)展變化太快,第一是說業(yè)務(wù)的驅(qū)動(dòng),野蠻的增長,快速的生長,快速的迭代,不可能這么做。尤其到了百萬級(jí)這個(gè)數(shù)據(jù)表體量的時(shí)候,對(duì)阿里來說就是業(yè)務(wù)需求來快速建一張表,建完表以后,關(guān)鍵的注釋需要,重要字段標(biāo)示標(biāo)注。在阿里每天在一天結(jié)束了,大概有幾十臺(tái)機(jī)器就會(huì)做一個(gè)批處理的分析,把這個(gè)表格的一些設(shè)計(jì),主要字段和現(xiàn)有大的倉庫去比較,相當(dāng)于阿里是對(duì)這幾百萬張表也有一個(gè)數(shù)據(jù)倉庫和數(shù)據(jù)引擎來進(jìn)行管理, 來看看今天新增的怎么去分析?這是一個(gè)元數(shù)據(jù)管理采用大數(shù)據(jù)后臺(tái)統(tǒng)計(jì)分析。 

第二,阿里今天來講,對(duì)元數(shù)據(jù)里面主要的表, 主要的字段都是有一個(gè)標(biāo)識(shí)體系,就是把數(shù)據(jù)根據(jù)業(yè)務(wù)的重要度和技術(shù)的統(tǒng)計(jì),來標(biāo)4321,4是最最核心最最重要的業(yè)務(wù)驅(qū)動(dòng),這個(gè)會(huì)涉及到后面數(shù)據(jù)質(zhì)量的管理。今天來說,阿里數(shù)據(jù)質(zhì)量管理是把數(shù)據(jù)生產(chǎn)的流程完全融合了數(shù)據(jù)質(zhì)量監(jiān)控的實(shí)時(shí)流程。 

這是一個(gè)什么概念呢?就是我這個(gè)數(shù)據(jù)一旦一個(gè)流程生產(chǎn)出來, 系統(tǒng)后臺(tái)我用數(shù)據(jù)來進(jìn)行分析,比如講一個(gè)同學(xué)交的稅,交了三年,前面每年交五千到八千之間,我今年生產(chǎn)出來一個(gè)數(shù)據(jù),如果一下子一萬五了,我們可能就會(huì)有個(gè)預(yù)警,說這個(gè)數(shù)據(jù)分析以后,這個(gè)數(shù)據(jù)質(zhì)量是不是有問題?啟動(dòng)一個(gè)流程進(jìn)行驗(yàn)證,跟蹤和比對(duì)。 

根據(jù)前面的標(biāo),就會(huì)對(duì)這個(gè)來進(jìn)行追蹤。我們內(nèi)部的體系一般叫黃線和紅線,數(shù)據(jù)質(zhì)量如果是黃線的話,就要持續(xù)的追蹤和分析, 直到提升。如果是紅線,我們講一個(gè)數(shù)據(jù)生產(chǎn)可能都會(huì)有幾個(gè)主要的檢驗(yàn)點(diǎn),假如有123對(duì)前面講的標(biāo)識(shí)是4級(jí)的數(shù)據(jù),最最關(guān)鍵的數(shù)據(jù),那就會(huì)要涉及一些自動(dòng)和半自動(dòng)的流程來進(jìn)行實(shí)時(shí)監(jiān)控。一旦觸及紅線,數(shù)據(jù)的生產(chǎn)執(zhí)行會(huì)被強(qiáng)迫停止,這就是數(shù)據(jù)質(zhì)量的一個(gè)保證技術(shù)手段, 很有效。 

前面還提到,數(shù)據(jù)的計(jì)量,今天來說,我們?yōu)榱撕唵位?,假如后面我們有一百張表,在阿里來說,第一張表到第十張對(duì)應(yīng)到一個(gè)責(zé)任人,第11到第20張表對(duì)應(yīng)到第二個(gè)責(zé)任人,對(duì)每張表數(shù)據(jù)的質(zhì)量都會(huì)考核這些責(zé)任人。 曾經(jīng)在2012年,我跟一位老同學(xué)聊的時(shí)候,也涉及到這樣的問題,如果因?yàn)楹笈_(tái)的數(shù)據(jù)觸發(fā)了前面的某些報(bào)表統(tǒng)計(jì)不準(zhǔn)確的時(shí)候, 這些表的責(zé)任人就會(huì)受一定的制度的考核,甚至是懲罰,這是技術(shù)工具和安全體系結(jié)合的典范。 

今天在阿里開發(fā)的主管每周都會(huì)收到一份成本單,這個(gè)成本單就是說我開發(fā)的所有后面基于大數(shù)據(jù)都是我們的一個(gè)工作,都會(huì)有計(jì)算,你寫了SQL腳本或者M(jìn)R工作,都折算成人均成本。按照人均成本這個(gè)禮拜, 你這個(gè)組項(xiàng)目成本都會(huì)被統(tǒng)計(jì)出來。所以阿里本身大數(shù)據(jù)治理方面是,大家可以看到,所以當(dāng)有人問到大數(shù)據(jù)管理還是治理?我說再阿里一定是治理。很多的工具, 尤其從元數(shù)據(jù)這個(gè)層面,數(shù)據(jù)引擎搜索和自動(dòng)統(tǒng)計(jì)分析,用數(shù)據(jù)來管理數(shù)據(jù)這就是阿里大數(shù)據(jù)的玄妙所在。 

第二個(gè),在這個(gè)平臺(tái)之上,今天阿里在人工智能方面的一些領(lǐng)先工作, 視覺智能、語音智能,后面會(huì)有詳細(xì)的例子講,再到數(shù)據(jù)智能 相關(guān)的一個(gè)要點(diǎn)就是數(shù)據(jù)的關(guān)聯(lián)打通。我們?cè)贕20做的一些工作,就是我們把虛擬網(wǎng)絡(luò)的,如網(wǎng)上的微博ID,微信Open_ID, 包括各種虛擬網(wǎng)絡(luò)上帳號(hào)的ID怎么跟我實(shí)際的手機(jī)號(hào)碼,身份證號(hào)碼打通?因?yàn)閿?shù)據(jù)的關(guān)聯(lián)碰撞才能激發(fā)出火花,激發(fā)出創(chuàng)新和創(chuàng)造的火花。 

最后還有一塊更有意思的就是說天池眾智平臺(tái), 是我們這個(gè)數(shù)據(jù)智能體系上的一個(gè)夜明珠。我們?cè)谶@平臺(tái)之上,我們背后有四萬多科學(xué)家,但是我們拿到的問題, 其實(shí)阿里內(nèi)部本身有很多的科學(xué)家,是對(duì)這個(gè)問題本身的重新定義和梳理、挖掘,分析總結(jié)項(xiàng)目目標(biāo)和特征; 這個(gè)也非常非常重要。 

包括最近我們做了一些大交通的事,通過視頻,通過高德地圖實(shí)時(shí)的數(shù)據(jù),把它結(jié)合起來,怎么樣在南方的某個(gè)城市,使交通擁堵率減少了20%幾; 這是互聯(lián)網(wǎng)+信號(hào)燈的創(chuàng)新,已經(jīng)申請(qǐng)國家專利。 

今天來講阿里數(shù)據(jù)智能的體系主要在這三塊,數(shù)據(jù)治理、數(shù)據(jù)實(shí)踐這是第一塊。第二個(gè),大家后面會(huì)看到一些例子,視覺智能、語音智能和數(shù)據(jù)智能這一塊。第三個(gè)就是基于眾智平臺(tái)對(duì)現(xiàn)在交通,大公安做的一些貢獻(xiàn)。 

數(shù)據(jù)地圖簡單講一下,這跟數(shù)據(jù)資產(chǎn)管理有關(guān)。第一個(gè)我們要把所有的數(shù)據(jù)進(jìn)行規(guī)范,數(shù)據(jù)質(zhì)量的規(guī)范,第二個(gè)更主要的是說,讓阿里內(nèi)部的技術(shù)人員和業(yè)務(wù)人員,對(duì)數(shù)據(jù)資產(chǎn)的使用要特別方便,可查詢,可追溯。而且要易查詢,我們不是說經(jīng)常用命令行才去找到數(shù)據(jù)資產(chǎn),這一塊非常重要。說一下數(shù)據(jù)地圖,大家做技術(shù)的同學(xué)都會(huì)碰到數(shù)據(jù)血緣這個(gè)關(guān)系,今天阿里內(nèi)部對(duì)數(shù)據(jù)血緣的溯源,因?yàn)閷?duì)源頭和數(shù)據(jù)末端,最終這個(gè)數(shù)據(jù)處理的這個(gè)數(shù)據(jù)質(zhì)量和數(shù)據(jù)標(biāo)簽,阿里也做了非常非常多的工作。SQL側(cè)面已經(jīng)往前血緣追溯到前面的7/8層,非常強(qiáng)大。 

還有一個(gè)數(shù)據(jù)治理有一個(gè)數(shù)據(jù)加速器,其實(shí)是說,基于阿里的數(shù)據(jù)智能平臺(tái),怎么樣我用一套體系,用一個(gè)全新的模型來快速實(shí)現(xiàn)業(yè)務(wù)??傮w來講,基于這個(gè)大數(shù)據(jù)我們做了一個(gè)標(biāo)簽體系,在某些行業(yè),比如說在公安,就是根據(jù)這個(gè)標(biāo)簽體系,可以大家理解為一個(gè)戰(zhàn)法庫。根據(jù)不同的品種,我們?nèi)プ鲆粋€(gè)戰(zhàn)法庫,針對(duì)技偵、針對(duì)情報(bào)、針對(duì)網(wǎng)安,這標(biāo)簽體系的靈活和快速使用,和它的歸納總結(jié)都不一樣。也類似于我們傳統(tǒng)基于數(shù)據(jù)之上的服務(wù)和中間件層的一個(gè)抽象。 

數(shù)據(jù)安全。數(shù)據(jù)安全今天來講,阿里來講,其實(shí)我們自己現(xiàn)在講的是5A2P,所謂5A比較簡單,我們今天對(duì)數(shù)據(jù)安全,如果能做到5A是一個(gè)非常好的事,就是認(rèn)證鑒權(quán)Authentication和Authorization,后面是Access數(shù)據(jù)控制。用戶鑒權(quán)到了服務(wù)器層, 最后在阿里來說到伏羲盤古,到底層把你基于所有內(nèi)容的讀、寫,主要字段的讀、寫,都會(huì)分工得很清楚。 第4個(gè)Audit是審計(jì),可追溯,可追蹤。第5個(gè)A, Assurance就是數(shù)據(jù)的漂白,數(shù)據(jù)的加密這些都是。這個(gè)今天在阿里來講數(shù)據(jù)安全首先做到5A。 

兩個(gè)P,第一個(gè)P是Predict, 就是說我們今天對(duì)阿里云的平臺(tái)和阿里大數(shù)據(jù)已經(jīng)從兩三年前開始用數(shù)據(jù)來預(yù)測(cè)和分析對(duì)我網(wǎng)站的主要攻擊。我們講現(xiàn)在對(duì)安全問題的一個(gè)態(tài)勢(shì)感知,怎么來預(yù)防、預(yù)測(cè),這是一塊很重要的事情。同時(shí)還有一個(gè)P, Policy,就是我們經(jīng)常會(huì)碰到的,安全的這個(gè)策略、政策。這在阿里有四個(gè)字,”最小夠用“原則。在我們內(nèi)部的同學(xué)和在做項(xiàng)目的過程當(dāng)中,就是最小夠用原則。加上一個(gè)時(shí)間戳,我們申請(qǐng)數(shù)據(jù)權(quán)限的時(shí)候,比如我今天要出來跟伙伴一起分析一些我們的數(shù)據(jù),我們申請(qǐng)權(quán)限的時(shí)候都要有一個(gè)時(shí)間的限制。比如我這個(gè)是一個(gè)月,專門有數(shù)據(jù)生成的安全部門會(huì)來對(duì)這個(gè)進(jìn)行審查。這個(gè)規(guī)則甚至是說我這個(gè)數(shù)據(jù)的出口需要有限制,我從哪一個(gè)IP地址才能出去你申請(qǐng)的時(shí)候會(huì)有限制,對(duì)出口的統(tǒng)一管控。所以簡單來講,阿里今天對(duì)于大數(shù)據(jù)和云平臺(tái)的安全其實(shí)就是這個(gè)5個(gè)A和兩個(gè)P,這當(dāng)中的內(nèi)容涉及得非常多。 

阿里登月工程的第一個(gè)體會(huì)是說,新系統(tǒng)和老系統(tǒng)對(duì)接的時(shí)候,大家有沒有決心花至少三分之一以上的時(shí)間來做這個(gè)數(shù)據(jù)質(zhì)量工作,數(shù)據(jù)基礎(chǔ)平臺(tái)和服務(wù)層的準(zhǔn)備工作,實(shí)戰(zhàn)當(dāng)中,幾乎所有的客戶做不到。這也是說,今天其實(shí)阿里的業(yè)務(wù)其實(shí)很大了,所有業(yè)務(wù)在一套大數(shù)據(jù)平臺(tái)系統(tǒng)上跑的。有沒有這個(gè)決心,是說我這個(gè)兩年又幾個(gè)個(gè)月的一個(gè)登月浩瀚工程,我能下定決心花11到12個(gè)月的時(shí)間,來做號(hào)數(shù)據(jù)的準(zhǔn)備工作,做一個(gè)數(shù)據(jù)平臺(tái)服務(wù)層。首先來花幾個(gè)月的時(shí)間,把要進(jìn)入新系統(tǒng)當(dāng)中所有原來的數(shù)據(jù)指標(biāo)體系規(guī)范,源數(shù)據(jù)的表當(dāng)中的標(biāo)識(shí)來重新定義。這是值得我們思考的一件事情,也非常有意思的事情。我覺得這個(gè)事情其實(shí)是說,甚至超過了我們架構(gòu)的一個(gè)范圍了。當(dāng)然還有一些實(shí)操性的經(jīng)驗(yàn)也簡單,其實(shí)在阿里云梯1到云梯2就兩句話,”業(yè)務(wù)說了算”,”數(shù)據(jù)統(tǒng)計(jì)說了算”。 

業(yè)務(wù)說了算就是說我業(yè)務(wù)來決定了我后面這個(gè)表當(dāng)中哪個(gè)字段是最重要的, 老系統(tǒng)當(dāng)中也有很多統(tǒng)計(jì)分析數(shù)據(jù),我這個(gè)數(shù)據(jù)字段,經(jīng)常被引用的頻率是多少?更新的頻率是多少?我們根據(jù)折2者的權(quán)重來進(jìn)行一個(gè)判斷。 

還有一點(diǎn)啟示,新老系統(tǒng)的對(duì)接,其實(shí)我們技術(shù)上都不是問題,只是一個(gè)成本的問題。我們?cè)趺慈诤夏??就算阿里來把云梯全部替代的過程,怎么講呢,是一個(gè)要在新系統(tǒng)當(dāng)中,就是在做這件事情的時(shí)候降維。前面提到了把這遷移的過程分成登月的多個(gè)項(xiàng)目,最終從這多個(gè)項(xiàng)目縮減到兩到三個(gè)項(xiàng)目。第一個(gè)是支付寶,就是說我在做任何新系統(tǒng)的時(shí)候,我一定一開始做得小一點(diǎn),可控一點(diǎn), 但是一定要讓我的技術(shù)人員和相關(guān)的業(yè)務(wù)部門,一定要進(jìn)來把這個(gè)新的系統(tǒng)玩轉(zhuǎn),把新的技術(shù)玩熟,把這新的技術(shù)和平臺(tái)跟老系統(tǒng)之間的差異和不同對(duì)比清楚。比如說我在這看到的元數(shù)據(jù)的管理體系,其實(shí)完全不一樣的,就是數(shù)倉,傳統(tǒng)數(shù)倉跟我這平臺(tái)是完全不一樣的,這是我們得到的第一個(gè)啟示。 

還有一點(diǎn)非常有意思的啟示,這很快提一下,也是實(shí)操當(dāng)中的寶貴經(jīng)驗(yàn),在遷移多個(gè)項(xiàng)目當(dāng)中,我相信大家也都看到了,無非就是根據(jù)業(yè)務(wù)的重要性,當(dāng)時(shí)阿里選擇這樣做,比如業(yè)務(wù)分成1、2、3級(jí),根據(jù)技術(shù)對(duì)接的難易程度分成兩級(jí),綜合考慮著兩個(gè)維度的因素, 我們?cè)俑鶕?jù)系統(tǒng)的難易程度和系統(tǒng)的重要性選出更少的項(xiàng)目先做,把它做好,這是一個(gè)實(shí)操的動(dòng)作和寶貴經(jīng)驗(yàn)。 

最后還有一點(diǎn),開幕式、閉幕式,在做這個(gè)兩年多的項(xiàng)目過程當(dāng)中,前面一開始的兩三個(gè)月的準(zhǔn)備工作非常非常重要。第二就是說就算內(nèi)部阿里自己把項(xiàng)目新老系統(tǒng)切割之后,一定一定要有兩到三個(gè)月的并行過程,同時(shí)技術(shù)團(tuán)隊(duì)隨時(shí)隨地的伺候,這非常非常重要,這個(gè)也是給我們的一點(diǎn)啟示。 

簡單回顧一下阿里的數(shù)據(jù)智能之路,其實(shí)我們就講了三點(diǎn),因?yàn)閷?duì)于這個(gè)數(shù)據(jù)的計(jì)算能力,運(yùn)算能力的強(qiáng)大:其一,還是我強(qiáng)調(diào)的數(shù)據(jù)治理的這一套體系框架以及工具。其二,就是涉及到智能圖像,圖像識(shí)別,語音,語音識(shí)別的一些智能,以及眾智平臺(tái)圍繞阿里之聲的數(shù)據(jù)做的一些事情。 

前面講了阿里這么多在內(nèi)部的一些實(shí)踐,我們阿里大家知道也開始了一個(gè)成長的對(duì)外輸出的過程。當(dāng)然其實(shí)外面其實(shí)有各種各樣的聲音在阿里輸出的過程當(dāng)中,我坦率地說,我碰到了很多同學(xué)說阿里會(huì)做2C不會(huì)做2B。阿里在數(shù)據(jù)智能方面,2B和2C領(lǐng)域有一些自己積累的案例、經(jīng)驗(yàn)和戰(zhàn)略思考。 

第一個(gè)是G20峰會(huì)的安全保障,這里我們給G20做了一個(gè)反恐系數(shù),用大數(shù)據(jù)。簡單講,比如我拿浙江省大概8700萬人,從杭州本地,就是接電話、打電話的2200萬這么一個(gè)規(guī)模,跟一些特定地區(qū),500多萬的人群進(jìn)行碰撞。這個(gè)概念大概涉及到幾萬億條的數(shù)據(jù),碰撞一秒鐘不到,這里就講了我們的這個(gè)計(jì)算能力了,我們大概第一次碰撞出來100多萬人?;瘯r(shí)間幾秒鐘。 

經(jīng)驗(yàn)規(guī)則是公安提供的,我們?cè)俅蛞粋€(gè)標(biāo)簽,用VPN的,VPN的大概有30多萬人。跟前面碰撞出的135萬人快速分析交叉,我得出來大概1.1萬人。 好,根據(jù)經(jīng)驗(yàn)規(guī)則,這個(gè)1.1萬人當(dāng)中,我再加幾標(biāo)簽,某某籍貫不好說具體的,某某籍,男性,25到35歲,在杭州有個(gè)地方,某一個(gè)地方的落腳點(diǎn),這又是一個(gè)標(biāo)簽。 然后是跟敘利亞、土耳其最近的一個(gè)月有過通話記錄的,五個(gè)標(biāo)簽一組合,快速運(yùn)算出來從1.1萬到十幾個(gè)人。這是一種模式。你可以看到我是分了幾個(gè)層次??焖龠\(yùn)算出來的。 

我們也可以把這六個(gè)標(biāo)簽一下子老綜合考慮,什么籍?男性,25到35,最近一個(gè)月,有跟敘利亞、土耳其通話,杭州某地轉(zhuǎn)塘,以及用了VPN的,我對(duì)前面講的幾萬億條的數(shù)據(jù)量,我們?cè)贕20這個(gè)項(xiàng)目之前做不到十秒,大概8到9秒就能把這最后十幾個(gè)人分析出來。 隨著不斷的調(diào)優(yōu),到了實(shí)戰(zhàn)我們花5秒左右的時(shí)間把這個(gè)做出來。大家可以看到利用大數(shù)據(jù)的強(qiáng)大的分析能力,對(duì)我安全的保障,同樣我反恐系數(shù)也可以相類比的利用這個(gè)標(biāo)簽系統(tǒng)分析能力去做一個(gè)系數(shù),這是國計(jì)民生第一個(gè)應(yīng)用案例。 

第二個(gè),給某省交通廳做?;囕v的運(yùn)輸,我只要車上裝一些GPS,把這個(gè)數(shù)據(jù)通過3G4G網(wǎng)絡(luò)快速傳到中控中心,有一個(gè)數(shù)據(jù)的接收器。如果這個(gè)危化車輛到了重點(diǎn)場(chǎng)所、居民區(qū),500米、1000米的時(shí)候,進(jìn)行黃色、紅色預(yù)警,這個(gè)也是對(duì)微化車輛預(yù)警。 

第三個(gè),比較有意思,風(fēng)電設(shè)備,因?yàn)橥h(huán)境比較惡劣。我們也是通過搜集傳感區(qū)的數(shù)據(jù)來進(jìn)行風(fēng)電設(shè)備的一個(gè)老化的檢測(cè)。其實(shí)不僅是風(fēng)電設(shè)備了,稍微發(fā)散一下,我們高鐵的發(fā)動(dòng)機(jī),其實(shí)還有大型鉆井的風(fēng)機(jī),幾年前,西門子啊,德美的一些公司如GE更多的是用特征工程來做的。像風(fēng)機(jī)五年左右會(huì)出現(xiàn)衰減的曲線,就是到了5年,相當(dāng)于一個(gè)拋物線的頂部出現(xiàn)故障的頻率比較高了,然后再趨于平緩。 

那我們能不能結(jié)合大數(shù)據(jù)?甚至只用大數(shù)據(jù)做特征工程不能做的事情,來預(yù)測(cè)我設(shè)備的故障,我實(shí)現(xiàn)狀態(tài)修,我不是故障修,而且我這個(gè)預(yù)測(cè)一定要準(zhǔn),我5年的時(shí)間會(huì)出問題,我最好4.8年的時(shí)候預(yù)測(cè)出這個(gè)問題。 

還有我們正在給風(fēng)機(jī)塔的建設(shè),去收集風(fēng)機(jī)塔的高度,周圍500米到300米的湖泊,以及兩公里以內(nèi)的湖泊,主風(fēng)向等等這些參數(shù),你可以用所有這些參數(shù)歷史數(shù)據(jù),做了數(shù)據(jù)準(zhǔn)備之后。分析出來的結(jié)果可以決定風(fēng)機(jī)塔的建設(shè)參考,有時(shí)候跟我們的經(jīng)驗(yàn)工程師是不一樣的。有不少的時(shí)候,其實(shí)我們的經(jīng)驗(yàn)也不能想到的,甚至沒有發(fā)現(xiàn)的,這是非常有意思的一些事情。 

高速逃費(fèi)也是,我們給浙江的一個(gè)高速站,現(xiàn)在正在做的幾個(gè)案例,就是根據(jù)你這個(gè)車輛,車牌, 第二是車輛的形狀、顏色,因?yàn)槲覀兲淤M(fèi)是有大車會(huì)拿一個(gè)小車的牌子過來就少交錢,有這種逃費(fèi)的過程, 比較容易通過圖片識(shí)別快速鎖定ETC逃費(fèi)車輛并實(shí)現(xiàn)實(shí)時(shí)跟蹤。 其實(shí)根據(jù)車輛車牌的形狀,很容易做這個(gè)車輛逃費(fèi),浙江省一年逃費(fèi)損失大概十個(gè)億。 

還有地下的停車中心,我們前面講到的都是對(duì)人,其實(shí)你所有的車牌,大家想想也都是作為一個(gè)唯一的ID。我們進(jìn)了地下的時(shí)候,這個(gè)車牌就識(shí)別,車牌關(guān)聯(lián)到車主,關(guān)聯(lián)到人,我如果是這個(gè)大型商場(chǎng)的VIP客戶的話,你一進(jìn)來就發(fā)現(xiàn)了楊先生,你是我們尊貴的VIP客戶,我現(xiàn)在建議你往右拐,再前面左拐到達(dá)了VIP的停車位。這個(gè)VIP的停車位一定跟商場(chǎng)的門口很近。這是車牌識(shí)別之后,關(guān)聯(lián)到人等等一系列的應(yīng)用。 

如果隨著我后面車輛庫、車牌庫的數(shù)據(jù)搜集越來越多,我們ETC卡也不用了,之需要車牌的實(shí)時(shí)識(shí)別,大家想一下這個(gè)影響還是蠻大的。還有現(xiàn)在已經(jīng)在做的一些POS系統(tǒng),我不知道大家去超市購物的時(shí)候,有沒有看到,一個(gè)是雙面的POS系統(tǒng)對(duì)吧?一般那一面面對(duì)著就是收銀員,這一面給你看到你購物的一個(gè)清單。但是你如果已經(jīng)是會(huì)員了,根據(jù)你會(huì)員購買的歷史,在列清單的時(shí)候,我們是不是能做精準(zhǔn)交叉營銷呢?在右上角是來顯示你的這個(gè)購物清單,其他三分之二的這個(gè)視頻上面,給你推薦了產(chǎn)品。 

對(duì)會(huì)員且不說了,如果對(duì)一個(gè)進(jìn)商店的,目前還不是會(huì)員,隨著后面我們這個(gè)庫的數(shù)據(jù)越來越大,我通過,其實(shí)今天人臉識(shí)別已經(jīng)很厲害了。人臉識(shí)別之后,把你所有網(wǎng)上的一些信息,網(wǎng)上我們上網(wǎng)的日志,基本上有一個(gè)禮拜,兩個(gè)禮拜的日志,對(duì)你的收入、教育,所有這些5、6個(gè)字段鎖定還是挺準(zhǔn)的。 

那把所有這些數(shù)據(jù)拿上來之后,新一代的收銀系統(tǒng)也很有意思,數(shù)據(jù)智能的客戶中心就更有意思了。其實(shí)我自己就深有感受,目前來說還是比較苦悶的,我記性不大好,經(jīng)常會(huì)忘。比如你到了招商銀行信用卡,查詢密碼忘掉了,一次兩次三次,可能就被鎖定了。你沒辦法,就打95555,你打95555這個(gè)客服進(jìn)來了,他都是1干什么?2干什么?不行再返回主菜單。我在想我已經(jīng)因?yàn)樵谀莻€(gè)一分鐘前,30秒前輸了5次或者3次查詢密碼。當(dāng)我們把這些數(shù)據(jù)交叉之后,現(xiàn)在講的多渠道,綜合數(shù)據(jù)管理,就是我們?cè)谛畔⒒龅梅浅nI(lǐng)先的招商銀行,其實(shí)還有沒有做到?如果有銀行的不要介意。我打這個(gè)電話進(jìn)去的時(shí)候,他根據(jù)我一分鐘前輸了幾次密碼,至少第一個(gè)選擇是說你要重設(shè)查詢密碼, 然后再是下面的主菜單, 這個(gè)是說新一代的智能客服中心中的一個(gè)例子。這是與我們生活已經(jīng)息息相關(guān)了。

以上用了40分鐘跟大家分享一下阿里云這個(gè)大數(shù)據(jù)智能,我們稱之為數(shù)據(jù)智能平臺(tái)怎么來支撐今天支付寶、螞蟻金服、菜鳥等等這一系列應(yīng)用,我這個(gè)平臺(tái)上。最最本質(zhì)的一點(diǎn)是說我有一個(gè)高質(zhì)量的、統(tǒng)計(jì)的、一套的數(shù)據(jù)在已經(jīng)打通了的平臺(tái)上去運(yùn)行。同時(shí)我們不僅是說用這套數(shù)據(jù)智能平臺(tái)服務(wù)自己阿里集團(tuán),今天除了給2C這些,淘寶、天貓不說了,我們其實(shí)已經(jīng)在2B領(lǐng)域跟我們的合作伙伴做非常非常有意思的東西。 

最后用30秒時(shí)間講一下,我們做的還是基于這個(gè)平臺(tái)和強(qiáng)大的計(jì)算能力,數(shù)據(jù)治理的實(shí)戰(zhàn)經(jīng)驗(yàn),以及圖像識(shí)別、語音智能方面的數(shù)據(jù)智能大平臺(tái)。最后的5公里、1公里的應(yīng)用、服務(wù),我們是和我們的生態(tài)一起去提供給我們的企業(yè)客戶。 

好,最后謝謝大家! 

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

責(zé)任編輯:陳琳 來源: 51CTO
相關(guān)推薦

2016-11-25 22:27:57

阿里云計(jì)算

2009-03-18 11:50:56

阿里巴巴衛(wèi)哲跳槽

2013-06-02 21:53:51

阿里巴巴Windows Azu淘寶

2013-10-30 16:40:55

阿里巴巴阿里云云計(jì)算

2013-08-08 10:34:50

阿里巴巴BAT

2012-09-11 10:09:54

阿里云

2010-06-28 10:43:47

2009-03-20 09:12:56

阿里巴巴衛(wèi)哲馬云

2013-02-19 10:47:13

阿里巴巴阿里云·搜索阿里云

2010-08-16 10:29:34

阿里巴巴搜狗

2018-03-20 09:44:32

阿里巴巴人事平臺(tái)

2013-08-22 09:41:52

阿里巴巴去IOE王堅(jiān)

2012-07-06 16:19:23

華為服務(wù)器

2009-03-02 10:24:53

阿里巴巴招聘馬云

2015-07-29 20:35:17

阿里巴巴阿里云

2012-09-17 10:20:11

2014-03-17 10:24:22

阿里云物聯(lián)網(wǎng)美的

2009-06-30 13:28:54

阿里巴巴旺旺

2018-01-02 09:23:38

數(shù)據(jù)分析算法阿里巴巴

2024-12-05 09:12:43

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)