獨(dú)家直播雙11全網(wǎng)動(dòng)態(tài)?前黑客“勞改”帶你玩轉(zhuǎn)大數(shù)據(jù)
本期邀請(qǐng)星圖數(shù)據(jù)CTO崔侖帶來“獨(dú)家直播雙十一全網(wǎng)動(dòng)態(tài)?前黑客“勞改”帶你玩轉(zhuǎn)大數(shù)據(jù) ”的主題分享。
分享嘉賓:星圖數(shù)據(jù)CTO 崔侖
嘉賓簡(jiǎn)介:崔侖,知名“黑客”,搜索引擎及信息安全專家,10年互聯(lián)網(wǎng)、軟件研發(fā)經(jīng)驗(yàn)。曾在阿里巴巴設(shè)計(jì)并主導(dǎo)開發(fā)淘寶及天貓若干一線數(shù)據(jù)產(chǎn)品,包括站內(nèi)搜索、一淘、阿里媽媽廣告引擎等。在此之前,曾任瑞星科技高級(jí)軟件工程師以及TOM軟件工程師。精通搜索引擎及高并發(fā)數(shù)據(jù)服務(wù)的架構(gòu)設(shè)計(jì)研發(fā),對(duì)大數(shù)據(jù)及云計(jì)算領(lǐng)域有深入研究。
公司簡(jiǎn)介:星圖數(shù)據(jù)(Syntun)是消費(fèi)領(lǐng)域?qū)I(yè)的大數(shù)據(jù)產(chǎn)品、服務(wù)和解決方案提供商;專注為企業(yè)、互聯(lián)網(wǎng)平臺(tái)及消費(fèi)者提供全方位專業(yè)數(shù)據(jù)服務(wù)。使用自主研發(fā)的大數(shù)據(jù)技術(shù),并依靠長(zhǎng)期積累的行業(yè)零售研究、用戶研究及數(shù)據(jù)處理經(jīng)驗(yàn),以及獨(dú)到的大數(shù)據(jù)分析體系和云計(jì)算處理技術(shù),打造了一條為品牌制造企業(yè)、線上流通平臺(tái)以及網(wǎng)購(gòu)消費(fèi)者提供全方位專業(yè)數(shù)據(jù)服務(wù)的消費(fèi)領(lǐng)域大數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈。
主要產(chǎn)品:
D-Matrix(數(shù)據(jù)矩陣)大數(shù)據(jù)分析系統(tǒng):為品牌企業(yè)提供豐富、直觀的數(shù)據(jù)查詢、分析與預(yù)測(cè)功能。D-Matrix是基于iNebula(分布式大數(shù)據(jù)獲取與存儲(chǔ)系統(tǒng))與WarpEngine(大數(shù)據(jù)處理與分析引擎),集成了搜索引擎、分布式計(jì)算、機(jī)器自學(xué)習(xí)算法等大數(shù)據(jù)領(lǐng)域的領(lǐng)先技術(shù),為品牌企業(yè)提供豐富、直觀的數(shù)據(jù)查詢、分析與預(yù)測(cè)功能。
SkyScope(天鏡)線上渠道巡檢系統(tǒng):幫助企業(yè)及時(shí)了解渠道的經(jīng)營(yíng)狀況、實(shí)時(shí)進(jìn)行渠道巡查、發(fā)現(xiàn)和查處渠道的違規(guī)行為。SkyScope線上渠道巡檢系統(tǒng),通過搜索引擎、數(shù)據(jù)挖掘等技術(shù),為品牌企業(yè)提供實(shí)時(shí)的渠道監(jiān)控與管理工具。幫助企業(yè)及時(shí)了解渠道的經(jīng)營(yíng)狀況、實(shí)時(shí)進(jìn)行渠道巡查、發(fā)現(xiàn)和查處渠道的違規(guī)行為,并以短信、郵件、APP推送等方式,實(shí)現(xiàn)實(shí)時(shí)預(yù)警。
AtomPower(原子力)SKU單品分析系統(tǒng):為企業(yè)提供單品監(jiān)控與管理工具,幫助企業(yè)及時(shí)了解單品的銷售市場(chǎng)狀況。AtomPower SKU單品分析系統(tǒng)擁有及時(shí)、細(xì)致的龐大的基礎(chǔ)數(shù)據(jù)資源。能夠?qū)崿F(xiàn)數(shù)據(jù)每日更新。強(qiáng)大的大數(shù)據(jù)引擎,可以實(shí)現(xiàn)快速、自由的數(shù)據(jù)展現(xiàn)、分析與追溯,以及海量的數(shù)據(jù)整理和挖掘。
以下是11月20日CTO講堂現(xiàn)場(chǎng)完整速記:
主持人:今天講堂開始啦,歡迎星圖數(shù)據(jù)CTO崔侖,請(qǐng)您跟大家介紹下自己吧。
崔侖:hi,大家好。我是星圖數(shù)據(jù)的技術(shù)負(fù)責(zé)人崔侖。我先自我介紹一下,我是2005年本科畢業(yè)參加工作的,至今剛好10年。從小就喜歡折騰電腦,大學(xué)學(xué)的電氣工程的強(qiáng)電方向,和計(jì)算機(jī)硬件優(yōu)點(diǎn)相關(guān)。畢業(yè)之后,進(jìn)入了一個(gè)互聯(lián)網(wǎng)公司,tom.com。當(dāng)年還能排得上號(hào)兒的一個(gè)門戶網(wǎng)站。
后來公司的SP業(yè)務(wù)下降很厲害,公司轉(zhuǎn)型,收購(gòu)了ebay中國(guó)。我也是機(jī)緣巧合,被抽調(diào)去做ebay中國(guó)的站內(nèi)商品搜索。折騰了半年,也算是進(jìn)入了搜索這個(gè)行業(yè),了解了搜索引擎是怎么回事,在呢么個(gè)運(yùn)作原理。后來ebay業(yè)務(wù)被淘寶沖擊得比較厲害,自己做出來的東西也沒什么成就感,決定趁著年輕,換換口味,就在2007年離開了tom.com。
我相信很多做技術(shù)的人都?jí)粝胫谐蝗债?dāng)一個(gè)神出鬼沒的黑客, 我也想去安全行業(yè)見識(shí)一下。于是就去了瑞星的網(wǎng)絡(luò)安全部。當(dāng)時(shí)瑞星的這個(gè)部門并不做pc端的軟件,主要做一些放在機(jī)房里的設(shè)備。我們主要負(fù)責(zé)的是一個(gè)叫“防毒墻”的產(chǎn)品,就是架設(shè)在企業(yè)網(wǎng)關(guān)或者用橋模式架設(shè)在主干上的一個(gè)設(shè)備,可以過濾不加密的http協(xié)議的內(nèi)容,當(dāng)然,主要是查病毒和木馬,不涉及內(nèi)容過濾。之后還有一些企業(yè)網(wǎng)站防護(hù)的產(chǎn)品,通過反向代理的方式阻擋對(duì)http服務(wù)器的攻擊。2010年,殺毒軟件的免費(fèi)大戰(zhàn)之后,我離開了瑞星,加入淘寶,算是回到了搜索行業(yè)。插播一個(gè)廣告,我當(dāng)時(shí)的老板叫馬杰,混跡安全行業(yè)很多很多年,在我離職后,他下海創(chuàng)業(yè),經(jīng)歷5年,被百度收購(gòu),產(chǎn)品叫《安全寶》。
離開瑞星,我去了阿里巴巴,算是重新回到了搜索行業(yè)。在阿里巴巴主要都是搜索相關(guān)的工作。
主持人:看您曾在阿里巴巴設(shè)計(jì)并主導(dǎo)開發(fā)淘寶及天貓若干一線數(shù)據(jù)產(chǎn)品,可否介紹一下?
崔侖:我是2010年加入阿里巴巴,2015年離開,將近5年的時(shí)間,在阿里把把內(nèi)經(jīng)歷了3個(gè)部門。第一個(gè)是當(dāng)時(shí)叫做淘寶研發(fā)部搜索中心,我們組的名字叫新引擎技術(shù)。我去入職的時(shí)候這個(gè)組只有一個(gè)leader,我是第1個(gè)組員,在我填寫入職表格時(shí),第2個(gè)組員也來報(bào)到了。這倆人現(xiàn)在一個(gè)是蘿卜兔的CEO,一個(gè)是51offer的CTO。
在搜索中心主要做了2個(gè)比較大的項(xiàng)目,一個(gè)是淘寶的店鋪內(nèi)搜索,就是在淘寶店鋪內(nèi)的一切瀏覽操作,都要過這個(gè)搜索引擎。包括各種分類,過濾,按關(guān)鍵字搜索。在我們改進(jìn)之前,這套系統(tǒng)用了大概150臺(tái)服務(wù)器實(shí)現(xiàn),替換成我們的系統(tǒng)之后,僅用了不到30臺(tái)服務(wù)器。主要是實(shí)現(xiàn)了性能的提升。
之后,我們的隊(duì)伍不斷壯大,從三個(gè)人的團(tuán)隊(duì),一直到十多人的豪華陣容,開始改進(jìn)替換淘寶網(wǎng)的搜索引擎(淘寶都管它叫主搜索)。同樣,一年之后,主搜索的性能也大大的提升。在搜索中心,每天主要是跟磁盤/內(nèi)存/cpu死磕,想方設(shè)法的榨干服務(wù)器的每一點(diǎn)資源。但是,當(dāng)時(shí)的數(shù)據(jù)量雖然很大,我們這一幫做c語(yǔ)言出身的人,并沒有使用任何的云計(jì)算技術(shù)。每天任務(wù)最繁重的索引Build工作,雖說是在多機(jī)的集群中完成的,但調(diào)度基本靠腳本+nfs。
之后,2013年,抽調(diào)了一部分人去阿里媽媽事業(yè)部,去改進(jìn)淘寶直通車的引擎。直通車的引擎跟搜索引擎非常相似,但是沒有分詞,內(nèi)容update頻率很高,可靠性要求也相對(duì)于搜索引擎更高(因?yàn)樯婕暗藉X)。這次,我們?cè)谥匦略O(shè)計(jì)引擎,提升性能的同時(shí),也讓我開始接觸到了云計(jì)算。首先,離線build工作在hadoop上用streaming job方式實(shí)現(xiàn),build速度實(shí)現(xiàn)了質(zhì)的提升。另外,也讓我見識(shí)到了在hadoop、odps、storm等大數(shù)據(jù)處理框架的實(shí)力。就拿索引更新來說,在2013年時(shí),廣告引擎的實(shí)時(shí)更新,已經(jīng)可以做到秒級(jí)。同時(shí),也讓我從側(cè)面見識(shí)到了云平臺(tái)的潛力,比如對(duì)點(diǎn)擊日志的分析,復(fù)雜的模型,數(shù)千臺(tái)服務(wù)器,運(yùn)行好幾個(gè)小時(shí),計(jì)算出的結(jié)果對(duì)直通車引擎的效果提升奠定了堅(jiān)實(shí)的基礎(chǔ)。
主持人:您決定加入星圖數(shù)據(jù)開始數(shù)據(jù)方面的創(chuàng)業(yè)是看到了什么發(fā)展機(jī)遇么?最初的想法是怎樣的?
崔侖:我和星圖數(shù)據(jù)的一個(gè)創(chuàng)始人(Melvin)中學(xué)6年是同學(xué)。他在2013年底就找我想一起出來創(chuàng)個(gè)業(yè),但那時(shí)我因?yàn)閭€(gè)人原因,無(wú)法從阿里出來,于是就幫忙介紹之前的朋友,同事,希望能來跟他一起做。但是一直沒有能夠?qū)ι涎蹆旱?。反倒是我自己,在不停的接觸中,了解了星圖數(shù)據(jù),知道了他們是怎樣一批人,在做怎樣的事情,偶爾還會(huì)來跟星圖的工程師一起討論、解決些問題。當(dāng)時(shí),我在阿里也剛剛接觸到大數(shù)據(jù)的概念,覺得這個(gè)東西挺有意思的,自己也有一些云計(jì)算的開發(fā)經(jīng)驗(yàn),所以一直關(guān)注著星圖。
2015年初,我跟另外一個(gè)中學(xué)同學(xué),決定一起出來做一些事情,于是立即從阿里辭職出來。但我們都沒有運(yùn)營(yíng)公司運(yùn)轉(zhuǎn)的經(jīng)驗(yàn),于是毫無(wú)懸念的失敗了。同時(shí)也發(fā)現(xiàn),目前大部分火熱的互聯(lián)網(wǎng)產(chǎn)品,至少在初期,技術(shù)只是輔助,產(chǎn)品和運(yùn)營(yíng)才是最重要的,而我作為一個(gè)開發(fā)了10年底層應(yīng)用的程序員,能夠讓我發(fā)揮價(jià)值的初期項(xiàng)目是在是太少了。這時(shí)我意識(shí)到,星圖就是這樣一個(gè)技術(shù)導(dǎo)向,有一定基礎(chǔ),又跟著大數(shù)據(jù)的概念,能夠體現(xiàn)我的價(jià)值的公司。于是很快,就加入了星圖數(shù)據(jù)。
主持人:目前星圖數(shù)據(jù)的情況以及技術(shù)團(tuán)隊(duì)構(gòu)成,請(qǐng)介紹一下。
崔侖:星圖數(shù)據(jù)從創(chuàng)立到現(xiàn)在大約2年時(shí)間,目前團(tuán)隊(duì)有50人。我們以大數(shù)據(jù)產(chǎn)品為媒介,幫助每一個(gè)企業(yè)和海量信息對(duì)接,提供場(chǎng)景化的數(shù)據(jù)應(yīng)用?,F(xiàn)在我們的主要客戶集中在傳統(tǒng)制造企業(yè),以及一些零售流通企業(yè)。我們現(xiàn)在提供的產(chǎn)品有三個(gè)應(yīng)用方向,DaaS,供應(yīng)鏈金融,C2B解決方案。
目前星圖數(shù)據(jù)技術(shù)團(tuán)隊(duì)大約占7成,戰(zhàn)斗力很強(qiáng)。大家在官網(wǎng)上看到的產(chǎn)品目前都使用php開發(fā),簡(jiǎn)單而高效。后臺(tái)的離線數(shù)據(jù)處理部分用到了不少目前比較流行的框架,比如hadoop /kafka/spark/spark streaming之類。我們的數(shù)據(jù)處理集群,目前有超過100臺(tái)服務(wù)器,并且在未來一年內(nèi),這個(gè)數(shù)字預(yù)計(jì)還會(huì)翻番。
主持人:麻煩您簡(jiǎn)單介紹下星圖數(shù)據(jù)目前提供的產(chǎn)品吧。并從具體產(chǎn)品適用場(chǎng)景來闡述一下。
崔侖:我們現(xiàn)在主要有幾個(gè)業(yè)務(wù)方向,其中已經(jīng)產(chǎn)品化的是DaaS產(chǎn)品線,以不同的數(shù)據(jù)應(yīng)用在不同的場(chǎng)景解決商業(yè)問題。我們提供了3個(gè)在線DaaS產(chǎn)品。D-Matrix、AtomPower 、SkyScope。分別用于宏觀數(shù)據(jù)分析,微觀數(shù)據(jù)分析,線上渠道巡檢。為決策團(tuán)隊(duì),營(yíng)銷團(tuán)隊(duì),渠道管理團(tuán)隊(duì)提供不同場(chǎng)景的數(shù)據(jù)服務(wù)。
另一個(gè)方向是供應(yīng)鏈金融方向。就是零售商信用評(píng)級(jí)和貨品估值服務(wù),幫助零售商獲得供應(yīng)鏈融資。這個(gè)在媒體上已經(jīng)有所報(bào)道,我們已經(jīng)開始在和京東金融合作。
第三個(gè)方向是C2B解決方案。就是消費(fèi)者驅(qū)動(dòng)的產(chǎn)品設(shè)計(jì)以及精準(zhǔn)至個(gè)體的回溯式營(yíng)銷?,F(xiàn)在市場(chǎng)上有很多廠商都正在嘗試C2B模式的產(chǎn)品設(shè)計(jì),但是我們可以很負(fù)責(zé)任的說,我們已經(jīng)和知名的多家制造業(yè)巨頭合作將C2B產(chǎn)品落地,預(yù)計(jì)明年就會(huì)面世,大家可以期待一下。
主持人:星圖的產(chǎn)品有什么獨(dú)特之處?也就是和同類產(chǎn)品競(jìng)爭(zhēng)優(yōu)勢(shì)有哪些?
崔侖:首先,線上零售數(shù)據(jù)領(lǐng)域,沒有我們同類的產(chǎn)品。
傳統(tǒng)的線下咨詢和市場(chǎng)調(diào)研公司和我們一樣,也會(huì)提供市場(chǎng)信息的線下采樣數(shù)據(jù)報(bào)告,而我們提供的是線上全網(wǎng)實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)。宏觀可至市場(chǎng)份額,微觀可至單SKU的量?jī)r(jià)額單用戶的個(gè)人偏好。
另一方面,我們和新興的互聯(lián)網(wǎng)數(shù)據(jù)公司也不一樣,我們的所有產(chǎn)品服務(wù)都帶有行業(yè)邏輯,因?yàn)槲覀兊膭?chuàng)始人團(tuán)隊(duì)都在零售行業(yè)混跡多年,非常了解傳統(tǒng)企業(yè)的痛點(diǎn)。于是我們的產(chǎn)品都設(shè)計(jì)成面向業(yè)務(wù)決策人員,無(wú)需單獨(dú)部署的云端數(shù)據(jù)應(yīng)用。
主持人:請(qǐng)介紹一下雙十一你們做了哪些監(jiān)測(cè)?從雙十一的活動(dòng)數(shù)據(jù)中,得出了哪些有意思的結(jié)論么?
崔侖:今年雙十一當(dāng)天,我們監(jiān)測(cè)了全網(wǎng)18家主流B2C平臺(tái)的銷售情況數(shù)據(jù)。其實(shí)這也是我們平時(shí)監(jiān)測(cè)的數(shù)據(jù),只是在雙十一當(dāng)天,我們將監(jiān)測(cè)頻率提高,進(jìn)行直播。直播時(shí),我們的監(jiān)測(cè)數(shù)據(jù)大約延遲2小時(shí)。
我們監(jiān)測(cè)到今年雙十一線上銷售總額1229.4億。我們也看到了一些有意思的現(xiàn)象。比如我們發(fā)現(xiàn)很多新興互聯(lián)網(wǎng)品牌正在崛起,發(fā)展趨勢(shì)非??植溃芸赡茉诓痪玫膶?,某些新興品牌可以和現(xiàn)在的知名品牌一爭(zhēng)高下。
同時(shí),我們發(fā)現(xiàn)相比2014年雙十一,客單價(jià)下降了10%,這表明網(wǎng)購(gòu)的趨勢(shì)呈上升的態(tài)勢(shì),用戶的消費(fèi)習(xí)慣更向線上轉(zhuǎn)移。
今年雙十一全網(wǎng)銷量最高的品類是手機(jī),賣出了712萬(wàn)臺(tái),10年以前,手機(jī)僅僅作為一個(gè)日常使用的工具,電話短信。而現(xiàn)在,手機(jī)的更新?lián)Q代速度很快,使其已經(jīng)顯示出了快速消費(fèi)品的特性。712萬(wàn)臺(tái)手機(jī)是什么概念,從這些手機(jī)里提煉黃金,能提煉出200公斤。
還有一些有趣的數(shù)據(jù),在之前星圖雙十一直播發(fā)布的大圖中展示了,大家可以去搜索一下。
主持人:雙十一的直播僅有星圖一家在做?技術(shù)與去年雙十一相比有哪些提升?
崔侖:雙十一的數(shù)據(jù)直播,除了天貓做了自己平臺(tái)的,全網(wǎng)的數(shù)據(jù)直播只有我們星圖數(shù)據(jù)在做,并且今年已經(jīng)是第二年做這個(gè)事情了。
今年雙十一,首先我們監(jiān)測(cè)的平臺(tái)增加,需要分析的數(shù)據(jù)量增加。2015年互聯(lián)網(wǎng)創(chuàng)業(yè)非?;馃?,也出現(xiàn)了很多新晉的電商平臺(tái),我們?cè)陔p十一直播時(shí),也將這些平臺(tái)納入我們的數(shù)據(jù)源,同時(shí),網(wǎng)購(gòu)消費(fèi)的上漲趨勢(shì)我們也納入了更多的熱點(diǎn)品類??傮w采集的數(shù)據(jù)量比去年翻了幾倍。(目前我們?nèi)粘2杉刻?T,雙十一采集的數(shù)據(jù)相對(duì)較少,每一輪大約400-500G,但是輪數(shù)很多)
另外,我們對(duì)數(shù)據(jù)的處理效率大大提升了。在今年,我們的系統(tǒng)進(jìn)行了很大的改進(jìn),引入了很多目前比較先進(jìn)的技術(shù)。比如Kafka,Spark,同時(shí),之前使用的hadoop 系統(tǒng),也進(jìn)行了很大的優(yōu)化,這直接導(dǎo)致我們的數(shù)據(jù)處理效率大大提高。去年這個(gè)時(shí)間點(diǎn)需要計(jì)算兩小時(shí)的數(shù)據(jù),在今年只需要10到15分鐘。
最后,今年雙十一對(duì)數(shù)據(jù)的采集頻率變高。去年我們采集的頻率大概為1天8次。今年,因?yàn)閿?shù)據(jù)處理效率大大提高,雖然采集數(shù)據(jù)量翻了幾倍,我們?nèi)匀荒軌蛱岣卟杉念l率,達(dá)到了12-15次。
主持人:那么流化數(shù)據(jù)處理體系有什么樣的優(yōu)勢(shì)呢?
崔侖:在今年,星圖的數(shù)據(jù)處理架構(gòu)進(jìn)行了比較大的改進(jìn)。主要是引入了kafka消息隊(duì)列和Spark Streaming框架。整個(gè)數(shù)據(jù)處理過程,實(shí)現(xiàn)了流水線作業(yè)。我來介紹一下完整的數(shù)據(jù)處理流程。
首先,我們有一個(gè)url地址庫(kù),里面保存的是所有單品的url,每一輪的采集,都由這個(gè)地址庫(kù)觸發(fā)。這里解釋一下,各平臺(tái)的列表頁(yè)是單獨(dú)維護(hù)的,并不在常規(guī)的采集系統(tǒng)內(nèi),這是為了確保采集系統(tǒng)能夠定時(shí)定量完成采集。
之后,是一個(gè)URL采集調(diào)度系統(tǒng),每次啟動(dòng)時(shí),從URL庫(kù)中加載所有要采集的地址,并根據(jù)采集總時(shí)間,URL所屬的域名進(jìn)行分布打散,形成一個(gè)列表,哪個(gè)時(shí)間點(diǎn),要采集哪些URL。 然后根據(jù)這個(gè)列表,按時(shí)將需要采集的URL送入Kafka中的URL隊(duì)列。
Spider程序通過Kafka的URL隊(duì)列消息,能夠立即獲取到需要采集的URL,下載頁(yè)面。經(jīng)過簡(jiǎn)單的轉(zhuǎn)碼、壓縮等操作,附加上采集的時(shí)間狀態(tài)等信息,將這些信息送入Kafka中的另一個(gè)Page隊(duì)列。
對(duì)于Page隊(duì)列的處理,有兩個(gè)分支。都運(yùn)行在Spark Streaming中。
其中一個(gè)分支負(fù)責(zé)生成下級(jí)的url。比如現(xiàn)在很多的網(wǎng)站大量的采用了AJAX,那么單品頁(yè)很可能不包含某些關(guān)鍵信息,比如價(jià)格、促銷等。那么在這里,需要計(jì)算生成單品的價(jià)格促銷頁(yè)面的url,送入Kafka的url隊(duì)列中,供spider程序抓取。
另一個(gè)分支從Page隊(duì)列獲得網(wǎng)頁(yè)原始信息,準(zhǔn)實(shí)時(shí)地保存到hdfs上。
之后,運(yùn)行在hadoop和spark上的數(shù)據(jù)處理ETL流程會(huì)定時(shí)啟動(dòng),將采集系統(tǒng)獲取的數(shù)據(jù)統(tǒng)一處理,各種統(tǒng)計(jì)分析,生成最終的結(jié)果。
主持人:iNebula(數(shù)據(jù)采集系統(tǒng))和WarpEngine(數(shù)據(jù)處理系統(tǒng))的效率提升了多少倍?
崔侖:數(shù)據(jù)采集系統(tǒng),在雙十一直播中,如果只從采集時(shí)間上看,提升了5倍以上。我們將網(wǎng)絡(luò)出口進(jìn)行了統(tǒng)一管理,充分利用了我們的網(wǎng)絡(luò)帶寬。并且在提高效率的同時(shí),還大大精簡(jiǎn)了服務(wù)器的數(shù)量。
數(shù)據(jù)處理系統(tǒng)效率大約提升了8-10倍。這個(gè)原因也有很多方面。首先,最簡(jiǎn)單直接的是在星圖在這一年,隨著公司不停的發(fā)展,服務(wù)器數(shù)量翻了一番。另外,今年雙十一的數(shù)據(jù)處理,已經(jīng)100%在云計(jì)算框架下運(yùn)行,得益于hadoop和spark的高效,使我們有了這樣的成績(jī)。
主持人:技術(shù)方面,為什么采用Kafka??jī)?yōu)勢(shì)是什么?
崔侖:Kafka很適合在我們的流水線中作為“線”來使用,作為各個(gè)模塊之間的數(shù)據(jù)交互工具。它的吞吐率非常高。并且,Kafka還具有水平擴(kuò)展能力,可以按需求增加節(jié)點(diǎn),擴(kuò)充容量,或進(jìn)一步提高吞吐率。
同時(shí),Kafka對(duì)于現(xiàn)有的流行的分布式處理系統(tǒng)都有非常好的兼容性,比如在Spark、Storm應(yīng)用中,都只需要很少的代碼就能夠與Kafka完美地集成。
主持人:每日完成對(duì)5TB數(shù)據(jù)的處理背后的技術(shù)支撐是什么?
崔侖:首先,我們的技術(shù)團(tuán)隊(duì)非常給力,能夠使內(nèi)部的產(chǎn)品、工具快速升級(jí)迭代。同時(shí),大家對(duì)現(xiàn)有的先進(jìn)技術(shù),都會(huì)去接觸嘗試,如果有適合我們的東西,都愿意拿到我們的系統(tǒng)里來。
像Spark Streaming,Kafka這樣的東西就是這樣引入的。
有人會(huì)問為什么不用Storm,而選擇Spark Streaming。Storm 處理數(shù)據(jù)更實(shí)時(shí)一些,可以做到1秒以內(nèi)的延遲。但是星圖目前的使用場(chǎng)景,都是離線數(shù)據(jù)處理,對(duì)數(shù)據(jù)延遲的要求并沒有那么高。另外,在使用Spark Streaming之前,我們就有Spark集群在用于生產(chǎn)服務(wù)。主要是做一些情感分析,模型推演等算法相關(guān)的事情。所以,最終選擇了Spark Streaming,對(duì)數(shù)據(jù)進(jìn)行“準(zhǔn)實(shí)時(shí)”處理。
主持人:對(duì)于數(shù)據(jù)挖掘領(lǐng)域的未來發(fā)展前景,會(huì)是怎樣的,談?wù)勀目捶ǎ?/p>
崔侖:我覺得大數(shù)據(jù)未來的發(fā)展方向應(yīng)該是行業(yè)垂直化。在去年到現(xiàn)在的O2O大戰(zhàn)下,租車、約車、美甲、按摩、家教、外賣,這些以前同城交易網(wǎng)站通吃的類目,都被不同的垂直APP切了下來,一個(gè)APP只做一個(gè)品類,所有的需求都按照這個(gè)品類的行業(yè)特性去訂制,給用戶極致的使用體驗(yàn)。我們認(rèn)為數(shù)據(jù)挖掘領(lǐng)域未來也會(huì)更加垂直化。
我們做電商行業(yè)的數(shù)據(jù)挖掘,把線上大量的不同數(shù)據(jù)源匯聚到一起,然后有在零售咨詢行業(yè)經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家?guī)ьI(lǐng)分析團(tuán)隊(duì),根據(jù)零售業(yè)的特性,設(shè)計(jì)模型,分析數(shù)據(jù),得出最靠譜的結(jié)論。10多年前,百度有個(gè)電視廣告,唐伯虎對(duì)著一個(gè)老外說“百度更懂中文”。我相信我們現(xiàn)在可以對(duì)一些線上數(shù)據(jù)挖掘公司說“我們更懂零售”,同時(shí),也可以對(duì)傳統(tǒng)的咨詢公司說,“我們更懂互聯(lián)網(wǎng)”。
主持人:看到您對(duì)于數(shù)據(jù)挖掘及安全等方面都有多年的技術(shù)一線經(jīng)歷,請(qǐng)結(jié)合您自己這一路技術(shù)之路上的提升談?wù)劶夹g(shù)人該如何做到高效學(xué)習(xí)和提升技能?
崔侖:我一直認(rèn)為做技術(shù)是一個(gè)靠經(jīng)驗(yàn)吃飯的活兒,沒有什么速成之道。之前在阿里巴巴的時(shí)候,每年校招都很熱鬧,但最終能夠面試通過留下的,總是那么一兩個(gè)學(xué)校占了很大比例。我也經(jīng)常和他們聊,他們?cè)趯W(xué)校的時(shí)候,都有大量的項(xiàng)目實(shí)踐經(jīng)驗(yàn),甚至本科都有實(shí)際的項(xiàng)目。項(xiàng)目經(jīng)驗(yàn)加上學(xué)校里那種學(xué)術(shù)氣氛,讓他們迅速的積累了經(jīng)驗(yàn),進(jìn)入公司能夠很快上手,馬上投入生產(chǎn)。
我覺得學(xué)習(xí)技術(shù)上,有些細(xì)節(jié)的東西,需要深入研究。比如精通C語(yǔ)言的人,一定非常清楚數(shù)據(jù)結(jié)構(gòu)在內(nèi)存里是什么樣子的;做通信模塊的人,一定對(duì)select/epoll的原理及優(yōu)缺點(diǎn)非常了解;做互聯(lián)網(wǎng)前后端的人,我相信都對(duì)HTTP協(xié)議非常了解,都能夠用telnet訪問一個(gè)不加密的web服務(wù)器吧。雖說有這么多方向,但這些技術(shù)其實(shí)都是相通的,不會(huì)說我花了很多時(shí)間精通了這樣一個(gè)東西,以后萬(wàn)一跳槽或者轉(zhuǎn)型就沒用了。
另外,現(xiàn)在有很多新鮮的平臺(tái)、工具。像Spark,看到網(wǎng)上很多人拿出來說我們用了它,但是真正自己用的時(shí)候,又發(fā)現(xiàn)網(wǎng)上的資料很少,或者說都是些太基礎(chǔ)的,甚至僅僅是個(gè)HelloWorld。我覺得這樣的新鮮事物需要拿過來自己動(dòng)手試一下,這些都是別人為我們做好的工具,嘗試了才知道怎么用,遇到場(chǎng)境,才能自然而然的想到用它們。
主持人:請(qǐng)結(jié)合您的切身體會(huì)談?wù)勔幻细竦腃TO或技術(shù)團(tuán)隊(duì)管理者應(yīng)該是怎樣的?
崔侖:我覺得技術(shù)團(tuán)隊(duì)的小伙伴們都比較單純,所以和它們首先要以一種隊(duì)友的心態(tài)去相處。作為一個(gè)團(tuán)隊(duì)的帶頭人,首先要對(duì)所有的產(chǎn)品線都深入了解,根據(jù)產(chǎn)品的使用場(chǎng)景,時(shí)效性要求,穩(wěn)定性要求等方面,選取最適合的技術(shù)模型。其次,要能夠給團(tuán)隊(duì)明確的指出方向。當(dāng)然,不是每一次的決策都是正確的或者是最優(yōu)的,失敗了勇于承擔(dān)責(zé)任,對(duì)于個(gè)人來說,這也是一種經(jīng)驗(yàn),一種技術(shù)積累。
另外,對(duì)系統(tǒng)的可讀性可維護(hù)性還有文檔不能放寬要求。很多人都能感受到,尤其是在創(chuàng)業(yè)公司中,人員的流動(dòng)性相對(duì)于BAT來說,要高很多。每一次工作交接,都認(rèn)真對(duì)待,仍然難免有遺漏,在員工離職后還需要麻煩人家講解系統(tǒng)中的一些細(xì)節(jié)。
最后,還要有一些長(zhǎng)遠(yuǎn)的考慮。雖然我們不能像那些國(guó)際巨頭一樣,一個(gè)系統(tǒng)做出來,幾年都不需要重構(gòu),但看到產(chǎn)品半年的發(fā)展應(yīng)該還是可以的,該預(yù)留的接口預(yù)留出來,不能頻繁的對(duì)系統(tǒng)重構(gòu)。
主持人:技術(shù)團(tuán)隊(duì)的績(jī)效該怎么做才相對(duì)合理?能結(jié)合您過往的一些經(jīng)歷展開談?wù)劽矗?/p>
崔侖:星圖數(shù)據(jù)目前沒有嚴(yán)格的績(jī)效考核標(biāo)準(zhǔn),我覺得目前高速發(fā)展的狀態(tài)不應(yīng)該再給團(tuán)隊(duì)成員更大的壓力。小伙伴們都很拼,勞逸結(jié)合。比如雙十一之前大家都很忙,各種為雙十一訂制的系統(tǒng)和工具需要開發(fā)和完善的測(cè)試。現(xiàn)在雙十一過了,工作任務(wù)相對(duì)來說輕松一些,讓大家有時(shí)間靜下心來,研究一下自己感興趣的技術(shù)。
我在來星圖之前,在三家公司工作過,感覺績(jī)效考核最嚴(yán)格的是阿里。原則上是強(qiáng)制的2-7-1分配,即2成超出預(yù)期,7成符合預(yù)期,1成未達(dá)到預(yù)期。雖說有些嚴(yán)苛,但是也給了大家動(dòng)力,制造一種緊張競(jìng)爭(zhēng)的氛圍。但是我覺得在規(guī)模較小的公司里這樣的規(guī)則并不很合適。對(duì)于正處在高速發(fā)展期的公司來說,人才是最寶貴的,并且我一直認(rèn)為,相對(duì)于大團(tuán)隊(duì)來說,小團(tuán)隊(duì)的工作效率更高,凝聚力更強(qiáng),相對(duì)的產(chǎn)出比也就更高。所以我覺得在創(chuàng)業(yè)公司,績(jī)效需要人性化一些,靈活一些,以鼓勵(lì)和引導(dǎo)為主,畢竟大家都是做了那么多年技術(shù)過來的,誰(shuí)沒有個(gè)犯懶的時(shí)候。
主持人:對(duì)想在技術(shù)路線上走得更遠(yuǎn)的人,您都有什么建議和忠告?推薦一些您覺得非常不錯(cuò)的資料或者書籍吧。
崔侖:走技術(shù)路線,我想大家都會(huì)有一個(gè)自己的目標(biāo)或者說是夢(mèng)想。有人研究網(wǎng)絡(luò)安全,夢(mèng)想就是當(dāng)一個(gè)黑客;有人研究底層的破解調(diào)試技術(shù),可能是夢(mèng)想著能夠在內(nèi)存和匯編代碼中游走;有人研究各種前端技術(shù),夢(mèng)想著做出最炫酷的界面。我想說的是,大家做技術(shù)這行,必須要問問自己,真的喜歡做技術(shù)嗎?還是因?yàn)檫@個(gè)行業(yè)工作好找,薪水不錯(cuò),所以硬擠進(jìn)來的。
我在阿里的時(shí)候,因?yàn)橛辛藙?chuàng)業(yè)的想法,曾經(jīng)去某培訓(xùn)機(jī)構(gòu)咨詢過IOS/Android開發(fā)的速成班。發(fā)現(xiàn)他們標(biāo)榜的就是只要培訓(xùn)班畢業(yè)了,就能找到月薪多少的工作。我覺得這是不靠譜的。沒有興趣,沒有目標(biāo),為了拿工資而做技術(shù),是沒有發(fā)展前景的。所以我想說,要做技術(shù),堅(jiān)定的走這條路,首先問問自己,想要成為一個(gè)什么樣的人。
對(duì)于書籍和資料,現(xiàn)在技術(shù)類的資料在網(wǎng)上非常多,但個(gè)人感覺在檢索資料,尤其是代碼相關(guān)的資料時(shí),百度不太好用。百度很懂中文,但英文和代碼它不太懂。試試google和bing吧。另外,我不太建議直接拿資料來看。通常,我要是初步了解某一個(gè)新鮮的技術(shù),會(huì)先看看資料,對(duì)功能特性有些大概的了解。如果在項(xiàng)目中使用,會(huì)先做一些測(cè)試程序,在實(shí)踐的過程中再去查資料,我感覺這樣效率更高。
在網(wǎng)上找資料,其實(shí)基本靠搜索引擎和論壇。10年前有個(gè)技術(shù)論壇叫“大富翁論壇”,當(dāng)時(shí)感覺很有意思,以delphi為主,純做技術(shù)的討論,讓我印象深刻。但是后來delphi不行了,論壇也隨著衰敗了,慢慢被CSDN這樣的綜合技術(shù)社區(qū)取代。另外,還出現(xiàn)了一些像stackoverflow, segmentfault這樣名字蛋疼但是專門解決問題的論壇,很多開發(fā)過程中遇到的問題都能夠找到答案。
關(guān)于書籍,其實(shí)近幾年看得很少,一是線上資料越來越豐富,再一個(gè)是現(xiàn)在的新興技術(shù),書籍出版往往會(huì)落后于線上穩(wěn)定版本,看書的話總是看到舊的東西。所以新技術(shù)主要還是靠網(wǎng)上的資料,和跟其他使用者的交流。如果看書的話,我覺得還是看些基礎(chǔ)的,持續(xù)時(shí)間比較長(zhǎng)的。
最后,我為剛剛走入技術(shù)領(lǐng)域,準(zhǔn)備未來在技術(shù)領(lǐng)域一直走下去的同學(xué)推薦一本書吧——《Unix網(wǎng)絡(luò)編程》,一般大家都管它叫UNP。我工作10年,大部分時(shí)間是和C語(yǔ)言還有l(wèi)inux打交道。我現(xiàn)在還清楚的記得,10年前,在tom.com的辦公室,桌上放著幾本公用的《寶典》?,F(xiàn)在的網(wǎng)絡(luò)服務(wù)器是linux的天下,不管你是做內(nèi)核,做通信,做算法,做后臺(tái),通讀寶典,受益終身。
互動(dòng)環(huán)節(jié):感謝崔大牛! 首先很贊您說的做技術(shù)的態(tài)度。然后我想問幾個(gè)問題, 您還記得當(dāng)時(shí)你們榨干機(jī)器的每一滴內(nèi)存的一個(gè)例子嗎?很感興趣! 另外, 很多信息在網(wǎng)頁(yè)上是沒有的, 比如交易量, 你們是單獨(dú)靠淘寶網(wǎng)頁(yè)上那個(gè)賣出多少來計(jì)算嗎? 還有每個(gè)網(wǎng)頁(yè)結(jié)構(gòu)也可能變化, 是怎么知道哪一個(gè)dom是放你們所需要的信息的? 另外,這次雙十一有沒有出現(xiàn)系統(tǒng)意外,大家零時(shí)救火?謝謝!
崔侖:當(dāng)時(shí)我們?cè)谧鏊阉饕娴臅r(shí)候,因?yàn)樘詫毜恼緝?nèi)搜索,相對(duì)于網(wǎng)頁(yè)搜索更新速度非常高,所以基本上全靠服務(wù)器的cpu和內(nèi)存,而同時(shí)又需要做持久化的工作。所以使用了mmap,并且調(diào)整了內(nèi)核參數(shù),將數(shù)據(jù)鎖定在內(nèi)存中,不換出。另外,使用了各種調(diào)優(yōu)工具,測(cè)試cpu cache命中率等參數(shù),一點(diǎn)一點(diǎn)調(diào)整程序結(jié)構(gòu),作出最優(yōu)的方案。
星圖采集的數(shù)據(jù)不僅僅有網(wǎng)頁(yè)內(nèi)容,還會(huì)有一些其它的手段,比如分析用戶的評(píng)論時(shí)間,通過模型獲得交易量等網(wǎng)頁(yè)上沒有顯現(xiàn)出來的信息。我們?cè)诠緝?nèi)部有一套分析頁(yè)面和選取dom或者說 xpath的工具,能讓模版維護(hù)人員很方便的選取需要的html 節(jié)點(diǎn),對(duì)分析系統(tǒng)的模版實(shí)時(shí)更新。這個(gè)目前已經(jīng)是很成熟完善的技術(shù)了。今年雙十一技術(shù)部門雖然值班了50多個(gè)小時(shí),但是系統(tǒng)總體表現(xiàn)比較淡定,沒有出現(xiàn)什么意外情況。因?yàn)榇蠹易鲎懔藴?zhǔn)備。
互動(dòng)環(huán)節(jié):傳統(tǒng)制造業(yè)應(yīng)該通過哪些方面和大數(shù)據(jù)對(duì)接?。?/p>
崔侖:傳統(tǒng)制造業(yè)外部需要鏈接海量的市場(chǎng)信息,但是海量信息價(jià)值密度非常低,需要用大數(shù)據(jù)驅(qū)動(dòng)的工具幫助他們抽取信息中有價(jià)值的部分。當(dāng)然這對(duì)于每個(gè)業(yè)務(wù)部門都不同,所以需要根據(jù)業(yè)務(wù)邏輯來為他們提供場(chǎng)景化的數(shù)據(jù)應(yīng)用。
互動(dòng)環(huán)節(jié):想問下下分布式數(shù)據(jù)結(jié)構(gòu)在零售上的應(yīng)用。
崔侖:零售是指線上交易嗎?阿里的所有交易系統(tǒng),在好幾年前就已經(jīng)運(yùn)行在分布式系統(tǒng)了。分布式系統(tǒng)對(duì)于實(shí)時(shí)處理海量的實(shí)時(shí)交易是必不可少的。
互動(dòng)環(huán)節(jié):雙十一全網(wǎng)銷量最高的品類是手機(jī)?完全沒想到。
崔侖:按照我們的品類劃分,和監(jiān)測(cè)狀況,數(shù)據(jù)分析的結(jié)果排名第一確實(shí)是手機(jī)類目。家電這個(gè)大品類的銷售比手機(jī)略高。但是家電的子類目太多。
互動(dòng)環(huán)節(jié):對(duì)技術(shù)有興趣,但是小公司業(yè)務(wù)還不需要那些大型的架構(gòu)系統(tǒng),就算簡(jiǎn)單了解學(xué)習(xí)了高新技術(shù)也沒有實(shí)戰(zhàn)的平臺(tái),也難有深造。這點(diǎn)對(duì)我們技術(shù)方向的來說怎么去衡量,屬于技術(shù)職業(yè)發(fā)展的問題。
崔侖:確實(shí),創(chuàng)業(yè)公司能夠接觸到海量數(shù)據(jù)的不多。但是隨著業(yè)務(wù)發(fā)展大數(shù)據(jù)的處理必不可少。對(duì)于個(gè)人來說,可以去BAT,或者到星圖這樣有大數(shù)據(jù)氛圍的公司嘗試一下。
阿里和支付寶的交易系統(tǒng)都是自主開發(fā)的定制系統(tǒng),云計(jì)算平臺(tái),消息流處理,都非常復(fù)雜,可以查閱一下阿里相關(guān)的資料。