專訪TalkingData研發(fā)副總閻志濤:解讀大數(shù)據(jù)的秘密
原創(chuàng)
在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)的價(jià)值不言而喻。但是真正有價(jià)值的并非數(shù)據(jù)本身而是對(duì)數(shù)據(jù)進(jìn)行分析挖掘后的分析。對(duì)如今雨后春筍的互聯(lián)網(wǎng)公司來說,當(dāng)數(shù)據(jù)足夠多、足夠全面,他們甚至可以為用戶畫一幅數(shù)據(jù)肖像。現(xiàn)在幾乎所有的行業(yè)都在談大數(shù)據(jù),然而隨著移動(dòng)端的流量超越PC端,移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)就成為大數(shù)據(jù)中不可忽略的重要部分。
51CTO在2014年12月6日即將召開的2014 Spark亞太峰會(huì)前夕TalkingData研發(fā)副總裁閻志濤,為大家解讀互聯(lián)網(wǎng)數(shù)據(jù)的秘密。
在偏于碎片化的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)中,閻志濤認(rèn)為“數(shù)據(jù)主要分為設(shè)備信息,應(yīng)用行為信息,位置信息,傳感器信息這四大類”。
而其中的應(yīng)用行為信息在一定程度上可以反映用戶的習(xí)慣。而位置信息可以更加準(zhǔn)確的獲得用戶的位置對(duì)于O2O模式有著重要的意義。隨著智能硬件的爆發(fā)和普及,傳感器的數(shù)據(jù)信息更為重要。筆者在之前采訪一位做智能硬件的CEO時(shí)他也說道,傳感器就像智能硬件的大腦。所以對(duì)于智能硬件的數(shù)據(jù)收集、分析、挖掘,是智能硬件能否真正智能的關(guān)鍵。
閻志濤說:”智能硬件相比于軟件的信息更加瑣碎,相比于移動(dòng)應(yīng)用的依附于手機(jī)而存在的方式,智能硬件更加不容易普及。換句話說,每種智能硬件智能覆蓋一小部分用戶群體,然而真正的意義在于如何能夠把每個(gè)小部分群體的數(shù)據(jù)收集起來做一次整合,那樣才能發(fā)揮***的價(jià)值。“
但是在筆者看來目前智能硬件因?yàn)樾酒膬r(jià)格導(dǎo)致成本居高不下,而且并沒有殺手級(jí)的應(yīng)用出現(xiàn)。想替代傳統(tǒng)的硬件設(shè)備,尚需時(shí)日。而隨著智能手機(jī)的普及程度,以及手機(jī)硬件的配置增加,殺手級(jí)的移動(dòng)應(yīng)用、火爆的手機(jī)游戲卻是頻頻出現(xiàn)。
”從數(shù)據(jù)方面來看像淘寶、京東、唯品會(huì)這樣的電商應(yīng)用都會(huì)有不少的用戶群,而類似于360手機(jī)助手,Wifi***鑰匙的工具類應(yīng)用,因?yàn)槠渥陨韮r(jià)值也有一定的用戶群。從目前來看手機(jī)游戲中一些社交類,休閑類的游戲會(huì)有比較高的用戶群。“閻志濤告訴記者
2012年TalkingData Analytics上線,僅僅兩年唯品會(huì)、滴滴打車、聚美優(yōu)品、去哪兒都成為了它們的用戶,在移動(dòng)端的覆蓋量也達(dá)到了8億以上。
那么在處理如此龐大的數(shù)據(jù)的分析和挖掘時(shí)他們所選用的的框架如何處理這么海量的數(shù)據(jù)?
閻志濤告訴記者:現(xiàn)在每天要處理好幾個(gè)T的數(shù)據(jù),分為離線和實(shí)時(shí)兩條線。在離線方面最初選用的是典型的Hadoop的生態(tài)系統(tǒng),通過小時(shí)或者幾個(gè)小時(shí)的任務(wù)來保證最終數(shù)據(jù)一致性。然而在實(shí)時(shí)方面,由于用戶的需求比較特殊,我們基于Redis來實(shí)現(xiàn)我們的實(shí)時(shí)統(tǒng)計(jì)。隨著業(yè)務(wù)的發(fā)展,我們做了一個(gè)TD2.0的平臺(tái),它比離線的更優(yōu)秀,通過小批量的計(jì)算,完成準(zhǔn)實(shí)時(shí)的數(shù)據(jù)體現(xiàn)。而離線系統(tǒng)則逐漸的切換到以Spark為基礎(chǔ)的一個(gè)數(shù)據(jù)處理平臺(tái)。
其實(shí)在2012年Spark出現(xiàn)之初就因?yàn)槠浞奖愕刂С值\(yùn)算,對(duì)機(jī)器學(xué)習(xí)更友好的特點(diǎn)受到關(guān)注。閻志濤也提到:”是TalkingData的算法工程師最早使用Spark做迭代運(yùn)算,接著把平臺(tái)業(yè)務(wù)也在向上面做遷移。Spark相對(duì)Hadoop就是可以更好地進(jìn)行迭代運(yùn)算,以及及時(shí)請(qǐng)求的延時(shí)計(jì)算。最重要的是他的生態(tài)系統(tǒng)相比Hadoop更適合現(xiàn)在大數(shù)據(jù)分析的需求。“
然而在運(yùn)算的容錯(cuò)率,效率上,閻志濤說:”就我個(gè)人的使用情況來看,在一些方面Spark要優(yōu)于Hadoop。因?yàn)镠adoop對(duì)IO存在一種高依賴,所有的東西都要放到IO上shuffle出去放到磁盤再讀取進(jìn)來,這樣導(dǎo)致不能很好的利用機(jī)器的計(jì)算能力。而Spark本身RDD的模型能夠很好的減少對(duì)IO的依賴,充分利用內(nèi)存,從而提升了性能。“
但國內(nèi)的JAVA程序員使用Spark需要一個(gè)學(xué)習(xí)Scala的曲線。雖然Spark存在一些問題,但是互聯(lián)網(wǎng)公司生來就是為了解決問題的。
無論是Hadoop還是Spark,都是一種開源的技術(shù)并沒有高下之分。作為企業(yè)或者開發(fā)者需要擇其長處而用之。實(shí)際上,現(xiàn)在一些社區(qū)和論壇上出現(xiàn)了讓Hadoop和Spark融合的聲音。
閻志濤同樣認(rèn)為:目前這就是一種融合的狀態(tài),現(xiàn)在TalkingData一些即時(shí)計(jì)算需求、一些請(qǐng)求,都在用Spark做,一些基于Hadoop的生態(tài)系統(tǒng)也在往Spark上遷移。
Spark在國內(nèi)出現(xiàn)的時(shí)間不如Hadoop長,一些公司也越來越注重Spark的發(fā)展。閻志濤也說:”國內(nèi)有一個(gè)叫Spark Meetup的一個(gè)社區(qū),每一期都我們?cè)趨⑴c,參加的人也是越來越多?,F(xiàn)在像百度、京東、騰訊這些巨頭都在做Spark也越發(fā)的重視Spark畢竟Hadoop相對(duì)于Spark還是有那么一點(diǎn)點(diǎn)的老久不太適用于某些場景??梢哉fSpark在國內(nèi)越來越熱,發(fā)展也會(huì)越來越好。”
但是作為新興的技術(shù),必然也會(huì)有一些不足。拋開這項(xiàng)技術(shù)本身不說,因?yàn)閲鴥?nèi)畢竟是中文環(huán)境雖然有一些熱心的人寫博客,做翻譯,但是中文的資料還是供不應(yīng)求。所以需要更多的開發(fā)投入到Spark的建設(shè)之中。
都在說去IOE,TalkingData的技術(shù)團(tuán)隊(duì)很多核心成員都來自于IBM和Oracle在開源的問題上IBM和Oracle卻是兩種不同的態(tài)度。閻志濤表示,雖然我們的大部分成員來自IBM和Oracle這種傳統(tǒng)的軟件公司,但是畢竟現(xiàn)在是在互聯(lián)網(wǎng)企業(yè),用的也是互聯(lián)網(wǎng)的開發(fā)方式。其實(shí)IBM和Oracle兩家公司對(duì)于開源的態(tài)度也不太一樣。IBM相對(duì)于Oracle對(duì)于開源的態(tài)度就要開放的多。我們是以開源為主的,雖然用的數(shù)據(jù)庫是Apache并不會(huì)強(qiáng)制要求我們?cè)匍_回去,當(dāng)我們認(rèn)為自己做的夠好的時(shí)候,我們就會(huì)開回去。我也會(huì)要求我們的工程師把代碼放到開源的社區(qū)里邊,提高代碼質(zhì)量。明年我們團(tuán)隊(duì)就會(huì)有更多的人員活躍到開源社區(qū)當(dāng)中。
無論是哪一種開源技術(shù),都是千萬人智慧的結(jié)晶。Spark也不例外,但是國內(nèi)的開源現(xiàn)狀并不樂觀甚至是一種半死不活的狀態(tài),還被外國人詬病只進(jìn)不出。
對(duì)此閻志濤告訴記者,的確在以前我們的開源做的不是很好,但是現(xiàn)在比如淘寶和騰訊就把他們的一些技術(shù)開源了,我相信過國內(nèi)更多的企業(yè)逐漸的回去開源。就我了解Spark社區(qū),里邊有很多很活躍的來自中國的Contributor。我相信以后也會(huì)有越來越多的貢獻(xiàn)。
他也希望團(tuán)隊(duì)的產(chǎn)品做得稍微好一點(diǎn)的時(shí)候,我們?cè)匍_出去。因?yàn)檫@樣會(huì)更有價(jià)值,如果產(chǎn)品價(jià)值沒那么大,就會(huì)變成半死不活的狀態(tài),甚至是喪失價(jià)值。所以我們現(xiàn)階段努力把產(chǎn)品做好,預(yù)計(jì)在在2015年可能會(huì)把它變成一個(gè)開源項(xiàng)目。
在智能硬件頂著改變生活的光環(huán)出現(xiàn)的時(shí)候,大數(shù)據(jù)就成為讓其不跌落神壇的保障。無論是Spark還是Hadoop,都需要順應(yīng)時(shí)下的要求。取長補(bǔ)短,擇其優(yōu)者而用之。