自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專訪淘寶明風(fēng):如何構(gòu)建高性能的數(shù)據(jù)挖掘平臺?

原創(chuàng)
系統(tǒng) 系統(tǒng)運(yùn)維
淘寶是一家擁有海量數(shù)據(jù)的公司,對于數(shù)據(jù)挖掘來說,海量數(shù)據(jù)本身具有噪聲、異構(gòu)、算法復(fù)雜、技術(shù)復(fù)雜等問題,如何構(gòu)建高性能的數(shù)據(jù)挖掘平臺,對于淘寶而言非常重要。近年來,淘寶在數(shù)據(jù)實(shí)時性和大規(guī)模計算及挖掘方面積累了很多實(shí)踐經(jīng)驗(yàn),本文中,淘寶技術(shù)專家明風(fēng)在51CTO記者采訪時,也分享了很多經(jīng)驗(yàn)和方法。

【51CTO專稿】淘寶是一家擁有海量數(shù)據(jù)的公司,對于數(shù)據(jù)挖掘來說,海量數(shù)據(jù)本身具有噪聲、異構(gòu)、算法復(fù)雜、技術(shù)復(fù)雜等問題,如何構(gòu)建高性能的數(shù)據(jù)挖掘平臺,對于淘寶而言非常重要。近年來,淘寶在數(shù)據(jù)實(shí)時性和大規(guī)模計算及挖掘方面積累了很多實(shí)踐經(jīng)驗(yàn),本文中,淘寶技術(shù)專家明風(fēng)在51CTO記者采訪時,也分享了很多經(jīng)驗(yàn)和方法。

[[90809]]

(左:明風(fēng) 右:51CTO記者)

【嘉賓簡介】黃明,淘寶技術(shù)專家,花名:明風(fēng)。2010年加入淘寶,一直從事Hadoop相關(guān)的的數(shù)據(jù)開發(fā)和挖掘工作,見證和支持了基于云梯的數(shù)據(jù)開發(fā)平臺的發(fā)展?,F(xiàn)任淘寶技術(shù)部數(shù)據(jù)挖掘與計算團(tuán)隊(duì)的Leader,負(fù)責(zé)Spark計算平臺和淘寶數(shù)據(jù)推薦產(chǎn)品和業(yè)務(wù)。

淘寶的數(shù)據(jù)特點(diǎn)

對于淘寶的數(shù)據(jù)特點(diǎn),明風(fēng)認(rèn)為主要有以下幾個方面:

一、,淘寶每天的數(shù)據(jù)都是T級別的,怎樣對這些T級別的數(shù)據(jù)做很好的分析、采集、以及在做完數(shù)據(jù)清洗后,對于比較完整的行為數(shù)據(jù)進(jìn)行挖掘,這是個需要解決的難題。因?yàn)閿?shù)據(jù)量大的話,很多傳統(tǒng)算法很難直接應(yīng)用,需要進(jìn)行并行化的改進(jìn)。并行化改進(jìn)之后,數(shù)據(jù)會慢下來,如何在兩者之間達(dá)到一個平衡點(diǎn)是非常重要的。

二、復(fù)雜,淘寶上的主體是買家、賣家和店鋪,買家的行為是一個從收藏、搜索、購買、評論等,這些行為并不是按照一定的時間順序去發(fā)生的,而是混合在一起。這些數(shù)據(jù)行為代表了消費(fèi)者的購物模式,怎樣從混亂的行為中找到消費(fèi)者的購物模式,是一個很復(fù)雜的過程。

三、有趣,淘寶的數(shù)據(jù)很豐富,從用戶的復(fù)雜行為可以看見買家很多活生生的特點(diǎn),以及中國消費(fèi)者的消費(fèi)行為的心里,我們做過最簡單的數(shù)據(jù)統(tǒng)計分析,能夠了解中國各省女生需要買什么,男生需要買什么,這些數(shù)據(jù)能很好的反應(yīng)出中國消費(fèi)的一個風(fēng)向標(biāo),所以說淘寶的數(shù)據(jù)是非常有意思的。

構(gòu)建高性能的數(shù)據(jù)挖掘平臺

隨著數(shù)據(jù)挖掘業(yè)務(wù)的發(fā)展,基于傳統(tǒng)的Hadoop下的MapReduce,速度和靈活度,已經(jīng)不能滿足日益復(fù)雜的挖掘算法的需求,面臨多次迭代的機(jī)器學(xué)習(xí)算法,Mahout顯得力不從心。如何讓Hadoop這頭大象插上翅膀,飛馳起來,將大數(shù)據(jù)的價值發(fā)揮到淋漓盡致?明風(fēng)談到:“基于Yarn模式的Spark,可以兩者兼顧。”這并不是說淘寶要Follow業(yè)界最新的技術(shù),是因?yàn)樘詫氂袑?shí)際需求的。對于淘寶數(shù)據(jù)挖掘團(tuán)隊(duì)而言,一個高性能的計算框架對于在上層做數(shù)據(jù)挖掘與推薦是非常重要的,另外,在Spark上可以實(shí)現(xiàn)很多比較復(fù)雜的機(jī)器學(xué)習(xí)算法,用MLBase機(jī)器學(xué)習(xí)算法對消費(fèi)者的行為進(jìn)行最準(zhǔn)確的數(shù)據(jù)挖掘與分析,從而達(dá)到最好的推薦效果。

構(gòu)建過程中需要注意的問題

無論是選擇Spark還是選擇其他框架,都有一些共性的東西。明風(fēng)認(rèn)為,“首先你需要明白搭建這個高性能系統(tǒng)的瓶頸在哪里,一個系統(tǒng)多快是取決于最慢的那一點(diǎn),所以一定要把最慢的那一點(diǎn)提升到你需要的性能點(diǎn),才能獲得高性能。這一點(diǎn)是特別值得注意的。Spark能夠在一個批量計算以及流式計算中,取得一個很好的平衡,把中間的一個點(diǎn)降到最低,這個是非常必要的。”

其次,明風(fēng)談到:“淘寶在做Spark過程中,由于很多東西都是很新的,所以要保持和社區(qū)良好的互動交流,將我們的改動反饋到社區(qū)里,形成一個良性循環(huán)。在淘寶,無論是Hadoop、HBase還是Spark,我們都是這樣的工作模式,才能讓我們的平臺出在最佳的狀態(tài)。”

以上便是構(gòu)建高性能數(shù)據(jù)挖掘平臺的重點(diǎn)內(nèi)容,更多精彩看點(diǎn),請您關(guān)注以下視頻獲悉:

[[90810]]

責(zé)任編輯:黃丹 來源: 51CTO.com
相關(guān)推薦

2011-10-21 14:20:59

高性能計算HPC虛擬化

2011-10-25 13:13:35

HPC高性能計算Platform

2020-11-09 17:15:08

戴爾

2012-12-11 22:41:20

淘寶部署雙11

2011-12-15 13:28:57

2020-06-05 07:20:41

測試自動化環(huán)境

2023-08-11 08:34:40

開發(fā)工具

2011-10-24 09:43:18

高性能計算HPC云計算

2011-04-13 13:28:46

JavaScript程序員

2022-12-09 08:40:56

高性能內(nèi)存隊(duì)列

2023-10-12 09:00:00

AerospikeRedpanda高性能

2022-06-02 12:56:25

容器網(wǎng)絡(luò)云原生

2019-07-23 11:41:45

數(shù)據(jù)庫SQLDocker

2025-03-04 08:00:00

機(jī)器學(xué)習(xí)Rust開發(fā)

2009-06-03 14:24:12

ibmdwWebSphere

2009-10-29 09:11:50

Juniper高性能網(wǎng)絡(luò)

2009-08-12 17:48:56

存儲高性能計算曙光

2023-10-26 08:35:53

2024-12-02 14:28:17

JavaScriptWeb開發(fā)

2019-06-12 15:20:25

Redis高性能線程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號