李松林:大數(shù)據(jù)實(shí)時(shí)處理技術(shù)以及其應(yīng)用
原創(chuàng)2013年4月26日-27日,由51CTO傳媒集團(tuán)旗下WOT(World Of Tech)品牌主辦的2013大數(shù)據(jù)全球技術(shù)峰會(huì)在北京富力萬(wàn)麗酒店召開。本次峰會(huì)將圍繞大數(shù)據(jù)基礎(chǔ)架構(gòu)與上層應(yīng)用的生態(tài)系統(tǒng),解決大規(guī)模數(shù)據(jù)引發(fā)的問題,探索大數(shù)據(jù)基礎(chǔ)的解決方案,激發(fā)數(shù)據(jù)挖掘帶來(lái)的競(jìng)爭(zhēng)力,讓數(shù)據(jù)發(fā)出聲音。51CTO作為本次峰會(huì)的主辦方,將全程視頻、圖文直播報(bào)道這場(chǎng)數(shù)據(jù)的盛宴,更多內(nèi)容請(qǐng)點(diǎn)擊專題:2013大數(shù)據(jù)全球技術(shù)峰會(huì)。
2013大數(shù)據(jù)全球技術(shù)峰會(huì)專題
李松林 京東商城商業(yè)智能和搜索部架構(gòu)師
京東如今擁有整個(gè)電子商務(wù)完整的產(chǎn)業(yè)鏈,京東面臨的大數(shù)據(jù)問題是:
1. 數(shù)據(jù)的來(lái)源更加豐富;
2. 數(shù)據(jù)間的關(guān)聯(lián)性更加復(fù)雜;
3. 數(shù)據(jù)的價(jià)值——包括時(shí)效性和新商業(yè)模式。
Hadoop大數(shù)據(jù)的處理更加容易,這體現(xiàn)在ETL/企業(yè)數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)挖掘/建模;搜索和推薦;日志存儲(chǔ)等等。實(shí)際上,MapReduce批處理存在著缺陷,延遲較長(zhǎng),無(wú)法滿足用戶的實(shí)時(shí)需求,調(diào)度開銷較大。
大數(shù)據(jù)包括三部分:
大數(shù)據(jù)實(shí)時(shí)處理需要思考的問題是:模型——海量數(shù)據(jù)、多個(gè)數(shù)據(jù)源整合、預(yù)定義好的數(shù)據(jù)模型、數(shù)據(jù)任務(wù)依賴關(guān)系簡(jiǎn)單、推和拉的問題;性能——高并發(fā)需求、大容量需求、高速度需求、批處理預(yù)算、硬件支持、容錯(cuò)、水平擴(kuò)展;服務(wù)——關(guān)聯(lián)獲取價(jià)值,緯度按需定制、互聯(lián)分析,報(bào)表等完成價(jià)值交付等。
大數(shù)據(jù)實(shí)時(shí)處理架構(gòu)
大數(shù)據(jù)實(shí)時(shí)分析
大數(shù)據(jù)實(shí)時(shí)處理技術(shù)的優(yōu)勢(shì)在于:服務(wù)和應(yīng)用;價(jià)值展現(xiàn)——分析可視化,數(shù)據(jù)可視化,數(shù)據(jù)反哺,計(jì)算即服務(wù);仔細(xì)思考其價(jià)值。
大數(shù)據(jù)應(yīng)用的問題主要來(lái)自于對(duì)系統(tǒng)的壓力,如何解決呢?前端和后端的解耦、壓縮、排隊(duì)、后端更強(qiáng)勁這三方面重點(diǎn)。
結(jié)尾:以上是51CTO.com記者從一線為您帶來(lái)的精彩報(bào)道。后續(xù)我們還有更加精彩的獨(dú)家報(bào)道,敬請(qǐng)關(guān)注。