馬如悅:大規(guī)模數(shù)據(jù)分析系統(tǒng)的搭建
原創(chuàng)2013年4月26日-27日,由51CTO傳媒集團旗下WOT(World Of Tech)品牌主辦的2013大數(shù)據(jù)全球技術峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數(shù)據(jù)基礎架構(gòu)與上層應用的生態(tài)系統(tǒng),解決大規(guī)模數(shù)據(jù)引發(fā)的問題,探索大數(shù)據(jù)基礎的解決方案,激發(fā)數(shù)據(jù)挖掘帶來的競爭力,讓數(shù)據(jù)發(fā)出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數(shù)據(jù)的盛宴,更多內(nèi)容請點擊專題:2013大數(shù)據(jù)全球技術峰會。
在第二天的數(shù)據(jù)挖掘與實時分析專場,***場演講由百度基礎架構(gòu)部高級工程師馬如悅帶來,他的主題是大規(guī)模數(shù)據(jù)分析系統(tǒng)的搭建。馬講師預測,到2015、2016年,數(shù)據(jù)分析將和移動、云計算一樣熱門,因此現(xiàn)在未雨綢繆很有必要。
馬講師首先提出了兩個觀點,數(shù)據(jù)系統(tǒng)和分層設計。數(shù)據(jù)系統(tǒng)必須包括storage和query,因此mysql是數(shù)據(jù)系統(tǒng),而HBase、NoSQL只能算存儲層。另外,大數(shù)據(jù)必須采用分層設計,包括:垂直分層-時效性庫,水平分層-OLTP、OLAP、NoSql等。分層可以減少設計復雜性、減少使用運維復雜性、資源效率使用***。
為什么要提出這兩個觀點呢,因為***,從小數(shù)據(jù)到大數(shù)據(jù),數(shù)據(jù)的存儲、處理都是不同的;第二,大數(shù)據(jù)系統(tǒng)也是storage+query;第三,大數(shù)據(jù)因為過于heavy,需要分層考慮。
另外,馬講師還提到了最近大數(shù)據(jù)系統(tǒng)的趨勢,Newsql和Interactive analysis開始被人提及和研究,nosql太過原始,sql容量性能有限,newsql相當于sql和nosql的中間實現(xiàn),即帶有事物處理的nosql;Hive響應太慢,數(shù)據(jù)庫容量性能有限,而Interactive analysis可以解決這些問題。
***,馬講師講到了大數(shù)據(jù)分析的架構(gòu)設計,底層是ETL-1,然后裝進數(shù)據(jù)倉庫,然后通過ETL-2,對數(shù)據(jù)進行分析,以前我們關注的都是底層,但是數(shù)據(jù)挖掘和分析缺乏關注。發(fā)展趨勢是數(shù)據(jù)量越來越大,維度越來越多,從以人為主到以機器為主,用戶專業(yè)度越來越高,但數(shù)量減少。
大數(shù)據(jù)系統(tǒng)搭建的一些解決方案,分別是商業(yè)版和開源版。開源版還沒有很成熟的產(chǎn)品來構(gòu)建大數(shù)據(jù)下的OLAP,中等規(guī)模可以用HPCC解決方案,可以代替一些商業(yè)產(chǎn)品。
在QA環(huán)節(jié),來自Oracle的參會者和馬講師就商業(yè)與開源進行了精彩的辯論,馬講師講到,如果數(shù)據(jù)是公司的核心競爭力,那么采用開源方案可以不依賴他人,并且有自己的技術專利。
以上是51CTO.com記者從一線為您帶來的精彩報道。后續(xù)我們還有更加精彩的獨家報道,敬請關注。