大數(shù)據(jù)應(yīng)用之路——大數(shù)據(jù)技術(shù)大會成功舉行
在當(dāng)今企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。大數(shù)據(jù)將挑戰(zhàn)企業(yè)的存儲架構(gòu)、數(shù)據(jù)中心的基礎(chǔ)設(shè)施等,也會引發(fā)數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、商業(yè)智能、云計算等應(yīng)用的連鎖反應(yīng)。未來企業(yè)會將更多的TB級(1TB=1024GB)數(shù)據(jù)集用于商務(wù)智能和商務(wù)分析。到2020年,全球數(shù)據(jù)使用量預(yù)計將暴增44倍,達到35.2ZB(1ZB=10億TB)。大數(shù)據(jù)正在徹底改變IT世界。大數(shù)據(jù)時代的來臨已經(jīng)毋庸置疑,尤其是在電信、金融 等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。這種趨勢已經(jīng)讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變。
恰逢此時,為了讓更多的人了解和使用分析大數(shù)據(jù),CSDN獨家承辦的大數(shù)據(jù)技術(shù)大會于2011年11月26日在北京中旅大廈隆重舉行。本次大會匯集 Hadoop、NoSQL、數(shù)據(jù)分析與挖掘、數(shù)據(jù)倉庫、商業(yè)智能以及開源云計算架構(gòu)等諸多熱點話題。包括百度、淘寶、新浪等業(yè)界知名專家與參會者齊聚一堂,共同探討大數(shù)據(jù)浪潮下的行業(yè)應(yīng)對法則以及大數(shù)據(jù)時代的抉擇。
大會背景
大數(shù)據(jù)的浪潮已經(jīng)影響到了很多企業(yè)。淘寶目前每天的活躍數(shù)據(jù)量已經(jīng)超過50TB,共有4億條產(chǎn)品訊息和2億多名注冊用戶在上面活動,每天超過 4000萬人次訪問;百度每日新增數(shù)據(jù)10TB,每天系統(tǒng)需要處理1PB的數(shù)據(jù),每天提交10000+ jobs,而每周有近百塊硬盤故障;上海證券交易所每秒處理近9萬筆業(yè)務(wù),每日成交筆數(shù)達到3億筆以上。
在這其中,還挾裹著一個更為重要的趨勢,即數(shù)據(jù)的社會化(Socialization of Data)。從博客論壇到游戲社區(qū)再到微博,從互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)再到物聯(lián)網(wǎng),人類以及各類物理實體的實時聯(lián)網(wǎng)已經(jīng)而且還將繼續(xù)產(chǎn)生難以估量的數(shù)據(jù)。對于時刻關(guān)注市場走向的企業(yè)來講,他們需要關(guān)注的數(shù)據(jù)顯然已經(jīng)不僅限于企業(yè)內(nèi)部數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù),還要包括互聯(lián)網(wǎng)(以及未來的物聯(lián)網(wǎng))上各類網(wǎng)絡(luò)活動所產(chǎn)生的相關(guān)數(shù)據(jù)記錄。
與此同時,在“大數(shù)據(jù)”時代出現(xiàn)了不少新興的數(shù)據(jù)挖掘技術(shù),使得對數(shù)據(jù)財富的儲存、處理和分析變得比以往任何時候都更便宜、更快速了。只要有了好的計算環(huán)境,那么大數(shù)據(jù)技術(shù)就能被眾多的企業(yè)所用,從而改變很多行業(yè)經(jīng)營業(yè)務(wù)的的方式。
大會三大亮點
本次大會包含最受關(guān)注的技術(shù)話題:Hadoop、NoSQL、數(shù)據(jù)分析與挖掘、數(shù)據(jù)倉庫、商業(yè)智能、開源云計算架構(gòu)等最受關(guān)注的技術(shù)熱點;最資深的技術(shù)專家:百度、淘寶、新浪等業(yè)界知名數(shù)據(jù)處理專家齊聚;***行業(yè)應(yīng)用實踐:金融、廣告、SNS、游戲、電子商務(wù)行業(yè)大數(shù)據(jù)架構(gòu)***實踐。九名講師圍繞架構(gòu)、數(shù)據(jù)分析、商業(yè)智能等話題,深入分享實戰(zhàn)經(jīng)驗,解析開發(fā)中普遍遇到的難點與技術(shù)熱點。
大會精彩內(nèi)容
金融領(lǐng)域大數(shù)據(jù)處理的專家ymall.com技術(shù)總監(jiān)巨建華表示高頻金融交易數(shù)據(jù)的主要特點是實時性和大規(guī)模,目前滬深兩市每天4個小時的交易時間 會產(chǎn)生3億條以上逐筆成交數(shù)據(jù),隨著時間的積累數(shù)據(jù)規(guī)模非常可觀,與一般日志數(shù)據(jù)不同的是這些數(shù)據(jù)在金融工程領(lǐng)域有較高的分析價值,金融投資研究機構(gòu)需要 經(jīng)常對歷史和實時數(shù)據(jù)進行挖掘創(chuàng)新,以創(chuàng)造和改進數(shù)量化交易模型,并將之應(yīng)用在基于計算機模型的實時證券交易過程中,因此一般的數(shù)據(jù)庫系統(tǒng)無法滿足如此大 規(guī)模和實時性,靈活性的要求。
而來自淘寶的兩位專家則分別介紹了淘寶在面臨大數(shù)據(jù)時代是如何解決存儲和數(shù)據(jù)處理的難題。淘寶核心系統(tǒng)存儲系統(tǒng)研發(fā)專家楊志豐表示淘寶每天大約有 6000萬用戶登錄以及20億PV量。淘寶數(shù)據(jù)庫對于淘寶來說非常重要。幾乎所有淘寶業(yè)務(wù)都依賴淘寶數(shù)據(jù)庫。淘寶數(shù)據(jù)庫具備數(shù)以千計的數(shù)據(jù)庫服務(wù)器同時要 應(yīng)對單表幾億至幾百億條的記錄以及每天幾億至幾百億次訪問。為了應(yīng)對大數(shù)據(jù)的沖擊,淘寶將以前的Oracle、小型機、高端存儲模式轉(zhuǎn)變到現(xiàn)今的 MySQL、OceanBase、Hbase、MongoDB等數(shù)據(jù)庫,并使用普通PC服務(wù)器。楊志豐表示OceanBase可擴展數(shù)千億條記錄、數(shù)百 TB數(shù)據(jù)、數(shù)十萬QPS以及數(shù)萬TPS。同時具備實時容錯、自動故障恢復(fù)和99.999%高可用性。
淘寶數(shù)據(jù)產(chǎn)品團隊負責(zé)人趙昆則表示現(xiàn)今淘寶面臨數(shù)據(jù)量大;內(nèi)容多樣(日志型數(shù)據(jù)、文本數(shù)據(jù)、關(guān)系型數(shù)據(jù));維度豐富(涵蓋近100個不同行業(yè)的商品 維度,五級商品類目體系、近 80000個品牌、商品維度+賣家維度+買家維度);源數(shù)據(jù)質(zhì)量不高(非法交易、惡意評價、用于自定義屬性)等問題。對于淘寶面臨的挑戰(zhàn),趙昆認為分布式 存儲計算、實時計算、實時流處理、基于云計算的數(shù)據(jù)挖掘、數(shù)據(jù)可視化和數(shù)據(jù)產(chǎn)品實踐等是應(yīng)對大數(shù)據(jù)浪潮的關(guān)鍵技術(shù)。趙昆***向大家介紹了淘寶的數(shù)據(jù)魔方。 他表示數(shù)據(jù)魔方是淘寶***個基于全量數(shù)據(jù)的數(shù)據(jù)產(chǎn)品。也是***個成熟的、基于海量數(shù)據(jù)的商業(yè)數(shù)據(jù)產(chǎn)品。數(shù)據(jù)魔方底層基于云計算,同時明年計劃開放數(shù)據(jù)給第 三方應(yīng)用。
Admaster數(shù)據(jù)挖掘總監(jiān)謝超作為數(shù)據(jù)分析領(lǐng)域的專家也闡述了當(dāng)今大數(shù)據(jù)下數(shù)據(jù)分析的形勢。他認為必須分布式存儲(TB/天)、多個海量數(shù)據(jù)集 (千億行join)、差的數(shù)據(jù)質(zhì)量以及不統(tǒng)一的數(shù)據(jù)格式(結(jié)構(gòu)化、半結(jié)構(gòu)化等、非結(jié)構(gòu)化合并分析數(shù)據(jù)集的特點)是數(shù)據(jù)存儲方案面臨的挑戰(zhàn)。謝超表示大數(shù)據(jù) BI的新需求包括大量化(多個大數(shù)據(jù)集并行分析)、多樣化(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)、快速化(Velocity)和價值(易用性)。而計算分層(流 計算、塊計算、全局計算)、快速分析(冗余維度、數(shù)據(jù)常駐在內(nèi)存中分析)和接近價值(業(yè)務(wù)人員易用的命令、靈活的編程框架)是解決新需求的BI方案。
互聯(lián)網(wǎng)巨頭新浪的云計算高級技術(shù)經(jīng)理叢磊透露了SAE的相關(guān)數(shù)據(jù),他表示2011年新浪SAE平臺注冊用戶已達50000,應(yīng)用超過100000, 日均PV達到1億,活躍開發(fā)者達到10000名。叢磊還介紹了新浪自己開發(fā)的的KVDB,KVDB用來支持公有云計算平臺上的海量key-value存 儲。KV DB支持的存儲容量很大,對每個用戶支持100G的存儲空間,可支持1000000000條記錄,用戶可以用KV DB存放簡單數(shù)據(jù),如好友關(guān)系等。KVDB具備存儲引擎可替換、任意模塊水平擴展、支持讀寫分離、支持前綴查找、支持secondary index、支持認證、支持重平衡和無縫遷移等優(yōu)勢。
***人云科技創(chuàng)始人兼總經(jīng)理吳朱華表示海量數(shù)據(jù)呈現(xiàn)“4V + 1C”的特點。既Variety:一般包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多類數(shù)據(jù),而且它們處理和分析方式有區(qū)別;Volume:通過各種設(shè)備產(chǎn)生了大量 的數(shù)據(jù),PB級別是常態(tài);Velocity:要求快速處理,存在時效性;Vitality:分析和處理模型必須快速變化,因為需求在 變;Complexity:處理和分析的難度非常大?;ヂ?lián)網(wǎng)企業(yè)、智能電網(wǎng)、車聯(lián)網(wǎng)、醫(yī)療行業(yè)和安全領(lǐng)域等都充分體現(xiàn)出海量數(shù)據(jù)的用途和價值。他認為中小 企業(yè)面對大數(shù)據(jù)的解決之道應(yīng)遵循采集、導(dǎo)入/處理、查詢、挖掘的流程。