華為大數(shù)據(jù)平臺,你了解多少?
提到大數(shù)據(jù)平臺,就不得不提Hadoop。Hadoop有三大基因:***,Hadoop需要share nothing的架構(gòu),所以它可以scale-out。第二,它是一個計算存儲解耦的架構(gòu),好處是計算引擎可以多樣化。舉個例子,批處理有Hive,交互查詢有Spark,機器學(xué)習(xí)還可以有后面的tensor flow這些深度學(xué)習(xí)的框架。第三,Hadoop是近數(shù)據(jù)計算的。因為大數(shù)據(jù)平臺是一個數(shù)據(jù)密集的計算場景,在這種非場景下,IO會是個瓶頸,所以把計算移動到數(shù)據(jù)所在地會提升計算的性能。
網(wǎng)絡(luò)技術(shù)的發(fā)展是推動大數(shù)據(jù)平臺發(fā)展的一個關(guān)鍵因素。2012年以前是一個互聯(lián)網(wǎng)的時代,這個時期互聯(lián)網(wǎng)公司和電信運營商,掌握著海量的數(shù)據(jù),所以他們開始利用Hadoop平臺來進行大數(shù)據(jù)的處理。那時候程序員自己寫程序跑在Hadoop平臺上來解決應(yīng)用問題。2012年以后移動互聯(lián)網(wǎng)的迅猛發(fā)展,這使得服務(wù)行業(yè)率先數(shù)字化。例如在金融行業(yè),手機App讓用戶可以隨時隨地查詢、轉(zhuǎn)賬,此時銀行開始面臨海量數(shù)據(jù)和高并發(fā)的沖擊,就需要一個大數(shù)據(jù)平臺來解決這個問題。這也就是為什么華為在2013年面向行業(yè)市場推出大數(shù)據(jù)平臺產(chǎn)品FusionInsight。接下來物聯(lián)網(wǎng)的發(fā)展會讓更多的實體行業(yè)數(shù)字化,數(shù)據(jù)的特征更多是半結(jié)構(gòu)化和非結(jié)構(gòu)化,AI等更多新的搜索技術(shù)將能夠幫助我們輕松地使用大數(shù)據(jù)平臺。
華為FusionInsight大數(shù)據(jù)平臺是集 Hadoop 生態(tài)發(fā)行版、大規(guī)模并行處理數(shù)據(jù)庫、大數(shù)據(jù)云服務(wù)于一體的融合數(shù)據(jù)處理與服務(wù)平臺,擁有端到端全生命周期的解決方案能力。除了提供包括批處理、內(nèi)存計算、流計算和MPPDB在內(nèi)的全方位數(shù)據(jù)處理能力外,還提供數(shù)據(jù)分析挖掘平臺、數(shù)據(jù)服務(wù)平臺,幫助用戶實現(xiàn)從數(shù)據(jù)到知識,從知識到智慧的轉(zhuǎn)換,進而幫助用戶從海量數(shù)據(jù)中挖掘數(shù)據(jù)價值。
此外華為FusionInsight大數(shù)據(jù)平臺是根據(jù)行業(yè)客戶需求進行優(yōu)化的解決方案。為解決用戶在具體場景下的問題,提供許多創(chuàng)新的技術(shù)能力,舉幾個例子:
***個是統(tǒng)一SQL。大數(shù)據(jù)技術(shù)中有很多能夠利用SQL語言進行數(shù)據(jù)處理的組件,比如Hive、SparkSQL、Elk、MPPDB等,當用戶對于這些組件進行業(yè)務(wù)開發(fā)時,需要對不同組件分別進行,造成很大的不便。FusionInsight提供統(tǒng)一SQL,對外業(yè)務(wù)界面只出現(xiàn)一個SQL開發(fā)管理界面,通過統(tǒng)一SQL的業(yè)務(wù)分發(fā)層進行業(yè)務(wù)分發(fā),這樣就簡化了業(yè)務(wù)開發(fā)。同時,華為還提供了SQL on Hadoop引擎Elk,這個引擎完全兼容SQL 2003標準,無需修改測試腳本就可以通過TPC-DS測試,性能超過開源產(chǎn)品3倍。通過使用統(tǒng)一SQL技術(shù),某大型保險公司實現(xiàn)了用大數(shù)據(jù)平臺替代傳統(tǒng)數(shù)倉,在復(fù)雜計算業(yè)務(wù)場景下,其性能提升了10-100倍。
第二個是實時搜索。華為FusionInsight率先實現(xiàn)了對Hadoop平臺與MPPDB數(shù)倉平臺的統(tǒng)一全文檢索,率先支持SQL on Solr接口,提升業(yè)務(wù)開發(fā)效率5倍以上,***標簽索引方案,提升搜索性能3-10倍。目前,實時搜索技術(shù)在平安城市和金融行業(yè)已經(jīng)實現(xiàn)商用。在國內(nèi)某省的平安城市項目中,百億級規(guī)模數(shù)據(jù)集中查詢,實時搜索響應(yīng)時間<3秒。
第三個是實時決策。與日常生活息息相關(guān)的很多業(yè)務(wù)是需要實時決策的,比如使用銀行卡交易過程中的風險控制。由于傳統(tǒng)技術(shù)處理速度的原因,往往只能實現(xiàn)事后風控。也就是說用戶在刷卡完成后,銀行才能夠檢查出來,剛才的交易是否有風險。這樣對于銀行和客戶而言,都會有很大的風險存在。而華為FusionInsight實時決策平臺,可以實現(xiàn)毫秒級復(fù)雜規(guī)則的風險檢查,提供百萬TIPS的業(yè)務(wù)處理能力,從而讓風險控制從事后變?yōu)槭轮?,并確保端到端的交易可在500毫秒內(nèi)完成,不影響交易用戶的體驗。
第四個是圖分析技術(shù)。在生活中有很多時候是需要進行用戶的關(guān)系分析來進行風險控制和業(yè)務(wù)處理的。如果我們的客戶中有一個是VIP客戶,那么他的朋友符合VIP客戶條件的可能性就會很大。因此如果我們能夠通過關(guān)系分析技術(shù)找到他的朋友圈,在針對他的朋友進行針對性營銷,那么業(yè)務(wù)成功的可能性也就會大大增加。但是,傳統(tǒng)的數(shù)據(jù)庫技術(shù)在處理客戶關(guān)系發(fā)現(xiàn)時很困難,某公司曾經(jīng)做過一個測試,想在2000萬客戶中發(fā)現(xiàn)客戶間的關(guān)系信息,但是一直無法算出來。但是用圖分析技術(shù)就可以很好解決這一類問題。因為在圖數(shù)據(jù)庫中,用戶就是點,用戶關(guān)系就是邊,發(fā)現(xiàn)用戶關(guān)系就變成了發(fā)現(xiàn)點與點間需要幾條邊的問題。華為的分布式圖數(shù)據(jù)庫,能夠?qū)崿F(xiàn)萬億頂點百億邊的實時查詢,從而很快發(fā)現(xiàn)用戶關(guān)系。在某項目中,華為幫助客戶實現(xiàn)了13.7億條關(guān)系圖譜數(shù)據(jù),3層關(guān)系查詢秒級響應(yīng),從而大大提高了業(yè)務(wù)響應(yīng)的速度。
***,華為大數(shù)據(jù)平臺是有著豐富的市場實踐的產(chǎn)品。華為FusionInsight大數(shù)據(jù)平臺已在40+個國家,總計700+項目中實現(xiàn)了成功商用??蛻舭ㄖ袊汀⒁黄瘓F、中國商飛、工商銀行、招商銀行、中國移動、西班牙電信等眾多世界500強企業(yè)。同時華為公司在全球建成有13個開放實驗室,在這里華為與各國200+合作伙伴進行大數(shù)據(jù)方案的聯(lián)合創(chuàng)新,包括SAP、埃森哲、IBM、宇信科技、中軟國際等,共同推動大數(shù)據(jù)技術(shù)在各行各業(yè)的應(yīng)用。
數(shù)博會正在進行中,相約數(shù)博會,與華為共同開啟大數(shù)據(jù)時代美好未來!