大數(shù)據(jù)平臺技術(shù)發(fā)展脈絡
作為集團“大數(shù)據(jù)平臺技術(shù)”戰(zhàn)略研究的準備工作,本文梳理了近年來作者觀測到的大數(shù)據(jù)行業(yè)技術(shù)演進的路徑,希望把握發(fā)展脈絡,找到適合公司業(yè)務實際的方向。文章力求用通俗的方式描述概念,最大程度減少專業(yè)圖表與細節(jié),以便向公司管理層與業(yè)務部門同事介紹大數(shù)據(jù)平臺技術(shù)的發(fā)展與趨勢,這里分享給金融行業(yè)的朋友參考。
數(shù)據(jù)技術(shù)演進
軟件系統(tǒng),小到HelloWorld編程入門,大到數(shù)億人同時使用的社交軟件、搜索引擎,或者是基于公有云的軟件即服務(SaaS),本質(zhì)上都是在處理兩件事情:業(yè)務邏輯與數(shù)據(jù)。隨著信息時代的縱深發(fā)展,業(yè)務邏輯不斷豐富與演化的同時,其所產(chǎn)生與處理的數(shù)據(jù)量(Volume)也出現(xiàn)指數(shù)級的迅速增長,業(yè)務所要求的系統(tǒng)處理速度(Velocity)從批量向準實時與實時過度,數(shù)據(jù)的種類(Variety)也從簡單的結(jié)構(gòu)化的記錄向文本、語音、圖像視頻等豐富的形式發(fā)展。這就是大數(shù)據(jù)的三個最典型的特征。
傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)處理過程是:在線交易系統(tǒng)(OLTP,通常是關(guān)系型數(shù)據(jù)庫)產(chǎn)生的數(shù)據(jù),經(jīng)過Federation/ETL工具整合清洗后,加載到在線分析系統(tǒng)(OLAP,通常是數(shù)據(jù)倉庫、BI與統(tǒng)計分析),然后生成報表或統(tǒng)計模型。大數(shù)據(jù)的三個V對吞吐量、響應時間的要求都超越了這個成熟的模式的技術(shù)上限。因而催生了大量的能處理海量數(shù)據(jù)的新框架。
這些新框架沿著兩個思路解決吞吐量與響應時間的問題:垂直擴展(scale up)或 水平擴展(scale out)。垂直擴展門檻高,技術(shù)為IBM之類的大公司所壟斷,而水平擴展則門檻相對較低,以源自Google公司的Map Reduce為代表,在開源的推動下迅速普及。著名的Apache Hadoop就是此類技術(shù)的代表,具備強大的生命力。
這些新框架多來自程序社區(qū),其繁榮一度讓人們覺得可以淘汰數(shù)據(jù)社區(qū)SQL那套技術(shù)體系。隨著多種NoSQL 數(shù)據(jù)庫的廣泛應用,人們發(fā)現(xiàn),數(shù)據(jù)的一致性,可用性與并行性三者不是可以同時獲得的,強化其中之一是以弱化另外一個要素為代價的。而且編程方式的數(shù)據(jù)使用缺乏一致的標準,造成諸多問題。因而,程序社區(qū)與數(shù)據(jù)社區(qū)的逐步融合成為趨勢選擇,NoSQL 發(fā)展成 Not Only Sql, 再到 NewSQL, 水平擴展的新型數(shù)據(jù)處理框架獲得了標準化的SQL訪問界面。
在很多場景下,分而治之的方式可以解決吞吐量的問題,單位時間內(nèi),增加更多的機器,可以增加處理的數(shù)據(jù)量,Volume的問題得到解決。而系統(tǒng)對于處理速度的不懈追求,則可以通過不斷拉近數(shù)據(jù)與處理器(CPU)的距離得到滿足,磁帶到硬盤,硬盤到SSD,SSD 到 Flash, Flash到內(nèi)存,內(nèi)存到一二級Cache, 再到寄存器。從內(nèi)存數(shù)據(jù)庫到分布式Cache,再到Spark, 處理同等量的數(shù)據(jù)越來越快。
處理多樣性數(shù)據(jù)的系統(tǒng)也在與時俱進,對應數(shù)倉/BI時期的多媒體內(nèi)容管理系統(tǒng),多是以描述這些多媒體內(nèi)容的元數(shù)據(jù)作為索引,訪問鏈接到這些內(nèi)容數(shù)據(jù)。新分布式大數(shù)據(jù)處理框架下,則引入了文本分析,語音圖像的機器學習以至深度學習技術(shù)來“認識”這些內(nèi)容,而不是簡單的存儲與訪問?;诨ヂ?lián)網(wǎng)海量內(nèi)容的知識圖譜的構(gòu)建也有大幅度進步。
Fintech數(shù)據(jù)處理
金融,一直是數(shù)據(jù)系統(tǒng)的重量級應用行業(yè),信息化早,程度也高。隨著IBM ORACLE等巨頭在該行業(yè)深耕多年,金融機構(gòu)大多在傳統(tǒng)的數(shù)據(jù)體系上有了較為完備的建設。OLTP交易系統(tǒng)、數(shù)據(jù)同步、整合與治理、數(shù)據(jù)倉庫/集市、BI 報表與統(tǒng)計分析,是相對完善的。不少的企業(yè)還實現(xiàn)了內(nèi)容管理系統(tǒng)的建設使用。
互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)上面構(gòu)筑的數(shù)據(jù)資產(chǎn)壁壘,開發(fā)利用后獲取的競爭優(yōu)勢,讓傳統(tǒng)的金融企業(yè),特別是那些坐擁億萬客戶資源的金融企業(yè),開始意識到大數(shù)據(jù)帶來的價值以及潛在的驅(qū)動與變革力量,逐步重視積累與發(fā)掘利用大數(shù)據(jù)資產(chǎn),籍此提升企業(yè)的科技能力,獲取行業(yè)的競爭優(yōu)勢。“數(shù)據(jù)陽光”就是陽光保險集團高瞻遠矚的重要戰(zhàn)略。
金融行業(yè)服從嚴格的數(shù)據(jù)安全與監(jiān)管,對數(shù)據(jù)一致性近乎苛求。因而傳統(tǒng)的金融數(shù)據(jù)體系以可靠性與一致性為原則構(gòu)建,強調(diào)事務處理,其中涉及到的分布系統(tǒng)也都具備兩階段提交(2PC)等分布式事務能力。起源于互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)處理框架,則多選擇放松處理過程中的一致性要求,提升系統(tǒng)并行能力與性能,僅追求最終一致性。因而在金融數(shù)據(jù)體系中,分析型的系統(tǒng)相對交易系統(tǒng),更適合采用這些框架。
風險控制是金融企業(yè)核心能力,風控與征信變成金融大數(shù)據(jù)的主場景。獲取足夠的用戶行為數(shù)據(jù),建立合理的評估模型,有助于企業(yè)在用戶金融活動的整個生命周期規(guī)避風險,提升服務水平?,F(xiàn)行的金融技術(shù)體系,無法從技術(shù)上確保交易主體間的相互信任,需要依賴第三方征信主體參與,而鑒于數(shù)據(jù)碎片化、交易壁壘與隱私保護等因素,基于大數(shù)據(jù)的征信,目前以至未來很長時間,還有較大的改進空間。
區(qū)塊鏈技術(shù)的繁榮,以及與金融科技的逐步融合,有巨大的潛力改變現(xiàn)有的金融數(shù)據(jù)體系。區(qū)塊鏈被認為是技術(shù)保證信任的價值網(wǎng)絡,或者說是業(yè)務互聯(lián)網(wǎng)。業(yè)務實體可以相互信任的處理之間的金融交易,而無需中心征信機構(gòu)的參與。鏈上的數(shù)據(jù)以加密方式參與分布式事務/容錯(Paxos/PBFT),確保不可篡改的一致性。強的分布式與一致性,需以犧牲系統(tǒng)性能為代價,因而較為適合替代現(xiàn)有金融系統(tǒng)中的數(shù)據(jù)骨干網(wǎng)絡。而對于類似每秒10幾萬次交易的支付系統(tǒng)則是不適合的。
云支撐大數(shù)據(jù)
大數(shù)據(jù)是資源密集型的系統(tǒng),對于存儲、計算、網(wǎng)絡等核心IT資源需求強勁,自然成為云計算最佳支撐領域。目前主流的云平臺都配有自成體系的大數(shù)據(jù)系統(tǒng),滿足企業(yè)大數(shù)據(jù)處理端到端的需求,也就是從數(shù)據(jù)采集獲取、同步加載、整合清洗、安全管控、分析建模、可視化、機器學習、深度學習一整套支撐工具與系統(tǒng)。多數(shù)基于開源的體系定制并優(yōu)化,典型的如亞馬遜AWS 上的EMR,微軟Azure上的HDInsight等, 都基于Apache Hadoop。 這些能力通常具有非常強的伸縮性,多租戶共享,適應企業(yè)忙時閑時的不同需求,并且按照用量計費,用多少付多少費用。這些系統(tǒng)和工具多以平臺即服務(PaaS)+ 設施即服務(IaaS)方式在公有云上提供。
考慮到不少企業(yè),特別是金融企業(yè)的數(shù)據(jù)體系,具有非常強的數(shù)據(jù)安全與監(jiān)管要求,不少云平臺提供商將其公有云上的數(shù)據(jù)能力,也整合打包到其相應的私有云商業(yè)軟件套件之中,例如微軟私有云套件,阿里云私有云中的大數(shù)據(jù)平臺等。這些商業(yè)軟件套件按照企業(yè)用戶的要求,部署到企業(yè)自建自營的數(shù)據(jù)中心中,提供類似公有云上的端到端的數(shù)據(jù)能力。企業(yè)用戶獲得了對平臺、對數(shù)據(jù)自主控制的能力,損失了相應的彈性與及時更新。
云計算技術(shù)已進入普及階段,寡頭產(chǎn)生。國際巨頭亞馬遜、微軟、IBM紛紛落地中國,阿里,騰訊等幾家云計算也強勢崛起。這些主流的云平臺除了提供通用的大數(shù)據(jù)能力之外,還紛紛針對金融企業(yè)的特殊性推出相應的金融云服務,這里包括金融業(yè)務系統(tǒng)以及相應的數(shù)據(jù)保護、安全防攻擊等等,不同層級的軟硬件隔離或共享的策略,滿足不同的安全意愿。相應的服務日趨健全,例如新籌建保險公司,金融云可以與籌建團隊一起滿足保監(jiān)會在IT與數(shù)據(jù)層面的籌建要求。
目前國內(nèi)大型企業(yè)多采用公有云與私有云相結(jié)合的混合云方式,將核心的數(shù)據(jù)系統(tǒng)控制在自家的數(shù)據(jù)中心中,將部分前端業(yè)務系統(tǒng)與外圍業(yè)務系統(tǒng)部署到公有云上,以獲取一定的彈性與靈活性,節(jié)約成本。
從技術(shù)層面講,目前主流云平臺多以提供資源的虛擬化為基礎,將存儲、CPU、內(nèi)存、網(wǎng)絡以虛擬機或容器的方式實現(xiàn)邏輯隔離,基于邏輯上的隔離共享與調(diào)度支持上層的數(shù)據(jù)處理體系,如數(shù)據(jù)倉庫、分布式大數(shù)據(jù)框架(Hadoop, Spark等)、機器學習模型與算法等。并且依據(jù)大數(shù)據(jù)應用負載的不同,針對計算密集,磁盤IO密集或網(wǎng)路IO密集的不同特點,做不同的優(yōu)化,甚至拋開虛擬化,直接在硬件系統(tǒng)上部署大數(shù)據(jù)框架。
人工智能平臺
年過半百的人工智能,經(jīng)歷兩次發(fā)展低谷到近十年來再次爆發(fā),與大數(shù)據(jù)在深度與廣度上的積累,以及相關(guān)處理技術(shù)的長足進步密不可分。人工智能依賴機器學習,垂直領域不斷豐富的數(shù)據(jù)積累,為機器學習提供了原材料;開源的水平擴展的大數(shù)據(jù)框架為各種復雜的機器學習算法提供了價格低廉的算力,從而推動了人工智能在包括搜索、廣告、語音識別、圖像識別、自然語音理解等等領域的質(zhì)的飛躍。
機器學習就是發(fā)現(xiàn)用來學習的數(shù)據(jù)集里面隱含的規(guī)律的過程,簡單情況下,可以將這種隱含的規(guī)律描述為某種數(shù)學函數(shù),給定某些輸入,可以得到某些輸出。但大部分時候,機器學習的結(jié)果無法直觀表達為函數(shù),而是一個可以運行的計算模型,從此種意義上看,是數(shù)據(jù)產(chǎn)生了程序邏輯,以前這些邏輯只能由程序員編碼實現(xiàn)。目前這些機器學出來的模型廣泛應用在許多不同領域,來做分群、分類或者預測。
作為機器學習的一個重要前沿分支,深度學習技術(shù)在語音與圖像識別、自然語言處理,概念與內(nèi)容理解等方面帶來實質(zhì)性重大技術(shù)進步,已成為大數(shù)據(jù)價值轉(zhuǎn)化商業(yè)財富的有效手段。Google,微軟,F(xiàn)acebook,百度等科技巨頭在深度學習領域持續(xù)取得進展,研發(fā)成果也以開源的方式分享出來,例如Google的Tensorflow, 微軟的CNTK 等優(yōu)秀的深度學習框架,以及海量的標注數(shù)據(jù)。這些工具對Hadoop, Spark等開源大數(shù)據(jù)框架提供了良好支持,顯著降低了企業(yè)應用深度學習的門檻。
作為機器學習成果的綜合試驗場,移動設備上的智能聊天機器人(或稱私人助手)大熱。蘋果Siri, Google Now, 微軟Cortana都可以學習用戶行為習慣,理解語義語境,與用戶人機對話。這些聊天機器人吸引并沉淀了大量用戶,成為新的人機交互入口。Facebook,Google與微軟更是順勢推出 Bot Engine/Bot Framework等機器人引擎,其背后是云端的認知服務體系,一套也可做語音識別、自然語言理解、語音合成、視覺識別、情感分析、面部識別、視頻檢測,搜索等功能的人工智能平臺。廠商將這種智能的人機交互能力以機器人引擎加人工智能平臺的方式開放出來,用來構(gòu)建龐大的生態(tài)系統(tǒng)。
綜上所述,隨著企業(yè)與互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)不斷融合,大數(shù)據(jù)平臺技術(shù)呈現(xiàn)出兩大發(fā)展脈絡:(1)沿著從依托編程、專注物理底層邏輯,到深度依賴數(shù)據(jù)、數(shù)據(jù)產(chǎn)生業(yè)務邏輯的脈絡不斷進化。(2)新型的人機交互方式,則將大數(shù)據(jù)平臺技術(shù)能力服務化,而平臺支撐的機器學習算法的革新,則為這種服務持續(xù)賦予智能。可以預見,不遠的將來,智能化大數(shù)據(jù)平臺將成為公司數(shù)字化經(jīng)營決策的中樞神經(jīng),每一個公司都會有自己的數(shù)字大腦。