中國郵政大數(shù)據(jù)平臺建設(shè)之總體架構(gòu)與實現(xiàn)
摘要:通過對數(shù)據(jù)處理階段性發(fā)展的解析,分析大數(shù)據(jù)、人工智能技術(shù)的發(fā)展趨勢。結(jié)合實際生產(chǎn)需求,驗證了基于容器云架構(gòu)的新一代大數(shù)據(jù)與人工智能平臺在數(shù)據(jù)分析、處理、挖掘等方面的強大優(yōu)勢。
關(guān)鍵詞:大數(shù)據(jù) 人工智能 云計算 Docker 基礎(chǔ)能力 多租戶
Abstract:Through analyzing the staged development of data processing, this paper analyzes the development trend of big data and AI technology. According to the requirement of customers, the new generation of big data and AI platform based on Docker Cloud verify the powerful advantages in data analysis, processing, mining and so on.
Key Words:Big data; AI; cloud computing; Docker;basic abilities; Multi-tenant
引言
人工智能、大數(shù)據(jù)與云計算三者有著密不可分的聯(lián)系。人工智能從1956年開始發(fā)展,在大數(shù)據(jù)技術(shù)出現(xiàn)之前已經(jīng)發(fā)展了數(shù)十年,幾起幾落,但當遇到了大數(shù)據(jù)與分布式技術(shù)的發(fā)展,解決了計算力和訓(xùn)練數(shù)據(jù)量的問題,開始產(chǎn)生巨大的生產(chǎn)價值;同時,大數(shù)據(jù)技術(shù)通過將傳統(tǒng)機器學習算法分布式實現(xiàn),向人工智能領(lǐng)域延伸;此外,隨著數(shù)據(jù)不斷匯聚在一個平臺,企業(yè)大數(shù)據(jù)基礎(chǔ)平臺服務(wù)各個部門以及分支機構(gòu)的需求越來越迫切。通過容器技術(shù),在容器云平臺上構(gòu)建大數(shù)據(jù)與人工智能基礎(chǔ)公共能力,結(jié)合多租戶技術(shù)賦能業(yè)務(wù)部門的方式將人工智能、大數(shù)據(jù)與云計算進行融合。
數(shù)據(jù)處理的發(fā)展階段
隨著信息技術(shù)的蓬勃發(fā)展,特別是近十年,移動互聯(lián)技術(shù)的普及,運營商、泛金融、政府、大型央企、大型國企、能源等領(lǐng)域數(shù)據(jù)量更是呈現(xiàn)幾何級數(shù)的增長趨勢。數(shù)據(jù)量的膨脹除了帶來了數(shù)據(jù)處理性能的壓力外,數(shù)據(jù)種類的多樣性也為數(shù)據(jù)處理手段提出了新的要求,大量新系統(tǒng)的建設(shè)同時產(chǎn)生了眾多數(shù)據(jù)孤島,給企業(yè)的數(shù)據(jù)運營維護與價值發(fā)掘帶來了重大的挑戰(zhàn)。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,企業(yè)的數(shù)據(jù)處理技術(shù)轉(zhuǎn)型也經(jīng)歷了幾個階段,如圖1所示。

▲圖1 企業(yè)數(shù)據(jù)處理轉(zhuǎn)型的階段變化
在***階段,大數(shù)據(jù)技術(shù)發(fā)展的早期,為了打破數(shù)據(jù)孤島,將各類數(shù)據(jù)向大數(shù)據(jù)平臺匯集,形成數(shù)據(jù)湖的概念,作為多源、異構(gòu)的數(shù)據(jù)的數(shù)據(jù)歸集,在此基礎(chǔ)上進行數(shù)據(jù)標準化,建立企業(yè)數(shù)據(jù)的匯聚中心。在這個階段,對非結(jié)構(gòu)化數(shù)據(jù)處理以存儲檢索為主,對結(jié)構(gòu)化數(shù)據(jù)處理提供各類API和少量SQL支持,使海量的以SQL實現(xiàn)為主的業(yè)務(wù)難以遷移到大數(shù)據(jù)平臺,新業(yè)務(wù)開發(fā)使用門檻高,大數(shù)據(jù)技術(shù)的推廣受到阻礙。
在第二階段,企業(yè)客戶的需求集中表現(xiàn)為,如何更好地處理結(jié)構(gòu)化數(shù)據(jù)以及將老的IT架構(gòu)遷移到分布式架構(gòu)中。各大數(shù)據(jù)平臺廠商開始在SQL on Hadoop領(lǐng)域進行研發(fā)和競爭,不斷提高SQL標準的兼容程度。在這個過程中,Spark誕生并逐漸取代了過于笨重且TB量級計算性能存在缺陷的MapReduce架構(gòu),Hadoop技術(shù)開始向結(jié)構(gòu)化數(shù)據(jù)處理分析更深度的應(yīng)用領(lǐng)域進發(fā)。隨著SQL on Hadoop技術(shù)的不斷發(fā)展與星環(huán)科技解決了Hadoop分布式事務(wù)的難題,越來越多的客戶在Hadoop上構(gòu)建新一代數(shù)據(jù)倉庫,將Hadoop技術(shù)應(yīng)用于越來越多的業(yè)務(wù)生產(chǎn)場景,技術(shù)門檻的降低,使越來越多的客戶可以利用強大的分布式計算能力輕松分析處理海量數(shù)據(jù)。在這個階段后期,隨著企業(yè)客戶對實時數(shù)據(jù)分析研判需求的不斷提高,流處理技術(shù)得以蓬勃發(fā)展。
在第三階段,一部分企業(yè)已經(jīng)完成了由基于關(guān)系型數(shù)據(jù)庫為核心的數(shù)據(jù)處理體系向基于大數(shù)據(jù)技術(shù)為核心的數(shù)據(jù)處理體系的轉(zhuǎn)變。在本階段早期,很多企業(yè)客戶不滿足于通過SQL基于統(tǒng)計對數(shù)據(jù)的分析和挖掘,促使傳統(tǒng)的機器學習算法開始實現(xiàn)分布化,但主要還是針對結(jié)構(gòu)化數(shù)據(jù)的學習挖掘。隨著深度學習技術(shù)和分布式技術(shù)的碰撞,演化出了新一代的計算框架,如TensorFlow等,計算能力的提升,并結(jié)合大量訓(xùn)練數(shù)據(jù),使機器學習人工智能技術(shù)在結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域產(chǎn)生巨大威力,開始應(yīng)用于人臉識別、車輛識別、智能客服、無人駕駛等領(lǐng)域;同時,對傳統(tǒng)機器學習算法產(chǎn)生了巨大沖擊,一定程度上減少了對特征工程與業(yè)務(wù)領(lǐng)域知識的依賴,降低了機器學習的進入門檻,使人工智能技術(shù)得以普及。另一方面,可視化的拖拽頁面、豐富的行業(yè)模板、高效率的交互式體驗,極大地降低了數(shù)據(jù)分析人員的使用門檻,讓人工智能技術(shù)進一步走入企業(yè)的生產(chǎn)應(yīng)用。
大數(shù)據(jù)、人工智能與云技術(shù)的融合
隨著企業(yè)內(nèi)部對于數(shù)據(jù)資源的應(yīng)用不再僅僅局限于IT部門,越來越多的內(nèi)部項目組與分支機構(gòu)加入大數(shù)據(jù)平臺的使用中,加之數(shù)據(jù)處理技術(shù)的不斷發(fā)展,如何解決基礎(chǔ)平臺的資源隔離問題、管理分配問題、編排調(diào)度問題;如何將企業(yè)業(yè)務(wù)應(yīng)用需要的基礎(chǔ)服務(wù)能力做更好地抽象,降低應(yīng)用所需的基礎(chǔ)服務(wù)的環(huán)境搭建、開發(fā)、測試部署周期,提升IT支撐效能;如何更好地管理眾多的基于大數(shù)據(jù)與人工智能開發(fā)的應(yīng)用等等成為企業(yè)急需解決的問題。
在大數(shù)據(jù)技術(shù)發(fā)展的早期,僅僅是在計算框架MapReduce中提供簡單的作業(yè)調(diào)度算法,隨著資源管理的需求,在Hadoop 2.0時代,Yarn作為單獨組件負責分布式計算框架的資源管理。但是,一方面,Yarn僅僅能夠管理調(diào)度計算框架的資源;另一方面,資源的管理粒度較為粗放,不能做到有效的資源隔離,越來越不能滿足企業(yè)客戶的需求。
云計算技術(shù)作為資源隔離封裝虛擬化,以及管理調(diào)度的技術(shù),本應(yīng)應(yīng)用于解決上述問題。但是,在Docker容器技術(shù)被廣泛接受之前,云計算虛擬化技術(shù)主要基于虛擬機封裝資源,并在其之上加載操作系統(tǒng),資源利用率低,早期有廠商嘗試將大數(shù)據(jù)平臺構(gòu)建在基于虛擬機技術(shù)的云化方案上,由于資源利用和穩(wěn)定性問題,在私有云上的嘗試鮮有成功案例。在公有云方面,借助公有云較為強大的基礎(chǔ)平臺硬件與運維支持能力,有一些非核心業(yè)務(wù)的應(yīng)用嘗試。
隨著Docker、Kubernetes等容器技術(shù)的發(fā)展,與微服務(wù)等技術(shù)概念的形成,大數(shù)據(jù)與人工智能基礎(chǔ)平臺開始基于容器云構(gòu)建底層資源管理與調(diào)度平臺。容器云就像一個分布式的操作系統(tǒng),將集群中的各類硬件資源進行封裝、管理以及調(diào)度,將封裝的資源作為容器承載大數(shù)據(jù)的相關(guān)組件進程,再將這些容器進行編排,組成一個個的大數(shù)據(jù)和人工智能的基礎(chǔ)服務(wù),如分布式文件系統(tǒng)HDFS、NoSQL數(shù)據(jù)庫Hbase、分布式分析型數(shù)據(jù)庫Inceptor、分布式流處理平臺Slipstream、分布式機器學習組件Sophon等。由這些基礎(chǔ)服務(wù)編排構(gòu)建公共能力服務(wù)層,提供如數(shù)據(jù)倉庫、數(shù)據(jù)集市、圖數(shù)據(jù)庫、全文搜索數(shù)據(jù)庫、流處理服務(wù)、NoSQL數(shù)據(jù)庫、機器學習平臺服務(wù)、定制圖像識別服務(wù)等,為企業(yè)打造全新的數(shù)據(jù)處理核心系統(tǒng)?;谶@一核心系統(tǒng)服務(wù)于各類企業(yè)的不同部門。通過資源隔離技術(shù),通過對每個租戶的資源分配和權(quán)限管理,滿足業(yè)務(wù)分析人員的個性化分析需求,專注于業(yè)務(wù)邏輯的開發(fā)和數(shù)據(jù)的分析挖掘。
技術(shù)融合的應(yīng)用
中國郵政大數(shù)據(jù)平臺建設(shè)以Transwarp Data Hub(以下簡稱TDH)與Transwarp Operating System(以下簡稱TOS)作為基礎(chǔ)架構(gòu)系統(tǒng),搭建的新一代邏輯數(shù)據(jù)倉庫和數(shù)據(jù)集市,完全取代了Teradata和Oracle。
總體架構(gòu)與實現(xiàn)
中國郵政大數(shù)據(jù)平臺服務(wù)于量收、郵務(wù)、名址等系統(tǒng),同時運用容器云TOS實現(xiàn)創(chuàng)新多租戶的數(shù)據(jù)分析挖掘環(huán)境。建立從業(yè)務(wù)層到管理層到?jīng)Q策層的智能分析體系,模擬量化風險和收益,實現(xiàn)對郵政各種業(yè)務(wù)數(shù)據(jù)進行分類、管理、統(tǒng)計和分析等功能,給各級管理人員提供各類準確的統(tǒng)計分析預(yù)測數(shù)據(jù),使其能夠及時掌握全面的經(jīng)營狀況,為宏觀決策提供支持;為省分公司基層業(yè)務(wù)人員提供詳盡的數(shù)據(jù),供其對各自的工作目標、當前和歷史狀況進行準確的把握,對業(yè)務(wù)活動進行有效支撐,滿足郵政經(jīng)營分析管理及決策支持。
中國郵政大數(shù)據(jù)平臺以五大基礎(chǔ)服務(wù)集群域為基礎(chǔ),分別是數(shù)據(jù)湖集群域、企業(yè)數(shù)據(jù)倉庫集群域、省分服務(wù)集群域、機器學習實驗室集群域、開發(fā)/測試/培訓(xùn)集群域。
(1)數(shù)據(jù)湖集群域:基于TDH平臺搭建的數(shù)據(jù)湖,主要承擔多源異構(gòu)的數(shù)據(jù)歸集,數(shù)據(jù)湖內(nèi)包括:原始數(shù)據(jù)池、清洗加工數(shù)據(jù)池、整合加工數(shù)據(jù)池等。
(2)企業(yè)數(shù)倉集群域:基于TDH搭架的數(shù)據(jù)倉庫集群,基于大數(shù)據(jù)創(chuàng)新搭架邏輯數(shù)據(jù)倉庫,用于遷移改造原有基于Teradata搭架的數(shù)據(jù)倉庫,數(shù)據(jù)集市和基于Oracle搭建的報刊集市的郵政量收管理系統(tǒng)。
(3)省分服務(wù)集群域:基于TOS搭建容器化多租戶數(shù)據(jù)分析平臺云。為省、市分公司開發(fā)人員和業(yè)務(wù)人員提供省分多租戶的平臺環(huán)境,集團分發(fā)數(shù)據(jù)與自有數(shù)據(jù)存儲計算,自有應(yīng)用的開發(fā)與管理,獨立租戶使用運行。
(4)機器學習實驗室集群域:基于TOS搭建的容器化多租戶大數(shù)據(jù)機器學習平臺,為集團數(shù)據(jù)中心分析師提供多租戶的開發(fā)實驗環(huán)境平臺,進行數(shù)據(jù)探查、業(yè)務(wù)建模、算法研究、應(yīng)用開發(fā)、成果推廣等。
(5)開發(fā)/測試/培訓(xùn)集群域:為應(yīng)用開發(fā)人員、系統(tǒng)測試人員、培訓(xùn)師、學員提供多租戶的大數(shù)據(jù)與機器學習平臺,為開發(fā)商及內(nèi)部單位提供開發(fā)測試培訓(xùn)服務(wù)。
以此為基礎(chǔ),達到了數(shù)據(jù)管理、服務(wù)管理、運維管控、安全管控四個維度的統(tǒng)一。在風險管控、決策支持、服務(wù)支撐、流程優(yōu)化、品牌創(chuàng)新、交叉營銷六大應(yīng)用領(lǐng)域展開應(yīng)用。實現(xiàn)了租戶管理、數(shù)據(jù)治理、數(shù)據(jù)加工、數(shù)據(jù)挖掘、數(shù)據(jù)探索、數(shù)據(jù)展現(xiàn)六大平臺功能。
數(shù)據(jù)湖和數(shù)據(jù)倉庫基于TDH構(gòu)建,將包括業(yè)務(wù)系統(tǒng)數(shù)據(jù)、實時流數(shù)據(jù)、合作單位數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等不同數(shù)據(jù)源,通過ESB接入、ETL工具、Kafka、Sqoop、文本上傳、人工接入等方式,統(tǒng)一匯聚進入數(shù)據(jù)湖。加工后獲得的數(shù)據(jù)資產(chǎn)發(fā)布到數(shù)據(jù)資產(chǎn)目錄,通過數(shù)據(jù)資產(chǎn)目錄的構(gòu)建TDH與TOS用戶間數(shù)據(jù)交互體系。便于用戶快速檢索數(shù)據(jù),通過數(shù)據(jù)資產(chǎn)目錄實現(xiàn)對數(shù)據(jù)的集成、融合、安全、共享。數(shù)據(jù)資產(chǎn)目錄包括:元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)安全、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量、數(shù)據(jù)輪廓、數(shù)據(jù)生命周期等。此外,企業(yè)用戶通過大數(shù)據(jù)門戶按需申請租戶存儲計算資源、數(shù)據(jù)資源、審批流程通過后,集群資源管理員按需快速部署集群,自動化將數(shù)據(jù)從數(shù)據(jù)湖加載入數(shù)據(jù)分析集群或省分集群對應(yīng)的租戶空間,供數(shù)據(jù)開發(fā)人員使用。數(shù)據(jù)開發(fā)人員會將數(shù)據(jù)應(yīng)用成果固化到數(shù)據(jù)湖內(nèi),對外提供數(shù)據(jù)服務(wù)。
數(shù)據(jù)倉庫與數(shù)據(jù)集市的完整遷移
中國郵政大數(shù)據(jù)平臺是全球***采用Hadoop(TDH)技術(shù)完全取代Teradata和Oracle的混合架構(gòu)搭建新一代邏輯數(shù)據(jù)倉庫和數(shù)據(jù)集市的系統(tǒng)。
原量收系統(tǒng)使用Teradata的數(shù)據(jù)倉庫和Oracle的數(shù)據(jù)庫,數(shù)據(jù)使用空間目前已接近30TB,現(xiàn)有使用用戶約5萬人,提供近約900張報表的靈活查詢,單日報表查詢頻次***能達到40萬次,月初高峰查詢需支持約2000計算查詢并發(fā)。
通過項目前期大量調(diào)研準備工作,制定了切實可行的項目實施方案。量收管理系統(tǒng)的總體架構(gòu)、ESB、BI工具、ETL工具、調(diào)度工具、門戶等都保持不變,僅將原量收系統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)集市,使用大數(shù)據(jù)平臺進行完全替換,降低了整個遷移風險。
整個遷移過程中,包括環(huán)境部署、模型遷移改造、接口遷移改造、數(shù)據(jù)遷移、ETL遷移改造、報表遷移改造、數(shù)據(jù)核對、性能優(yōu)化、業(yè)務(wù)應(yīng)用遷移、風險控制,系統(tǒng)測試等。例如模型遷移改造,不改變原有業(yè)務(wù)邏輯,只需對接口層模型,基礎(chǔ)層模型、匯總層模型進行輕度改造。對于模型改造來說,系統(tǒng)基礎(chǔ)層模型結(jié)構(gòu)相對復(fù)雜,關(guān)聯(lián)度相對較高,原系統(tǒng)使用Teradata數(shù)據(jù)庫。TDH全面兼容Teradata的數(shù)據(jù)類型與SQL方言,降低了遷移成本。同時遷移完成后,性能大幅提升,見圖2。

▲圖2 遷移前后數(shù)據(jù)集市業(yè)務(wù)場景500并發(fā)測試性能對比
基于容器云的大數(shù)據(jù)與機器學習平臺的全面應(yīng)用
基于TOS實現(xiàn)的多租戶新模式,將大數(shù)據(jù)與機器學習平臺組件完全容器化實現(xiàn),并在TOS提供能力服務(wù)。集團統(tǒng)一部署企業(yè)內(nèi)部云平臺,對郵政各個租戶(集團、省分、市局等)動態(tài)分配存儲、計算、網(wǎng)絡(luò)等資源,并實現(xiàn)完整的資源隔離,使得各個租戶數(shù)據(jù)分析人員和業(yè)務(wù)人員獲得相對獨立的資源環(huán)境,賦能業(yè)務(wù)創(chuàng)新,同時可動態(tài)調(diào)配資源,實現(xiàn)資源的共享優(yōu)勢。
集團、省分、市局各級人員通過多租戶平臺,實現(xiàn)資源發(fā)布、申請,使用及應(yīng)用開發(fā)、成果推廣。通過項目立項申請審批后,省分項目組人員在租戶空間內(nèi),接入訪問數(shù)據(jù)資源,使用平臺服務(wù)資源,大數(shù)據(jù)分析工具及機器學習挖掘工具展開數(shù)據(jù)分析挖掘工作,具體開展數(shù)據(jù)處理、模型開發(fā)、算法應(yīng)用、應(yīng)用發(fā)布等,在審批驗收之后,將成果推廣到數(shù)據(jù)湖上部署對全集團提供數(shù)據(jù)應(yīng)用服務(wù)。
通過TOS+TDH搭架厚平臺、薄應(yīng)用的微服務(wù)架構(gòu),實現(xiàn)租戶之間的異構(gòu)性、獨立測試與部署、資源按需伸縮、高性能計算能力、租戶間錯誤問題隔離、團隊全功能化。實現(xiàn)數(shù)據(jù)資產(chǎn)化管理。面對集團數(shù)據(jù)多樣、海量、跨板塊、跨專業(yè)的需求,集團對數(shù)據(jù)進行了全面梳理,創(chuàng)新集成各版塊、專業(yè)數(shù)據(jù),創(chuàng)建數(shù)據(jù)資產(chǎn)目錄便于快速檢索獲取資產(chǎn),管控治理資產(chǎn),讓數(shù)據(jù)即資產(chǎn)從理論階段上升到實現(xiàn)階段。
結(jié)語
隨著企業(yè)數(shù)據(jù)處理與服務(wù)需求的不斷發(fā)展,由大數(shù)據(jù)的匯聚,分布式技術(shù)釋放計算能力開始,技術(shù)不斷延伸發(fā)展,大數(shù)據(jù)、人工智能與云計算的邊界越來越模糊,三者技術(shù)的發(fā)展不斷互相影響與融合,這是發(fā)展與需求產(chǎn)生的自然趨勢。在“后大數(shù)據(jù)時代”,基礎(chǔ)大數(shù)據(jù)與人工智能云平臺的形成與落地會越來越多,真正實現(xiàn)科技賦能業(yè)務(wù),為企業(yè)提升效率與發(fā)展提供更強的心臟。同時,未來可以看到,企業(yè)可能會將其基于基礎(chǔ)能力平臺的應(yīng)用體系也上架到平臺的應(yīng)用市場中,充分利用云平臺的優(yōu)勢能力,資源共享,統(tǒng)一管理。