從離線到實時對客,湖倉一體釋放全量數(shù)據(jù)價值
近期,巨杉數(shù)據(jù)庫舉行線上發(fā)布會,發(fā)布基于「湖倉一體」架構(gòu)的v5.2版本,提升多項「實時」能力,詮釋公司「釋放全量數(shù)據(jù)價值」的價值主張。深度解析在數(shù)字化時代下,SequoiaDB如何圍繞金融銀行業(yè)的實時需求,全面提升結(jié)構(gòu)化查詢分析、非結(jié)構(gòu)化存取、性能監(jiān)控故障診斷及數(shù)據(jù)生命周期管理的四大能力,讓全量數(shù)據(jù)的價值從「內(nèi)部離線」向「實時對客」進一步釋放。會中,賽迪咨詢深度解讀全國首個《湖倉一體技術(shù)研究報告》,詳細介紹湖倉一體架構(gòu)的興起與未來發(fā)展方向。
巨杉基于數(shù)據(jù)湖的實時能力已經(jīng)達到全球領(lǐng)先,技術(shù)實力得到了金融頭部客戶的認可。2012年巨杉數(shù)據(jù)庫正式成立,并于2014年正式商用,產(chǎn)品已在超過100家金融銀行客戶規(guī)?;a(chǎn)上線,其中不乏中國人保、民生銀行、南方電網(wǎng)、中國太平保險等世界500強企業(yè)及廣發(fā)銀行、廣東省農(nóng)信、四川省農(nóng)信、吉林省農(nóng)信、恒豐銀行、渤海銀行、上海銀行、上海農(nóng)商銀行、中國證券登記結(jié)算有限公司、海通證券等典型客戶。在單一客戶中SequoiaDB所支持的最大數(shù)據(jù)量,已經(jīng)達到1.4萬億行、服務(wù)器規(guī)模超過400臺、數(shù)據(jù)容量達數(shù)PB;SequoiaDB更服務(wù)于多個政府平臺,如支持“粵省事”平臺的醫(yī)保、社保數(shù)據(jù)查詢,這些數(shù)據(jù)也助力新冠核酸檢測,幫助政府匹配核酸檢測情況。
雙核心:交易核心+數(shù)據(jù)核心,讓全量數(shù)據(jù)實時可得
過去的10年,是信息化向數(shù)字化轉(zhuǎn)型的10年,伴隨數(shù)字化的深化發(fā)展,企業(yè)不但需要面向業(yè)務(wù)交易的信息化傳統(tǒng)「交易核心」,同時更需要面向數(shù)據(jù)價值的「數(shù)據(jù)核心」。移動互聯(lián)網(wǎng)、AI、IOT、大數(shù)據(jù)等的興起與發(fā)展,數(shù)字化成為企業(yè)的全新課題,數(shù)據(jù)庫是企業(yè)數(shù)字化轉(zhuǎn)型的基石。
信息化時代,「交易核心」解決的是交易系統(tǒng)的問題,面向渠道、產(chǎn)品、客戶、核算及清算等業(yè)務(wù)流程,確保業(yè)務(wù)閉環(huán)。其交易過程產(chǎn)生的海量流水數(shù)據(jù),將成為「數(shù)據(jù)核心」的生產(chǎn)要素。
數(shù)字化時代,「數(shù)據(jù)核心」解決的是數(shù)據(jù)的采集、整理、聚合、運用等問題。數(shù)字化新核心將為信息化「交易核心」提供實時、跨業(yè)務(wù)的全量數(shù)據(jù),以及基于數(shù)據(jù)的決策依據(jù),實現(xiàn)數(shù)據(jù)價值的持續(xù)釋放。
「實時」是「釋放全量數(shù)據(jù)價值」的關(guān)鍵。10年前,巨杉數(shù)據(jù)庫自萌芽之初就意識到,數(shù)據(jù)會成為社會發(fā)展關(guān)鍵的要素資源,需要提供面向全量數(shù)據(jù)的實時對客及高并發(fā)處理能力。業(yè)界遇到的普遍痛點是,面向「交易核心」的數(shù)據(jù)庫因架構(gòu)及技術(shù)限制僅能服務(wù)于指定的業(yè)務(wù)系統(tǒng),且無法處理全量數(shù)據(jù);以Hadoop為代表的大數(shù)據(jù)產(chǎn)品雖然可以存放全量數(shù)據(jù),但無法提供實時處理能力,兩者皆無法滿足全量數(shù)據(jù)實時對客服務(wù)的發(fā)展需求。因此巨杉毅然開始了自研原生分布式數(shù)據(jù)庫內(nèi)核的道路,從「多模數(shù)據(jù)湖」、「實時數(shù)據(jù)湖」發(fā)展到「湖倉一體」,為客戶提供「數(shù)據(jù)核心」所需的全量數(shù)據(jù)存儲,實時對客服務(wù),及基于統(tǒng)一數(shù)據(jù)源的分析能力,充分激活客戶的離線數(shù)據(jù)。
四大實時能力提升,SequoiaDB v5.2釋放全量數(shù)據(jù)價值
巨杉數(shù)據(jù)庫基于湖倉一體架構(gòu)的SequoiaDB v5.2版本進行了多項更新,此次發(fā)布會主要介紹了四大實時特性的能力提升。即將發(fā)布的SequoiaDB v5.2版本讓全量數(shù)據(jù)的價值從「內(nèi)部離線」向「實時對客」進一步釋放。
查詢更實時,所有數(shù)據(jù)可毫秒級訪問。面向結(jié)構(gòu)化數(shù)據(jù),SequoiaDB v5.2版本提供深度的Join優(yōu)化及列存微分區(qū)技術(shù),在多個查詢場景下,性能達到了毫秒級實時返回;分析場景中,性能更獲得了10倍以上提升,讓數(shù)據(jù)湖的查詢分析更實時。
存取更實時,吞吐量提升30%以上。面向非結(jié)構(gòu)化數(shù)據(jù),巨杉通過「分片并發(fā)」及「可變分區(qū)大小」的技術(shù),相比原有版本,SequoiaDB v5.2版本吞吐量提升30%以上,讓數(shù)據(jù)湖的非結(jié)構(gòu)化數(shù)據(jù)存取更實時。
診斷更實時,業(yè)務(wù)問題分鐘級定位。發(fā)布會上,巨杉數(shù)據(jù)庫發(fā)布SAC運維管理工具的重要特性更新,運行監(jiān)控方面提供了全GUI的性能及故障分析能力,SAC基于分布式架構(gòu)的實時診斷,可實現(xiàn)業(yè)務(wù)問題分鐘級定位。
全量數(shù)據(jù)生命周期管理,提升人效及能效。部署架構(gòu)方面,支持多配置硬件的混合部署,針對高并發(fā)數(shù)據(jù)與低并發(fā)數(shù)據(jù),做到按需調(diào)度;面向橫跨結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),提供一體化的開發(fā)及管理能力,提升人效及能效,在成本可控的前提下,實現(xiàn)全量數(shù)據(jù)實時可用。
技術(shù)迭代互補,而非替代
巨杉數(shù)據(jù)庫深耕第三代分布式數(shù)據(jù)庫技術(shù),我們認為分布式數(shù)據(jù)庫的星辰大海,絕不僅限于對交易核心數(shù)據(jù)庫的替代。SequoiaDB的「湖倉一體」是從「多模數(shù)據(jù)湖」、「實時數(shù)據(jù)湖」結(jié)合「實時數(shù)倉」發(fā)展而來,為客戶提供「數(shù)據(jù)核心」所需的全量數(shù)據(jù)存儲,實時對客服務(wù),及基于統(tǒng)一數(shù)據(jù)源的分析能力,充分激活客戶的離線數(shù)據(jù)。SequoiaDB正通過湖倉一體架構(gòu)提供面向多模、實時、分析的需求,與各類集中式及分布式交易核心數(shù)據(jù)庫成為上下游合作伙伴,驅(qū)動數(shù)字化業(yè)務(wù)創(chuàng)新,釋放全量數(shù)據(jù)價值。
60年前誕生的第一代數(shù)據(jù)湖,以網(wǎng)格型、層次型數(shù)據(jù)庫為代表,至今還有不少企業(yè)依然在使用;第二代數(shù)據(jù)庫,以處理交易核心業(yè)務(wù)的關(guān)系型數(shù)據(jù)庫為代表,是當前業(yè)界的主流。第一、第二代數(shù)據(jù)庫大都基于集中式架構(gòu),因架構(gòu)、數(shù)據(jù)結(jié)構(gòu)的限制,導致大量的數(shù)據(jù)產(chǎn)生后,無法對業(yè)務(wù)流水、用戶過程數(shù)據(jù)等全量數(shù)據(jù)做保存沉淀。往往需要將全量數(shù)據(jù)異步導出到大數(shù)據(jù)等后端平臺,無法提供給終端用戶實時查詢分析,成為了僅對內(nèi)部使用的離線數(shù)據(jù),難以滿足終端用戶實時查詢需求。
巨杉數(shù)據(jù)庫SequoiaDB通過基于「湖倉一體」架構(gòu),支撐企業(yè)的「數(shù)據(jù)核心」。從企業(yè)多個「交易核心」數(shù)據(jù)庫所產(chǎn)生的業(yè)務(wù)流水數(shù)據(jù),可以以流式入湖的方式,秒級匯聚到SequoiaDB形成全量數(shù)據(jù)底座。
實時數(shù)據(jù)湖:為不同業(yè)務(wù)的跨系統(tǒng)查詢,或多年流水數(shù)據(jù)獲取,提供高并發(fā)的實時查詢能力,所有數(shù)據(jù)實時可得。相比原來跨多系統(tǒng)進行數(shù)據(jù)異構(gòu)訪問的方式,SequoiaDB協(xié)助客戶將業(yè)務(wù)響應(yīng)時間從分鐘、小時級延遲,到秒級延遲的改變,讓用戶滿意度獲得大幅提升。
多模數(shù)據(jù)湖:為影像系統(tǒng)、遠程銀行等需要大量管理非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng),提供多模數(shù)據(jù)湖技術(shù)重點優(yōu)化非結(jié)構(gòu)化對象數(shù)據(jù)的高并發(fā)實時存取能力,實現(xiàn)跨多數(shù)據(jù)類型的一體化管理,提升研發(fā)及運維的“人效”。
實時數(shù)倉:在數(shù)據(jù)湖內(nèi)提供高性能分析引擎,可以協(xié)助企業(yè)基于準確而且統(tǒng)一的數(shù)據(jù)源,進行數(shù)據(jù)的實時探索及分析、統(tǒng)計、加工,降低數(shù)據(jù)再次流動的開銷,提升數(shù)據(jù)處理“能效”,構(gòu)建綠色低碳的數(shù)據(jù)基礎(chǔ)設(shè)施。
培育數(shù)據(jù)沃土,打造產(chǎn)學研生態(tài)鏈
數(shù)據(jù)庫的發(fā)展不但需要技術(shù)的創(chuàng)新迭代,同時也需要建立良好的技術(shù)生態(tài)。
憑借南沙“立足灣區(qū)、協(xié)同港澳、面向世界”的發(fā)展定位,在過去的一年間,巨杉數(shù)據(jù)庫積極打造產(chǎn)學研生態(tài)鏈。通過分布式人才培養(yǎng)、高校協(xié)同、上下游企業(yè)賦能等,攜手客戶、合作伙伴、高校共同推進分布式技術(shù)的發(fā)展。目前,通過巨杉數(shù)據(jù)庫培訓認證的技術(shù)工程師已經(jīng)超過一萬人。
在高校協(xié)同方面,巨杉數(shù)據(jù)庫先后在華南理工大學、深圳大學設(shè)立長期的「巨杉數(shù)據(jù)庫獎學金」,推動中國分布式數(shù)據(jù)庫人才培育。在產(chǎn)業(yè)生態(tài)方面,巨杉積極推動行業(yè)標準、團標及生態(tài)聯(lián)盟的建設(shè),致力于建設(shè)一個開放的基礎(chǔ)軟硬件企業(yè)級生態(tài),特別是已經(jīng)與鯤鵬、飛騰、海光、麒麟、統(tǒng)信等廠商的150多款信創(chuàng)上下游產(chǎn)品完成互認證。
發(fā)布會上,賽迪咨詢也對全國首篇《湖倉一體技術(shù)研究報告》進行深度解讀,將湖倉一體技術(shù)定義為未來發(fā)展趨勢。
未來,巨杉數(shù)據(jù)庫SequoiaDB也將持續(xù)聚焦于分布式特性,通過「湖倉一體」架構(gòu)為客戶打造「數(shù)據(jù)核心數(shù)據(jù)庫」,成為數(shù)字化時代下堅實的數(shù)據(jù)基礎(chǔ)設(shè)施。在“信創(chuàng)”產(chǎn)業(yè)中,堅持踐行信息技術(shù)應(yīng)用創(chuàng)新的理念,服務(wù)于企業(yè)全量數(shù)據(jù)實時業(yè)務(wù)場景,與各類集中式及分布式交易核心數(shù)據(jù)庫成為上下游合作伙伴,驅(qū)動數(shù)字化的業(yè)務(wù)的創(chuàng)新發(fā)展,釋放全量數(shù)據(jù)價值。